👀 Nemotron-H aborda el razonamiento a gran escala mientras mantiene la velocidad -- con 4 veces el rendimiento de modelos de transformador comparables.⚡
Vea cómo la investigación logró esto utilizando una arquitectura híbrida Mamba-Transformer y el ajuste fino del modelo ➡️
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
👀 Nemotron-H aborda el razonamiento a gran escala mientras mantiene la velocidad -- con 4 veces el rendimiento de modelos de transformador comparables.⚡
Vea cómo la investigación logró esto utilizando una arquitectura híbrida Mamba-Transformer y el ajuste fino del modelo ➡️