El Portal de las Tecnologías para la Innovación

La arquitectura híbrida Hymba mejora el rendimiento de los modelos de lenguaje pequeños

Los investigadores de NVIDIA propusieron recientemente Hymba , una familia de modelos de lenguaje pequeños (SLM) que presenta una arquitectura paralela de cabezales híbridos que integra mecanismos de atención de transformadores con SSM para lograr una mayor eficiencia y un mejor rendimiento.

Los transformadores, con su arquitectura basada en la atención, se han convertido en la opción dominante para los modelos de lenguaje (LM) debido a su alto rendimiento, capacidades de paralelización y recuperación a largo plazo a través de cachés de clave-valor (KV). Sin embargo, su costo computacional cuadrático y sus altas demandas de memoria plantean desafíos de eficiencia. Por el contrario, los modelos de espacio de estado (SSM) como Mamba y Mamba-2 ofrecen una complejidad constante y una optimización eficiente del hardware, pero tienen dificultades con las tareas de recuperación de memoria, lo que afecta su rendimiento en los puntos de referencia generales.

Los investigadores de NVIDIA propusieron recientemente Hymba , una familia de modelos de lenguaje pequeños (SLM) que presenta una arquitectura paralela de cabezales híbridos que integra mecanismos de atención de transformadores con SSM para lograr una mayor eficiencia y un mejor rendimiento. En Hymba, los cabezales de atención brindan una recuperación de alta resolución, mientras que los cabezales SSM permiten un resumen de contexto eficiente.

La novedosa arquitectura de Hymba revela varias ideas:

  1. Sobrecarga en atención: más del 50% del cálculo de atención se puede reemplazar con un cálculo SSM más económico.
  2. Dominio de la atención local: la mayor parte de la atención global puede ser reemplazada por atención local sin sacrificar el rendimiento en tareas generales y que requieren un uso intensivo de la memoria, gracias a la información global resumida por los jefes del SSM.
  3. Redundancia de caché KV: la caché clave-valor está altamente correlacionada entre cabezas y capas, por lo que se puede compartir entre cabezas (atención de consulta de grupo) y capas (uso compartido de caché KV entre capas).
  4. Limitación de atención de Softmax: los mecanismos de atención están restringidos a sumar uno, lo que limita la escasez y la flexibilidad. Introducimos metatokens aprendibles que se anteponen a las indicaciones, almacenan información crítica y alivian la carga de “atención forzada” asociada con los mecanismos de atención.

Esta publicación muestra que Hymba 1.5B tiene un rendimiento favorable frente a los modelos de código abierto de última generación de tamaño similar, incluidos Llama 3.2 1B, OpenELM 1B, Phi 1.5, SmolLM2 1.7B, Danube2 1.8B y Qwen2.5 1.5B. En comparación con los modelos Transformer de tamaño similar, Hymba también logra un mayor rendimiento y requiere 10 veces menos memoria para almacenar la caché.

Hymba 1.5B se lanza a la colección Hugging Face y GitHub .

Rendimiento del Hymba 1.5B

La Figura 1 compara Hymba 1.5B con modelos sub-2B (Llama 3.2 1B, OpenELM 1B, Phi 1.5, SmolLM2 1.7B, Danube2 1.8B, Qwen2.5 1.5B) en términos de precisión promedio de la tarea, tamaño de caché (MB) en relación con la longitud de la secuencia y rendimiento (tok/seg).

Una figura que muestra tres métricas de rendimiento que comparan siete modelos de lenguaje de IA diferentes en términos de precisión promedio, tamaño de caché (MB) en relación con la longitud de la secuencia y rendimiento (tok/seg).
Figura 1. Comparación del rendimiento de Hymba 1.5B Base frente a modelos sub-2B 

En este conjunto de experimentos, las tareas incluyen MMLU, ARC-C, ARC-E, PIQA, Hellaswag, Winogrande y SQuAD-C. El rendimiento se mide en una GPU NVIDIA A100 con una longitud de secuencia de 8K y un tamaño de lote de 128 utilizando PyTorch. Para los modelos que encontraron problemas de falta de memoria (OOM) durante la medición del rendimiento, el tamaño del lote se redujo a la mitad hasta que se resolvió el OOM para medir el rendimiento máximo alcanzable sin OOM.

Diseño del modelo Hymba 

Los SSM como Mamba se introdujeron para abordar la complejidad cuadrática y los grandes problemas de caché KV en el tiempo de inferencia de los transformadores. Sin embargo, debido a su memoria de baja resolución, los SSM tienen dificultades con la recuperación de la memoria y el rendimiento. Para superar estas limitaciones, proponemos una hoja de ruta para desarrollar LM pequeños eficientes y de alto rendimiento en la Tabla 1.

ConfiguraciónRazonamiento de sentido común (%) ↑Recordatorio (%) ↑Rendimiento (token/seg) ↑Tamaño de caché (MB) ↓Razón de diseño
Ablaciones en modelos de tamaño 300M y tokens de entrenamiento de 100B
Transformador (Llama)44.0839,98721.1414.7Recuerdo preciso aunque ineficiente 
Modelos de espacio de estados (Mamba)42,9819.234720.81.9Recuperación eficiente aunque imprecisa
A. + Atención cabezas (secuenciales)44.0745,16776.3156.3Mejorar las capacidades de recuperación
B. + Cabezales multicabezal (paralelos)45,1949,90876.7148.2Mejor equilibrio de dos módulos
C. + Atención local/global44,5648,792399.741.2Aumente la eficiencia de procesamiento y almacenamiento en caché
D. + Uso compartido de caché KV45,1648.042756.539.4Eficiencia de la caché
E. + Metatokens 45,5951,792695.840.0Inicialización de memoria aprendida
Escalado a un tamaño de modelo de 1,5 mil millones y tokens de entrenamiento de 1,5 T
F. + Tamaño/datos60,5664,15664.178.6Mejorar aún más el rendimiento de las tareas
G. + Longitud de contexto extendida (2K→8K)60,6468,79664.178.6Mejorar las tareas de recuperación y disparo múltiple

Tabla 1. Hoja de ruta de diseño del modelo Hymba

Módulos híbridos fusionados 

Según el estudio de ablación, la fusión de las cabezas de atención y SSM en paralelo dentro de un módulo de cabeza híbrida supera el apilamiento secuencial. Hymba fusiona las cabezas de atención y SSM en paralelo dentro de un módulo de cabeza híbrida, lo que permite que ambas cabezas procesen la misma información simultáneamente. Esta arquitectura mejora el razonamiento y la precisión de la memoria.

Diagrama que muestra la arquitectura de un mecanismo de atención de doble ruta. El flujo comienza con una proyección de entrada, que conduce a la extracción de características latentes que se divide en dos rutas paralelas. La ruta superior (en azul) contiene el procesamiento de características SSM a través de cabezales SSM y normalización de compuertas. La ruta inferior (en rojo) procesa características de atención a través de cabezales de atención y normalización de compuertas. Ambas rutas convergen en una operación media antes de la proyección de salida final. Las flechas indican el flujo de datos a través del sistema.
Figura 2. El módulo de cabezal híbrido en Hymba

Eficiencia y optimización de caché KV

Si bien los cabezales de atención mejoran el rendimiento de las tareas, aumentan los requisitos de caché KV y reducen el rendimiento. Para mitigar esto, Hymba optimiza el módulo de cabezal híbrido combinando la atención local y global y empleando el uso compartido de caché KV entre capas. Esto mejora el rendimiento en 3 veces y reduce el caché en casi 4 veces sin sacrificar el rendimiento. 

Diagrama que muestra la arquitectura de un modelo de red neuronal con bloques Hymba. El modelo fluye de izquierda a derecha, comenzando con una capa de incrustación, seguida de bloques Hymba alternados con atención total (en rojo) y SWA (en azul). Los bloques están conectados con KV compartido cada 2 capas, que se muestran en cuadros verdes punteados etiquetados como "Repetir (N-3)/2". Debajo del flujo principal, hay una vista detallada de un módulo que contiene la norma de capa, el módulo de cabeza híbrida, otra norma de capa y componentes FFN. El diagrama termina con una capa de cabeza LM a la derecha.
Figura 3. Arquitectura del modelo Hymba

Metatokens

Un conjunto de 128 incrustaciones entrenadas previamente que se anteponen a las entradas y que funcionan como inicialización de caché aprendida para mejorar el enfoque en la información relevante. Estos tokens cumplen una doble función: 

  • Mitigar la pérdida de atención actuando como tokens de respaldo, redistribuyendo la atención de manera efectiva
  • Encapsulando el conocimiento mundial comprimido
Diagrama que ilustra la arquitectura de Fading Memory de SSM (State Space Model). La imagen muestra tres capas: en la parte superior hay un recuadro rectangular azul con la etiqueta 'Fading Memory (From SSM)' (Memoria de desvanecimiento (de SSM)). Debajo hay siete tokens de entrada grises dispuestos horizontalmente. En la parte inferior hay dos conjuntos de bloques de memoria: a la izquierda hay dos bloques verdes con la etiqueta 'Meta Memory (Meta Tokens)' (Metamemoria (tokens meta)' y a la derecha hay tres bloques rojos con la etiqueta 'Snapshot Memory (From Attn)' (Memoria instantánea (de atención)). Las flechas verdes conectan la Meta Memory con los tokens de entrada, mientras que las flechas rojas conectan la Snapshot Memory con los tokens de entrada más a la derecha. Una flecha azul hace un bucle desde el recuadro Fading Memory hasta sí misma.
Figura 4. Interpretación de Hymba desde el aspecto de la memoria

Análisis de modelos

En esta sección se presenta una comparación de igual a igual entre diferentes arquitecturas bajo la misma configuración de entrenamiento. Luego, visualizamos los mapas de atención de SSM y Attention en diferentes modelos entrenados previamente. Por último, realizamos un análisis de importancia de la cabeza para Hymba mediante poda. Todos los análisis de esta sección ayudan a ilustrar cómo y por qué las opciones de diseño para Hymba son efectivas. 

Comparación de manzanas con manzanas 

Realizamos una comparación de igual a igual de las arquitecturas Hymba, Mamba2 pura, Mamba2 con FFN, estilo Llama3 y estilo Samba (Mamba-FFN-Attn-FFN). Todos los modelos tienen mil millones de parámetros y se entrenan desde cero para 100 mil millones de tokens de SmolLM-Corpus con exactamente la misma receta de entrenamiento. Todos los resultados se obtienen a través de lm-evaluation-harness utilizando una configuración de disparo cero en modelos Hugging Face. Hymba tiene el mejor desempeño en razonamiento de sentido común, así como en tareas de respuesta a preguntas y de memoria intensiva. 

La Tabla 2 compara varias arquitecturas de modelos en tareas de modelado de lenguaje y de razonamiento de sentido común y de memoria intensiva, y Hymba logra un sólido desempeño en todas las métricas. Hymba demuestra la menor perplejidad en tareas de lenguaje (18,62 para Wiki y 10,38 para LMB) y sólidos resultados en tareas de memoria intensiva, particularmente en SWDE (54,29) y SQuAD-C (44,71), lo que lleva al puntaje promedio más alto en esta categoría (49,50). 

ModeloIdioma (PPL) ↓Recordatorio intensivo (%) ↑Razonamiento de sentido común (%) ↑
Mamba215,8843.3452,52
Mamba2 con FFN17.4328,9251.14
Llama316.1947.3352,82
Samba16.2836.1752,83
Himba14.549,554,57

Tabla 2. Comparación de arquitecturas entrenadas con 100 mil millones de tokens bajo la misma configuración

En razonamiento de sentido común y respuesta a preguntas, Hymba supera a otros modelos en la mayoría de las tareas, como SIQA (31,76) y TruthfulQA (31,64), con una puntuación media de 54,57, ligeramente por encima de Llama3 y Mamba2. En general, Hymba se destaca como un modelo equilibrado, que destaca tanto en eficiencia como en rendimiento de tareas en diversas categorías.

Visualización del mapa de atención

Además, clasificamos los elementos del mapa de atención en cuatro tipos: 

  1. Meta: puntuaciones de atención de todos los tokens reales a los metatokens. Esta categoría refleja la preferencia del modelo por prestar atención a los metatokens. En los mapas de atención, suelen estar ubicados en las primeras columnas (por ejemplo, 128 para Hymba) si un modelo tiene metatokens. 
  2. BOS: puntuaciones de atención de todos los tokens reales hasta el token de inicio de secuencia. En el mapa de atención, suelen estar ubicados en la primera columna justo después de los metatokens. 
  3. Yo: puntuaciones de atención de todos los tokens reales hacia ellos mismos. En el mapa de atención, suelen estar ubicados en la línea diagonal. 
  4. Cruz: puntuaciones de atención de todos los tokens reales a otros tokens reales. En el mapa de atención, normalmente se ubican en el área fuera de la diagonal. 

El patrón de atención de Hymba es significativamente diferente al de los Transformers tradicionales. En los Transformers tradicionales, las puntuaciones de atención están más concentradas en BOS, lo que es coherente con los hallazgos en Attention Sink. Además, los Transformers tradicionales también tienen una mayor proporción de puntuaciones de atención en Self. En Hymba, los metatokens, las cabezas de atención y las cabezas SSM funcionan de manera complementaria entre sí, lo que conduce a una distribución más equilibrada de las puntuaciones de atención entre los diferentes tipos de tokens. 

En concreto, los metatokens descargan las puntuaciones de atención de BOS, lo que permite que el modelo se centre más en los tokens reales. Los cabezales SSM resumen el contexto global, que se centra más en los tokens actuales (puntuaciones de atención propia). Los cabezales de atención, por otro lado, prestan menos atención a los tokens propios y de BOS, y más atención a otros tokens (es decir, puntuaciones de atención cruzada). Esto sugiere que el diseño de cabezal híbrido de Hymba puede equilibrar eficazmente la distribución de la atención entre diferentes tipos de tokens, lo que potencialmente conduce a un mejor rendimiento.

Diagrama que muestra la composición del mecanismo de atención Hymba. Consta de tres componentes que se suman: Meta Tokens (mostrados como una franja verde vertical a la izquierda), Sliding Window Attention (mostrados como una banda verde diagonal) y SSM (Mamba) (representado como un gradiente verde triangular). Estos tres patrones se combinan para formar el patrón Hymba final a la derecha, que muestra un área triangular llena de cuadrados verdes de intensidad variable. Cada componente se muestra en un formato de cuadrícula y la combinación se muestra utilizando signos más entre los componentes y un signo igual antes del resultado final.
Figura 5. Esquema del mapa de atención de Hymba como una combinación de metatokens, atención de ventana deslizante y contribuciones de Mamba
Una visualización comparativa que muestra los patrones de atención en diferentes modelos de lenguaje. La imagen consta de tres partes principales: 1) Tres mapas de calor de atención para los modelos Llama 3.2 3B e Hymba 1.5B, que muestran patrones diagonales en colores violeta, amarillo y azul. 2) Un diagrama de cuadrícula que muestra las conexiones de tokens BOS (Inicio de secuencia) con las secciones Meta y Cross marcadas. 3) Tres gráficos de barras apiladas horizontales que comparan las distribuciones porcentuales de los patrones de atención Meta, BOS, Cross y Self en Llama 3.2 3B y dos variantes de los modelos Hymba, con porcentajes claramente etiquetados en diferentes colores.
Figura 6. Suma de la puntuación de atención de diferentes categorías en Llama 3.2 3B y Hymba 1.5B

Análisis de la importancia de las cabezas 

Analizamos la importancia relativa de la atención y de los cabezales SSM en cada capa, eliminándolos y registrando la precisión final. Nuestro análisis revela lo siguiente: 

  • La importancia relativa de las cabezas de atención/SSM en la misma capa es adaptativa a la entrada y varía según las tareas, lo que sugiere que pueden cumplir diferentes funciones al manejar distintas entradas.
  • El cabezal SSM en la primera capa es fundamental para el modelado del lenguaje, y eliminarlo provoca una caída sustancial en la precisión a niveles de conjeturas aleatorias.
  • En general, quitar un cabezal de atención/SSM da como resultado una caída de precisión promedio de 0,24 %/1,1 % en Hellaswag, respectivamente.
Gráfico de líneas que compara la precisión de Hellswag (eje y que va de 0,45 a 0,50) en 32 capas diferentes (eje x). El gráfico muestra tres elementos: una línea discontinua horizontal denominada Orig Model en aproximadamente 0,493 y dos conjuntos de barras en azul y naranja que representan Remove Attn y Remove SSM, respectivamente. Las barras fluctúan ligeramente por encima y por debajo de la línea del modelo original, y la mayoría de los valores se encuentran entre 0,47 y 0,495. El gráfico compara el impacto de eliminar los mecanismos de atención frente a los componentes de SSM en diferentes capas del modelo.
Figura 7. Precisión lograda, medida con muestras de 1K de Hellaswag, después de retirar los cabezales Attention o SSM en cada capa

Arquitectura de modelos y mejores prácticas de capacitación

Esta sección describe las decisiones arquitectónicas clave y las metodologías de capacitación para Hymba 1.5B Base y Hymba 1.5B Instruct.

Arquitectura del modelo

  • Arquitectura híbrida: Mamba es excelente para realizar resúmenes y, por lo general, se centra más en el token actual, mientras que la atención es más precisa y actúa como memoria instantánea. Al combinarlos en paralelo, se fusionan estos beneficios, pero la fusión secuencial estándar no lo hace. Elegimos una relación de parámetros de 5:1 entre los cabezales SSM y de atención.
  • Atención de ventana deslizante: los cabezales de atención completos se conservan en tres capas (primera, última y media), y los cabezales de atención de ventana deslizante se utilizan en el 90 % restante de las capas.
  • Uso compartido de caché KV entre capas: se implementa entre cada dos capas de atención consecutivas. Se realiza además del uso compartido de caché KV de GQA entre los nodos.
  • Metatokens: estos 128 tokens se pueden aprender sin supervisión, lo que ayuda a evitar problemas de colapso de entropía en modelos de lenguaje grandes (LLM) y a mitigar el fenómeno de pérdida de atención. Además, el modelo almacena conocimiento general en estos tokens. 

Mejores prácticas de capacitación 

  • Preentrenamiento: optamos por un entrenamiento del modelo base en dos etapas. La etapa 1 mantuvo una tasa de aprendizaje constante y utilizó datos de corpus grandes menos filtrados. Luego, se realizó una reducción continua de la tasa de aprendizaje a 1e-5 utilizando datos de alta calidad. Este enfoque permite el entrenamiento continuo y la reanudación de la etapa 1.
  • Ajuste fino de las instrucciones: el ajuste del modelo de instrucciones se realiza en tres etapas. En primer lugar, SFT-1 proporciona al modelo sólidas capacidades de razonamiento mediante el entrenamiento en código, matemáticas, llamadas a funciones, juegos de roles y otros datos específicos de la tarea. En segundo lugar, SFT-2 enseña al modelo a seguir instrucciones humanas. Por último, se aprovecha la DPO para alinear el modelo con las preferencias humanas y mejorar su seguridad.
Línea de entrenamiento para la familia de modelos Hymba dividida en cinco secciones que se leen (de izquierda a derecha) Preentrenamiento general, recocido LR, SFT-1, SFT-2 y DPO.
Figura 8. Proceso de entrenamiento adaptado para la familia de modelos Hymba

Evaluación del desempeño y eficiencia 

Con solo 1,5 T de tokens de preentrenamiento, el modelo Hymba 1.5B tiene el mejor desempeño entre todos los LM pequeños y logra un mejor rendimiento y eficiencia de caché que todos los LM basados ​​en transformadores. 

Por ejemplo, al realizar una evaluación comparativa con la línea base más sólida, Qwen2.5, que está entrenada previamente con 13 veces más tokens, Hymba 1.5B logra una mejora de precisión promedio del 1,55 %, un rendimiento de 1,41 veces y una eficiencia de caché de 2,90 veces. En comparación con el LM pequeño más sólido entrenado con menos de 2T tokens, concretamente h2o-danube2, nuestro método logra una mejora de precisión promedio del 5,41 %, un rendimiento de 2,45 veces y una eficiencia de caché de 6,23 veces.

Modelo# ParámetrosFichas de trenToken
por segundo
Caché
(MB)
MMLU 5
disparos
ARC-E 0 disparosARC-C 0 disparosPIQA 0 disparosborracho. 0 disparosHella. 0 disparosEscuadrón -C
de un disparo
Promedio
Abrir
ELM-1
1.1B1,5 toneladas24634627.0662.3719.5474,7661.848.3745.3848,57
René
v0.1
1.3B1,5 toneladas80011332,9467.0531.0676,4962,7551,1648.3652,83
Pi
1,5
1.3B0,15 toneladas241157342,5676,1844,7176,5672,854830.0955,85
Pequeño
LM
1.7B1 tonelada238157327.0676,4743.4375,7960,9349,5845,8154,15
Cosmo1.8B.2T244157326.162,4232,9471,7655.842.938,5147.2
h20
dan-ube2
1.8B2T27149240.0570,6633.1976.0166,9353.749.0355,65
Llama 3.2 1B1.2B9T53526232.1265,5331.3974,4360,6947,7240,1850,29
Qwen
2.5
1.5B18T46922960,9275,5141.2175,7963.3850.249,5359,51
AMD
OLMo
1.2B1,3 toneladas387104926,9365,9131,5774,9261,6447.333,7148,85
Pequeño
LM2
1.7B11T238157350,2977,7844,7177.0966.3853,5550,560.04
Llama
3.2 3B
3.0B9T19191856.0374,5442.3276,6669,8555,2943,4659,74
Himba1.5B1,5 toneladas6647951,1976,9445.977.3166,6153,5555,9361.06

Tabla 2. Resultados del modelo base Hymba 1.5B

Modelos instruidos 

El modelo Hymba 1.5B Instruct logra el mayor rendimiento en promedio de todas las tareas, superando al modelo de última generación anterior, Qwen 2.5 Instruct, en alrededor de un 2 %. En concreto, Hymba 1.5B supera a todos los demás modelos en GSM8K/GPQA/BFCLv2 con una puntuación de 58,76/31,03/46,40, respectivamente. Estos resultados indican la superioridad de Hymba 1.5B, en particular en áreas que requieren capacidades de razonamiento complejas.

Modelo# Parámetros↑ MMLU-LIFEval ↑GSM8K ↑Acreditación de calidad de la salud ↑BFCLv2 ↑Promedio ↑
Pequeño LM1.7B27,8025.161.3625,67-*20.00
OpenELM1.1B25,656.2556.0321.62-*27.39
Llama 3.21.2B44.4158,9242,9924.1120.2738.14
Qwen2.51.5B59,7346,7856.0330.1343,8547.30
SmolLM21.7B49.1155.0647,6829.2422,8340,78
Hymba 1.5B1.5B52,7957,1458,7631.0346,4049,22

Tabla 3. Resultados del modelo Instruct de Hymba 1.5B

Conclusión

La nueva familia Hymba de LM pequeños presenta una arquitectura de cabezal híbrido que combina las capacidades de recuperación de alta resolución de los cabezales de atención con el resumen de contexto eficiente de los cabezales SSM. Para optimizar aún más el rendimiento de Hymba, se introducen metatokens aprendibles para que actúen como una memoria caché aprendida tanto para los cabezales de atención como para los SSM, lo que mejora el enfoque del modelo en la información destacada. A través de la hoja de ruta de Hymba, evaluaciones integrales y estudios de ablación, Hymba establece un nuevo rendimiento de vanguardia en una amplia gama de tareas, logrando resultados superiores tanto en precisión como en eficiencia. Además, este trabajo proporciona información valiosa sobre las ventajas de las arquitecturas de cabezal híbrido, lo que ofrece una dirección prometedora para futuras investigaciones en LM eficientes.

Obtenga más información sobre Hybma 1.5B Base y Hymba 1.5B Instruct .

Expresiones de gratitud

Este trabajo no habría sido posible sin las contribuciones de muchas personas de NVIDIA, incluidos Wonmin Byeon, Zijia Chen, Ameya Sunil Mahabaleshwarkar, Shih-Yang Liu, Matthijs Van Keirsbilck, Min-Hung Chen, Yoshi Suhara, Nikolaus Binder, Hanah Zhang, Maksim Khadkevich, Yingyan Celine Lin, Jan Kautz, Pavlo Molchanov y Nathan Horrocks.

Recursos relacionados

NVIDIA Blog. X. D., Y. F., S. D. y P. M. Traducido al español

Artículos relacionados

Scroll al inicio