El Portal de las Tecnologías para la Innovación

Desarrollo de tecnología NPU central para mejorar el rendimiento de inferencia de ChatGPT en más del 60 %

Fuente:

Los modelos de IA generativa más recientes, como ChatGPT-4 de OpenAI y Gemini 2.5 de Google, requieren no solo un alto ancho de banda de memoria, sino también una gran capacidad. Por ello, empresas que operan en la nube con IA generativa, como Microsoft y Google, adquieren cientos de miles de GPU NVIDIA. Como solución para abordar los principales desafíos de construir una infraestructura de IA de alto rendimiento, investigadores coreanos han logrado desarrollar una tecnología central de NPU (Unidad de Procesamiento Neural)* que mejora el rendimiento de inferencia de los modelos de IA generativa en un promedio de más del 60 %, con un consumo de energía aproximadamente un 44 % menor en comparación con las GPU más recientes.

*NPU (Unidad de procesamiento neuronal): un chip semiconductor específico de IA diseñado para procesar rápidamente redes neuronales artificiales.

El día 4, el equipo de investigación del profesor Jongse Park de la Escuela de Computación KAIST, en colaboración con HyperAccel Inc. (una startup fundada por el profesor Joo-Young Kim de la Escuela de Ingeniería Eléctrica), anunció que han desarrollado una tecnología central de NPU (Unidad de Procesamiento Neural) de alto rendimiento y bajo consumo de energía especializada para nubes de IA generativa como ChatGPT.

하이퍼엑셀과 함께 설계한 NPU 하드웨어 아키텍처를 소개하는 슬라이드 사진

La tecnología propuesta por el equipo de investigación ha sido aceptada por el ‘2025 International Symposium on Computer Architecture (ISCA 2025)’, una conferencia internacional de primer nivel en el campo de la arquitectura de computadores.

El objetivo principal de esta investigación es mejorar el rendimiento de los servicios de IA generativa a gran escala aligerando el proceso de inferencia, minimizando la pérdida de precisión y solucionando los cuellos de botella de memoria. Esta investigación es ampliamente reconocida por su diseño integrado de semiconductores y software de sistemas de IA, componentes clave de la infraestructura de IA.

Si bien la infraestructura de IA basada en GPU existente requiere múltiples dispositivos GPU para satisfacer las altas demandas de ancho de banda y capacidad, esta tecnología permite configurar el mismo nivel de infraestructura de IA utilizando menos dispositivos NPU mediante la cuantificación de la caché KV*. La caché KV representa la mayor parte del uso de memoria, por lo que su cuantificación reduce significativamente el costo de construir nubes de IA generativas.

*Cuantización de caché KV (caché clave-valor): se refiere a la reducción del tamaño de los datos en un tipo de espacio de almacenamiento temporal utilizado para mejorar el rendimiento al operar modelos de IA generativos (por ejemplo, convertir un número de 16 bits en un número de 4 bits reduce el tamaño de los datos en 1/4).

El equipo de investigación lo diseñó para integrarse con interfaces de memoria sin modificar la lógica operativa de las arquitecturas NPU existentes. Esta arquitectura de hardware no solo implementa el algoritmo de cuantificación propuesto, sino que también adopta técnicas de gestión de memoria a nivel de página* para un uso eficiente del ancho de banda y la capacidad de memoria limitados, e introduce una nueva técnica de codificación optimizada para la caché KV cuantificada.

*Técnica de administración de memoria a nivel de página: virtualiza las direcciones de memoria, como lo hace la CPU, para permitir un acceso consistente dentro de la NPU.

Además, al construir una nube de IA basada en NPU con un costo y una eficiencia energética superiores en comparación con las GPU más recientes, se espera que la naturaleza de alto rendimiento y bajo consumo de energía de las NPU reduzca significativamente los costos operativos.

El profesor Jongse Park afirmó: «Esta investigación, realizada en colaboración con HyperAccel Inc., encontró una solución en algoritmos de aligeramiento de inferencia de IA generativa y logró desarrollar una tecnología de NPU central que puede resolver el problema de la memoria. Gracias a esta tecnología, implementamos una NPU con un rendimiento superior al 60 % superior al de las GPU más recientes, combinando técnicas de cuantificación que reducen los requisitos de memoria a la vez que mantienen la precisión de la inferencia, y diseños de hardware optimizados para ello».

그림 1. 본 연구에서 설계한 KV 캐시 양자화 알고리즘의 개요도
그림 2. 본 연구에서 제안한 하드웨어 모듈 및 이들을 통합한 NPU 아키텍처

KAIST News. Traducido al español

Artículos relacionados

Huawei

Huawei presenta su visión de sinergia submarino-terrestre y orquestación óptica-inteligente

Huawei presentó su visión de sinergia submarino-terrestre y orquestación óptica-inteligente. En su debut en Submarine Networks World 2025, el principal evento de comunicaciones submarinas en Singapur, la compañía presentó una solución innovadora y productos estrella diseñados para facilitar la integración y la sinergia eficiente entre las redes submarinas y terrestres.

Continuar leyendo...
Nintendo

¡Despega con Mario en dos aventuras que desafían la gravedad!

¿Listo para explorar los confines del espacio? Super Mario Galaxy™ y Super Mario Galaxy 2 son dos aventuras icónicas de Mario, conocidas por sus plataformas desenfrenadas, sorpresas cósmicas y una banda sonora orquestada y envolvente. (Ah, y un dato curioso: ¡Super Mario Galaxy también fue la primera aparición de Rosalina y los Lumas!)

Continuar leyendo...
Scroll al inicio