Una nueva innovación óptica combinada podría reemplazar las interconexiones eléctricas en los centros de datos para ofrecer mejoras significativas en velocidad y eficiencia energética para la IA y otras aplicaciones informáticas
YORKTOWN HEIGHTS, NY – 9 de diciembre de 2024: IBM (NYSE: IBM ) ha presentado una investigación innovadora en tecnología óptica que podría mejorar drásticamente la forma en que los centros de datos entrenan y ejecutan modelos de IA generativos. Los investigadores han sido pioneros en un nuevo proceso para la óptica co-empaquetada (CPO), la próxima generación de tecnología óptica, para permitir la conectividad dentro de los centros de datos a la velocidad de la luz a través de la óptica para complementar los cables eléctricos de corto alcance existentes. Al diseñar y ensamblar la primera guía de ondas ópticas de polímero (PWG) anunciada públicamente con éxito para impulsar esta tecnología, los investigadores de IBM han demostrado cómo la CPO redefinirá la forma en que la industria informática transmite datos de gran ancho de banda entre chips, placas de circuitos y servidores.
En la actualidad, la tecnología de fibra óptica transporta datos a alta velocidad a través de largas distancias, y gestiona casi todo el tráfico comercial y de comunicaciones del mundo con luz en lugar de electricidad. Aunque los centros de datos utilizan fibra óptica para sus redes de comunicaciones externas, los bastidores de los centros de datos aún ejecutan comunicaciones predominantemente a través de cables eléctricos de cobre. Estos cables conectan aceleradores de GPU que pueden pasar más de la mitad de su tiempo inactivos, esperando datos de otros dispositivos en un proceso de entrenamiento distribuido de gran tamaño que puede suponer un gasto y un consumo de energía significativos.
Los investigadores de IBM han demostrado una forma de llevar la velocidad y la capacidad de la óptica a los centros de datos. En un documento técnico , IBM presenta un nuevo módulo prototipo CPO que puede permitir la conectividad óptica de alta velocidad. Esta tecnología podría aumentar significativamente el ancho de banda de las comunicaciones del centro de datos, minimizando el tiempo de inactividad de la GPU y acelerando drásticamente el procesamiento de la IA. Esta innovación de investigación, como se describe, permitiría:
- Menores costos de escalamiento de la IA generativa a través de una reducción de más de 5 veces en el consumo de energía en comparación con las interconexiones eléctricas de rango medio [1] , al tiempo que se extiende la longitud de los cables de interconexión del centro de datos de uno a cientos de metros.
- Entrenamiento más rápido de modelos de IA, lo que permite a los desarrolladores entrenar un modelo de lenguaje grande (LLM) hasta cinco veces más rápido con CPO que con el cableado eléctrico convencional. CPO podría reducir el tiempo que lleva entrenar un LLM estándar de tres meses a tres semanas, y las ganancias de rendimiento aumentarán al usar modelos más grandes y más GPU. [2]
- Se incrementó drásticamente la eficiencia energética de los centros de datos, ahorrando el equivalente energético del consumo energético anual de 5000 hogares estadounidenses por cada modelo de IA entrenado. [3]
“A medida que la IA generativa demanda más energía y capacidad de procesamiento, el centro de datos debe evolucionar, y la óptica combinada puede hacer que estos centros de datos estén preparados para el futuro”, afirmó Dario Gil, vicepresidente sénior y director de investigación de IBM. “Con este avance, los chips del futuro se comunicarán de forma muy similar a cómo los cables de fibra óptica transportan datos dentro y fuera de los centros de datos, lo que marca el comienzo de una nueva era de comunicaciones más rápidas y sostenibles que puedan manejar las cargas de trabajo de IA del futuro”.
Ancho de banda ochenta veces más rápido que la comunicación chip a chip actual
En los últimos años, los avances en la tecnología de chips han permitido agrupar transistores de forma densa en un chip; la tecnología de chips de nodos de 2 nanómetros de IBM puede contener más de 50 mil millones de transistores. La tecnología CPO tiene como objetivo escalar la densidad de interconexión entre aceleradores al permitir a los fabricantes de chips agregar vías ópticas que conecten chips en un módulo electrónico más allá de los límites de las vías eléctricas actuales. El documento de IBM describe cómo estas nuevas estructuras ópticas de alta densidad de ancho de banda, junto con la transmisión de múltiples longitudes de onda por canal óptico, tienen el potencial de aumentar el ancho de banda entre chips hasta 80 veces en comparación con las conexiones eléctricas .
La innovación de IBM, como se ha descrito, permitiría a los fabricantes de chips añadir seis veces más fibras ópticas en el borde de un chip fotónico de silicio, lo que se denomina “densidad de primera línea”, en comparación con la tecnología CPO de última generación actual. Cada fibra, de unas tres veces el ancho de un cabello humano, podría abarcar desde centímetros hasta cientos de metros de longitud y transmitir terabits de datos por segundo. El equipo de IBM montó un PWG de alta densidad en canales ópticos de paso de 50 micrómetros, acoplados adiabáticamente a guías de ondas fotónicas de silicio, utilizando procesos de empaquetado de ensamblaje estándar.
El artículo también indica que estos módulos CPO con PWG con paso de 50 micrómetros son los primeros en pasar todas las pruebas de estrés requeridas para la fabricación. Los componentes están sujetos a entornos de alta humedad y temperaturas que van desde -40 °C a 125 °C, así como a pruebas de durabilidad mecánica para confirmar que las interconexiones ópticas pueden doblarse sin romperse ni perder datos. Además, los investigadores han demostrado la tecnología PWG con un paso de 18 micrómetros. Apilar cuatro PWG permitiría hasta 128 canales de conectividad con ese paso.
IBM mantiene su liderazgo en I+D de semiconductores
La tecnología CPO permite una nueva vía para satisfacer las crecientes demandas de rendimiento de la IA, con el potencial de reemplazar las comunicaciones fuera de módulo, de eléctricas a ópticas. Continúa la historia de liderazgo de IBM en innovación de semiconductores, que también incluye la primera tecnología de chip de nodo de 2 nm, la primera implementación de tecnologías de proceso de 7 nm y 5 nm, transistores de nanoláminas, transistores verticales (VTFET), DRAM de celda única y fotorresistencias amplificadas químicamente.
Los investigadores completaron el trabajo de diseño, modelado y simulación para CPO en Albany, Nueva York, que el Departamento de Comercio de los EE. UU. seleccionó recientemente como sede del primer Centro Nacional de Tecnología de Semiconductores (NSTC, por sus siglas en inglés) de los EE. UU., el acelerador EUV del NSTC. Los investigadores ensamblaron prototipos y probaron módulos en las instalaciones de IBM en Bromont, Quebec, uno de los sitios de ensamblaje y prueba de chips más grandes de América del Norte. La fábrica de IBM en Bromont, parte del Corredor de Semiconductores del Noreste entre los Estados Unidos y Canadá, ha sido líder mundial en empaquetado de chips durante décadas. IBM News. Traducido al español