
Cómo la ciencia de quemar edificios allana el camino hacia avances en IA
Detrás de los constructores: Rajiv Mongia y el equipo térmico de Intel están superando los límites para mantener el calor alejado de la Ley de Moore y de los grandes chips de IA que cada vez son más grandes y más potentes. «La IA ya está causando estragos en los sistemas energéticos globales», tituló Bloomberg el verano pasado. Y no cesa. Un informe reciente de la Agencia Internacional de la Energía predijo que el consumo de electricidad de los centros de datos se duplicará con creces, alcanzando unos 945 TWh para 2030, impulsado por la IA. Esto equivale aproximadamente a la necesidad de la energía generada por cinco presas más de las Tres Gargantas de China en los próximos cinco años. La energía es necesaria no solo para operar flotas de computadoras potentes, sino también para evitar que se sobrecalienten. Las GPU y los aceleradores que llenan los centros de datos de IA actuales pueden generar cada uno más de 1 kilovatio de calor. Los únicos dispositivos de consumo que podrían requerir esa cantidad de energía son, literalmente, los calefactores: calefactores, secadores de pelo, microondas o hervidores eléctricos turbo. Y los chips de IA de alta potencia serán cada vez más grandes y resistentes. «Al alcanzar un billón de transistores en una GPU y de dos a tres kilovatios de potencia para 2030», afirma Rajiv Mongia de Intel, «será muy interesante resolver el problema térmico». ¿Cómo resolvemos este dilema energético y liberamos el potencial futuro de la IA? La respuesta de Mongia a su «divertido problema» es enfriar los chips de IA de forma que —y aquí es donde parece alquimia— aumenten el rendimiento y ahorren electricidad al mismo tiempo. Una carrera que mantiene a raya la Ley de Moore Mongia es ingeniero principal sénior y líder del Grupo de Competencia de Núcleos Térmicos del Desarrollo de Tecnología de Pruebas de Ensamblaje (ATTD) de Intel Foundry. Este equipo «se asegura de que las temperaturas no obstaculicen la Ley de Moore», explica. En otras palabras, ATTD crea nuevas formas de combinar cada vez más matrices de silicio en paquetes más rápidos y capaces para Intel y sus clientes de fundición, y Mongia y su equipo descubren cómo gestionar el calor resultante. Antes de su tiempo en Intel, Mongia trabajó en pequeñas turbinas de gas (que convertían el calor en electricidad) y como consultor en análisis de fallos (centrado en incendios y explosiones), trabajo que incluyó el estudio del colapso de las torres del World Trade Center el 11 de septiembre de 2001. «Decidí que ya había tenido suficiente muerte y destrucción; quiero crear algo», reflexiona, y se unió a Intel inicialmente para ayudar a que las computadoras portátiles fueran más adecuadas para las piernas. Ha pasado la mayor parte de los últimos 22 años dedicado a esa misión de mantener fresca la Ley de Moore, con desvíos para ayudar a construir las cámaras Intel RealSense y para apoyar el impulso de Intel de mediados de la década de 2010 en el mercado de fabricantes. «He desempeñado casi todos los roles térmicos importantes en Intel, de una forma u otra», dice Mongia. Puede parecer un cambio extraño pasar de quemar edificios a enfriar chips, pero «son las mismas ecuaciones: hay diferentes condiciones de contorno, pero sigue siendo mecánica de fluidos, termodinámica y transferencia de calor». Mongia aceptó esos trabajos menos interesantes porque pensó que «la termalidad ya no era tan difícil de entender. Para mí, lo importante es tener un problema interesante que resolver y la capacidad de intentar marcar la diferencia en algún lugar, de alguna manera». El próximo desafío térmico: refrigeración de paquetes multichip apilados Entre el auge de la IA y la creciente ubicuidad de los grandes paquetes multichip (donde varias o incluso docenas de matrices de silicio se combinan en un solo dispositivo), el desafío ha vuelto. “Ahora resulta que este problema de la energía térmica se está volviendo bastante complejo”, dice Mongia. “Hay mucho que podemos hacer aquí”. El menú de soluciones comienza con la integración de las consideraciones térmicas en las etapas iniciales de los proyectos de diseño de chips. «Hemos modernizado nuestro flujo de herramientas para realizar gran parte del trabajo de codiseño con mayor antelación», explica Mongia, como la ejecución de casi 100.000 simulaciones térmicas al mes. Su equipo desarrolló lo que se ha convertido en el estándar de la industria para modelar las características térmicas de la memoria de alto ancho de banda (HBM) apilada, y ahora aplica enfoques similares al apilamiento de todo tipo de chips. «Una vez que se tienen múltiples pilas y alta potencia, resulta aún más importante determinar con precisión las características térmicas del material». En un ejemplo reciente, el equipo térmico rescató un diseño de Intel ganador para un chip de cliente sensible a la temperatura después de que el diseño inicial resultara demasiado caliente. En dos semanas, el equipo multidisciplinario de Intel modeló cientos de opciones de diseño diferentes, renovó por completo la distribución de la propiedad intelectual (PI) del silicio y el diseño multichip, y obtuvo un diseño que superó las especificaciones. “Lo que la gente olvida es la interdependencia de todo, desde el silicio hasta el sistema, para garantizar la cooptimización en todo el espectro”, señala Mongia. Aunque suene contradictorio, “podría aumentar la potencia de una pieza y facilitar su refrigeración”. Sustitución de tapas metálicas por placas refrigeradas por líquido y otras soluciones «exóticas» El resto del menú térmico incluye un conjunto creciente de tecnologías para mejorar directamente el acto de enfriarse. Digamos, por ejemplo, reemplazar el disipador de calor estándar o la tapa de metal que cubre los chips de silicio montados en el paquete con algo que Mongia llama una «placa fría integrada»: básicamente, un pequeño radiador con docenas de aletas internas en su interior y líquido corriendo a través de él. Las primeras pruebas sugieren que una GPU grande con una placa fría integrada puede funcionar hasta un 20 % más fría (y, por lo tanto, un 15 % más rápido)