Las unidades de procesamiento de gráficos del clúster de inteligencia artificial del Instituto Kempner están conectadas en red para permitir un procesamiento paralelo increíblemente rápido.
19 de noviembre de 2024 lectura larga
El poder computacional se puede utilizar para entrenar y ejecutar redes neuronales artificiales, lo que genera avances clave en la comprensión de la base de la inteligencia en sistemas naturales y artificiales.
Los investigadores de Harvard ahora tienen acceso a una de las supercomputadoras más rápidas y ecológicas del mundo.
Creado para respaldar la investigación de vanguardia en el Instituto Kempner para el Estudio de la Inteligencia Natural y Artificial y en la Universidad de Harvard en general, el clúster de IA de Kempner acaba de ser nombrado el 32.º superordenador «verde» más rápido del mundo en Green500, la clasificación independiente más importante de la industria de los superordenadores más eficientes energéticamente a nivel mundial. Además de entrar en la lista de los 50 mejores superordenadores verdes, el clúster ha sido certificado como el 85.º superordenador más rápido en general en el TOP500, lo que lo convierte en uno de los superordenadores más rápidos y ecológicos del planeta.
“La clasificación del clúster de IA de Kempner en las últimas listas Green500 y TOP500 nos sitúa claramente entre los clústeres de IA más rápidos y ecológicos del mundo académico y del mundo”, afirmó Max Shad, director sénior de ingeniería de investigación de IA/ML de Kempner. “No es poca cosa haber creado este tipo de potencia informática ecológica de alto rendimiento en tan poco tiempo, lo que permite una investigación de vanguardia que innova en tiempo real y permite avances verdaderamente importantes en la intersección de la inteligencia artificial y la neurociencia”.
La computación de alto rendimiento constituye la columna vertebral del crecimiento masivo en el campo del aprendizaje automático, y los investigadores del Instituto Kempner están aprovechando este inmenso poder computacional para entrenar y ejecutar redes neuronales artificiales, lo que conduce a avances clave en la comprensión de la base de la inteligencia en sistemas naturales y artificiales.
Medición de la potencia informática ecológica, desde flops hasta gigaflops
El grupo de IA de Kempner abrió con una instalación piloto inicial en la primavera de 2023 y ahora representa la vanguardia del creciente compromiso de Harvard con los recursos informáticos de última generación. Compuesto por 528 procesadores informáticos especializados llamados unidades de procesamiento gráfico (GPU), que están conectados en red en paralelo con «conmutadores» para permitir un cálculo rápido y simultáneo, el grupo puede ejecutar cálculos rápidos en cientos de proyectos de investigación a la vez.
Para medir la potencia de procesamiento ecológico del clúster y la potencia de procesamiento general, los ingenieros de Lenovo midieron la velocidad de las GPU de mayor rendimiento del clúster (denominadas H100) utilizando el LINPACK Benchmark , que requiere resolver vastos problemas de álgebra lineal. Esto se expresa en términos de operaciones de punto flotante por segundo o «flops». La eficiencia del sistema, o la capacidad de procesamiento «ecológico», depende de la cantidad de flops que pueden realizar las H100 con una cantidad determinada de energía, que se expresa en gigaflops por vatio de energía utilizada.
Los H100 de Kempner demostraron la capacidad de realizar 16,29 petaflops, con una eficiencia de 48,065 gigaflops por vatio de potencia utilizada.
¿Qué tan rápido es el clúster de inteligencia artificial de Kempner? Para tener una idea de la perspectiva de los 16,29 petaflops de potencia de cálculo del Kempner, considere lo siguiente: los ordenadores a bordo del Apolo 11, que llevaron a Neil Armstrong y Buzz Aldrin a la Luna en 1969, eran capaces de realizar 12.250 flops. Eso parece mucho, pero en la década de 1980 eran posibles cálculos mucho más rápidos: el superordenador CRAY-2 registró un rendimiento de 1,9 gigaflops. Eso es 1.900 millones de flops. Y ahora tenemos mucho más poder de cálculo en nuestros bolsillos. El iPhone 15 es capaz de más de 1.700 gigaflops. Y el clúster de inteligencia artificial de Kempner tiene más de 16 petaflops de potencia de cálculo (es decir, 16 seguido de 15 ceros), lo que es cuatro órdenes de magnitud mayor que el iPhone que lleva en el bolsillo. Estas cifras sugieren que la capacidad de un Gran Modelo de Lenguaje (LLM) para producir un lenguaje gramaticalmente correcto y simular la cognición requiere un uso computacional más intensivo que navegar un cohete a la luna, al menos por ahora.
Una supercomputadora que respalda nuevas investigaciones en Kempner y en Harvard
Con esta magnitud de potencia informática, los investigadores de Kempner pueden entrenar sistemas de IA de última generación como los modelos de lenguaje de gran tamaño (LLM), de los cuales ChatGPT es quizás el más conocido, de forma rápida y eficiente. Por ejemplo, el clúster de Kempner puede entrenar los populares modelos de lenguaje Meta Llama 3.1 8B y Meta Llama 3.1 70B en aproximadamente una semana y dos meses, respectivamente. Antes de que se estableciera y estuviera operativo el clúster de Kempner, el entrenamiento de los modelos Llama en el siguiente sistema informático más rápido de Harvard habría llevado años.
Además de utilizar el clúster para crear modelos más rápidos, los investigadores también lo están empleando para comprender mejor cómo y por qué funcionan. “Con esta mayor potencia computacional, podemos profundizar en cómo los modelos generativos aprenden a razonar y completar tareas con mayor eficiencia”, afirma Binxu Wang, investigador del Instituto Kempner.
Además de brindarles a los investigadores la capacidad de entrenar modelos complejos de manera rápida y eficiente, y comprender los mecanismos detrás de cómo aprenden, el clúster Kempner permite a los científicos comparar una gran cantidad de arquitecturas de modelos y algoritmos de aprendizaje en paralelo, con importantes aplicaciones en campos que van desde la medicina hasta la neurociencia. Un ejemplo: en una investigación publicada recientemente en Nature Medicine, la profesora asociada de Kempner y profesora adjunta de la Facultad de Medicina de Harvard Marinka Zitnik y sus colegas utilizaron el clúster para desarrollar y entrenar TxGNN , un sistema de IA que destila grandes cantidades de datos médicos en gráficos de conocimiento y luego utiliza los gráficos para predecir la efectividad de un medicamento para tratar enfermedades raras.
Las GPU de Kempner forman parte del creciente ecosistema computacional de la Universidad de Harvard, y se suman a las GPU nuevas o que estarán disponibles próximamente que cuentan con el respaldo de la Facultad de Ciencias e Informática de la Universidad de Harvard (FASRC). Más de 5200 investigadores de toda la Universidad utilizan estos recursos computacionales en una amplia gama de aplicaciones científicas y tecnológicas.
El poder del procesamiento paralelo
¿Qué es exactamente un clúster? Como sugiere su nombre, un clúster informático reúne varios dispositivos, cada uno de los cuales puede funcionar como un ordenador completo. La conexión de dispositivos entre sí libera el poder de la computación paralela, que conduce a enormes aceleraciones en el tiempo de procesamiento al realizar una gran cantidad de tareas simultáneamente.
Hasta hace unas décadas, la mayoría de los ordenadores funcionaban con una unidad central de procesamiento (CPU) que solo podía realizar una operación computacional a la vez. A principios de la década de 2000, los científicos informáticos habían descubierto cómo crear CPU “multinúcleo” que realizan múltiples cálculos en paralelo.
El camino hacia los clústeres de supercomputación como el de Kempner implicó apilar varios niveles de procesamiento paralelo uno encima del otro. Después de la introducción de las CPU multinúcleo, el siguiente nivel de paralelismo fue posible gracias al uso de las GPU. Controlar los gráficos en una pantalla de computadora requiere una gran cantidad de cálculos muy similares que se pueden realizar simultáneamente. Por ejemplo, mostrar un videojuego requiere calcular el brillo y el color de millones de píxeles hasta 120 veces por segundo. Las GPU realizan estos cálculos numerosos pero simples en paralelo, liberando a la CPU para realizar cálculos más complejos.
Los científicos informáticos se dieron cuenta de que la capacidad de las GPU para realizar una gran cantidad de cálculos en paralelo podría reutilizarse para otras tareas, como el aprendizaje automático. El funcionamiento de una red neuronal artificial como GPT o DALL-E de OpenAI, por ejemplo, implica una gran cantidad de operaciones matemáticas que se pueden realizar en paralelo. Pero el paralelismo no termina aquí: se posibilita otro nivel de paralelismo al vincular varias GPU en una red. La red de Kempner involucra cientos de GPU NVIDIA (144 A100 y 384 H100) que pueden trabajar en conjunto. Este paralelismo multinivel permite a los investigadores de Kempner realizar los cálculos vertiginosamente intensivos que implica el estudio de la inteligencia natural y artificial y desarrollar nuevas aplicaciones de IA en áreas como la medicina.
En lo que se refiere a experimentación rápida y flexible, iteración e investigación computacionalmente intensiva, el grupo de IA de Kempner es, en palabras de Boaz Barak, “absolutamente instrumental”. Barak, miembro asociado de la facultad de Kempner y profesor de la Escuela de Ingeniería y Ciencias Aplicadas John A. Paulson de Harvard, dice que su grupo de laboratorio “se basa en experimentos computacionales extensos que utilizan el grupo” para estudiar los mecanismos, capacidades y limitaciones de los sistemas de aprendizaje profundo. Esto, dice, permite a su grupo de laboratorio “afinar intuiciones y estudiar preguntas a medida que surgen”.
Una supercomputadora potente, diseñada para ser ecológica
El clúster de IA de Kempner, diseñado con el objetivo de optimizar el consumo de energía, también está sentando un estándar para la supercomputación «verde». El aprendizaje automático moderno ha dado lugar a avances sin precedentes en IA, pero los métodos consumen cada vez más energía. Por lo tanto, reducir la huella de carbono de la IA es crucial para que los avances en IA no se produzcan a costa de exacerbar el calentamiento global.
El grupo de IA de Kempner, ubicado en el Massachusetts Green High Performance Computer Center (MGHPCC) junto con otros recursos del FASRC y en la ciudad de Holyoke (Massachusetts), utiliza una variedad de técnicas de vanguardia para minimizar el uso de energía y aprovechar cada megavatio de energía. El centro recibe energía de la empresa eléctrica municipal de Holyoke, que suministra energía 100 % libre de carbono a través de una central hidroeléctrica y varios paneles solares que opera.
Como centro de cómputo central empleado por la mayoría de las universidades de investigación del estado, incluidas Harvard, MIT, UMass, Northeastern y Boston University, el MGHPCC fue el primer centro de datos de investigación de la universidad en lograr la Certificación LEED Platinum, el nivel más alto otorgado por el Programa de Liderazgo en Energía y Diseño Ambiental del Green Building Council. En el futuro, la asociación de Kempner con MGHPCC le permitirá seguir creciendo teniendo en cuenta la eficiencia, manteniendo el clúster de IA de Kempner ecológico y eficiente incluso a medida que se convierte en una herramienta aún más rápida y poderosa para el avance en el campo.
“La creación de un clúster de IA que no solo sea increíblemente rápido, sino también energéticamente eficiente, encaja perfectamente con la misión de Kempner, tanto para avanzar en el campo de la inteligencia como para hacerlo de una manera que beneficie a las personas”, afirmó Elise Porter, directora ejecutiva de Kempner. “Hemos trabajado en estrecha colaboración con MGHPCC para garantizar que este clúster se construya teniendo en cuenta la eficiencia energética, y el hecho de que ocupe el puesto 32 de la supercomputadora ecológica más rápida del mundo es un testimonio de ese trabajo”.
Rápido, ecológico y humano
Si bien conseguir un puesto destacado en la lista TOP500/Green500 no es un logro menor, el verdadero poder del trabajo de Kempner es saber cómo aprovechar sus impresionantes recursos informáticos para facilitar una investigación innovadora. Esto implica más que construir el clúster de IA y dar acceso a él a los investigadores. Después de todo, los investigadores no pueden simplemente copiar y pegar código antiguo en máquinas nuevas: ciertos tipos de algoritmos que funcionan en computadoras tradicionales deben reconceptualizarse y formatearse para poder usarse con la infraestructura informática de Kempner.
Para ello, el Kempner ha reunido un equipo completo de ingenieros de investigación y científicos de investigación profesionales con experiencia que abarca desde la informática distribuida hasta la arquitectura de datos y la neurociencia computacional. Este equipo de investigación e ingeniería desarrolla bases de código y estándares, trabajando con investigadores para permitir una conexión fluida de los problemas científicos con las soluciones computacionales. El equipo también garantiza que los hallazgos científicos sean reproducibles ayudando a los estudiantes, becarios y profesores a adoptar las mejores prácticas probadas en la industria para la codificación, prueba y mantenimiento de repositorios abiertos para modelos y datos.
Este conocimiento humano es fundamental para la capacidad de la comunidad de Kempner —y de los investigadores de toda la Universidad de Harvard— de aprovechar el potencial científico y tecnológico de la supercomputación verde que ahora está disponible a su alcance. The Hardvard Gazette. Y. J. J. Traducido al español