“Marlowe”, que lleva el nombre del detective de cine negro, tiene el potencial de transformar la investigación en todos los campos, desde la ciencia política hasta la astrofísica.
“Este es el microscopio, el telescopio y el acelerador lineal del siglo XXI, todo en uno”, dijo Emmanuel Candès, director de la facultad de Ciencias de Datos de Stanford, al describir la última instalación de su equipo. Marlowe, un instrumento computacional de última generación basado en GPU, comenzará a aceptar solicitudes de toda la comunidad de investigación de Stanford en su sitio web el 15 de enero de 2025.
Candès apenas puede contener su emoción. Con su capacidad para procesar cálculos como nunca antes, Marlowe colocará a Stanford a la vanguardia de la ciencia de datos. Este “superpod” consta de 248 unidades de procesamiento gráfico (GPU) Nvidia H100, los chips que alimentan la investigación y el desarrollo de innovadores en inteligencia artificial como OpenAI.
Bajo la dirección de la Oficina del Vicerrector y Decano de Investigación, la universidad invertirá 30 millones de dólares para comprar hardware, contratar un equipo de científicos de datos de investigación, respaldar las necesidades operativas de Marlowe y facilitar oportunidades de colaboración, todo lo cual es importante para aprovechar al máximo a Marlowe en un campo que evoluciona rápidamente. Marlowe se está probando actualmente en el centro de datos de Stanford Research Computing , donde se alojará en el futuro previsible.
Desde la instalación de Marlowe este verano, un equipo técnico se ha asociado con los evaluadores beta para perfeccionar el rendimiento del sistema. Incluso en los primeros días, uno de esos evaluadores beta, el profesor Gordon Wetzstein, dijo: «Marlowe ya ha potenciado mi investigación y ha hecho posible algo que no existía hace apenas tres meses».
«Espero que Marlowe tenga más demanda del que se pueda desde el primer día», añadió Candès.
Amplios horizontes
Si bien el hardware es impresionante, Candès es el primero en admitir que es una apuesta segura en el campo de la ciencia de datos computacionales, que evoluciona rápidamente. Para él, nada menos que el lugar que Stanford sigue ocupando a la vanguardia de la investigación en biología, química, física, ingeniería, cosmología, medicina, inteligencia artificial y otros campos depende del éxito de Marlowe.
“Para la producción de investigación de Stanford en casi todos los campos, la computación es el futuro”, afirmó. “Eso es lo que Marlowe significa para el liderazgo continuo de Stanford en investigación. Creo que va a tener un impacto enorme”.
Candès espera que Marlowe no solo empodere, sino que también anime a los profesores de Stanford a ampliar sus horizontes de investigación. Más allá de la ciencia de datos pura, Candès cree que Marlowe también ayudará a atraer y retener a profesores, posdoctorados y estudiantes de primer nivel que esperan trabajar en los modelos intensivos en datos que son su seña de identidad.
“Sin un instrumento como Marlowe, Stanford no puede simular cómo funciona el universo. No hay forma de descubrir el próximo fármaco revolucionario. No hay forma de entender los misterios de la vida humana”, afirma Candès. “Sin embargo, con Marlowe nos convertimos en exploradores computacionales”.
Conozca algunos de los exploradores computacionales que pronto utilizarán Marlowe y cómo pretenden aprovecharlo al máximo.
Jure Leskovec | Rod Searcey
Jure Leskovec: célula virtual de IA
Jure Leskovec es un científico informático que, entre otros objetivos, está interesado en desarrollar IA para sistemas grandes e interconectados, como las ciencias sociales, la biología humana y el descubrimiento de fármacos. Estos se conocen como modelos básicos. El último objetivo de Leskovec es crear modelos de IA para simular con precisión células humanas individuales.
La idea es que algún día los científicos realicen experimentos en computadoras en lugar de en células vivas: in silico en lugar de in vivo . Esto no solo sería más seguro para los humanos y mucho menos costoso, sino también mucho más rápido. El objetivo a largo plazo sería construir modelos de una miríada de tipos de células para construir tejidos computacionales o incluso órganos completos.
“Una forma de ver una célula es representarla como una bolsa de moléculas. Para crear una célula virtual, es necesario representar matemáticamente cómo interactúan todos estos tipos de moléculas”, dijo Leskovec. “Nuestro objetivo inmediato es crear una sola célula virtual, algunos la llaman un ‘gemelo digital’ de una célula biológica real. Estamos construyendo a partir de modelos básicos de moléculas biológicas como el ADN, el ARN y las muchas proteínas que hacen que las células funcionen”.
Estas capacidades, dijo Leskovec, se extienden a la modelización de sistemas patológicos, como el cáncer, la esclerosis múltiple o el Alzheimer, para acelerar la investigación sobre qué falla cuando fallan los sistemas biológicos. Luego, estos mismos modelos computacionales podrían usarse para desarrollar medicamentos y terapias para frenar, o quizás incluso curar, las enfermedades.
Los poderes computacionales de Marlowe permitirán al equipo de Leskovec ampliar sus modelos de base de IA, abordando los desafíos de la biología experimental tradicional, que requiere mucho trabajo y se basa en el laboratorio. Espera utilizar a Marlowe para armonizar datos de muchas fuentes y laboratorios diferentes en todo el mundo y traducir estos datos en un modelo universal que sea la base para futuros modelos de moléculas, células y órganos.
“Este tipo de trabajo implica conjuntos de datos enormes de todas las proteínas y otras biomoléculas que coexisten en la célula y luego construir modelos computacionales que capturen la variabilidad biológica”, dijo. “Si podemos hacer esto in silico en lugar de en un laboratorio, aceleraríamos la investigación en órdenes de magnitud y también la haríamos mucho más barata. Esa es la verdadera promesa de Marlowe”.
Jennifer Pan | Jeff Singer
Jennifer Pan: Mapeando el alcance de las redes sociales
Jennifer Pan es politóloga y estudia la comunicación política y cómo se utiliza para promover la política autoritaria en la era de los medios digitales globales e instantáneos. Utiliza métodos computacionales para explorar conjuntos de datos enormes y complejos sobre la comunicación política: cuáles son los mensajes, dónde se originan y cómo se difunden y evolucionan con el tiempo para dar forma a las preferencias y comportamientos políticos.
“Nos interesa mucho cómo se transmite la información a través de las fronteras y a través del tiempo en diferentes modalidades”, afirma Pan. “No solo datos de texto, sino también datos de imagen, audio y vídeo”.
Está emocionada de que Marlowe esté en línea para ayudarla a analizar las enormes cantidades de datos que ha recopilado para analizar cómo el texto, las imágenes y los videos se propagan en plataformas como las de redes sociales con sede en Estados Unidos y China, como YouTube, Weibo y Douyin (TikTok chino).
“Analizar dónde y cómo se originan y viajan los mensajes es sólo un aspecto de nuestra investigación”, explicó Pan. “El otro aspecto es intentar modelar cómo los gobiernos intentan manipular de forma proactiva el entorno informativo, ya sea mediante la censura o mediante la inyección de contenido”.
Se trata de recopilaciones de datos a gran escala, señala Pan, que involucran redes de miles de millones de usuarios y colecciones gigantes de contenido histórico rastreado a lo largo del tiempo. Por ejemplo, ha estado recopilando datos de la plataforma social china Weibo desde 2009. Y esa es solo una plataforma y un tipo de datos.
“Nuestro trabajo actual suele ser bastante específico y limitado en alcance y tiempo; por ejemplo, el período posterior a la primera invasión rusa de Ucrania. Al no poder analizarlo en forma más amplia y profunda, podríamos estar pasando por alto información clave”, dijo Pan sobre una limitación de su trabajo actual que Marlowe podría eliminar. Ella cree que Marlowe permitiría un análisis más amplio, que abarque geografía, escalas temporales y tipos de datos, para comprender los patrones de transmisión y manipulación de la información.
«Creo que tener un clúster ubicado en Stanford será de gran ayuda para mi investigación y, estoy seguro, para muchas otras en las ciencias sociales computacionales», dijo Pan.
Susan Clark | Christopher Michel
Susan Clark: Computando el cosmos
Susan Clark es una astrofísica que estudia los misterios de la Vía Láctea. Utiliza métodos computacionales para calcular la dispersión de materia a través de la galaxia y para proyectar cómo se formarán y se comportarán las estrellas. Clark y su equipo estudian aspectos como el medio interestelar (los gases y otras materias entre las estrellas que algún día formarán nuevas estrellas) y el medio circungaláctico (la materia difusa que rodea el disco de la Vía Láctea).
Aprovecha datos de misiones como el Proyecto Gaia de la Agencia Espacial Europea , que está creando un mapa tridimensional “extraordinariamente preciso” de más de mil millones de estrellas en la Vía Láctea, tabulando sus trayectorias, brillo, temperatura y composición atómica.
Y, sin embargo, mil millones de estrellas son sólo una fracción minúscula del universo visible, como un único punto en una pintura puntillista. La Vía Láctea, una única galaxia, puede contener unos 400 mil millones de estrellas, mientras que el universo puede albergar hasta dos billones de galaxias. Los datos son abrumadores y los modelos computacionales, como los que crea Clark, tienen dificultades para comprenderlos todos.
«Es realmente asombrosa la escala en la que trabajamos», dijo Clark. «Estamos usando los modelos para comprender procesos como la dinámica de los gases, la formación de estrellas y el flujo de energía a través de la galaxia».
Por lo tanto, los modelos computacionales actuales sólo funcionan en porciones muy pequeñas de la Vía Láctea.
“Este modelo es solo el uno por ciento de la Vía Láctea”, dijo Philipp Frank , un investigador posdoctoral del grupo de Clark, mientras mostraba uno de los modelos que él y su equipo crearon. “Fue producido por una sola GPU y tardó semanas en procesarse”.
Ahí es donde Marlowe podría ayudar. Con sus casi 250 GPU de última generación, Marlowe permitirá cálculos más rápidos y a mayor escala, reduciendo potencialmente semanas de computación a días o incluso horas.
“Ya estamos preparando metodologías para los próximos conjuntos de datos que nos permitirán explorar las complejidades del entorno interestelar y el gas que se encuentra en el halo de la Vía Láctea”, afirmó Clark. “Eso es lo que Marlowe significará para nuestro trabajo”.
Sherri Rose | Rod Searcey
Sherri Rose: Las matemáticas de la medicina
Sherri Rose es una estadística y experta en políticas sanitarias que utiliza modelos informáticos avanzados para analizar los efectos financieros y sociales de las políticas sanitarias. Por ejemplo, desarrolla una inteligencia artificial que predice los costos de la atención sanitaria y es capaz de identificar ineficiencias financieras (e incluso posibles fraudes) y señalar desigualdades en el sistema sanitario estadounidense.
“Se puede aprender mucho sobre el sistema de salud estadounidense siguiendo el dinero: observar cómo y en quién gastamos puede mejorar la equidad en la salud al mejorar la forma en que realizamos los pagos en el sistema”, dijo Rose.
Rose señala que Marlowe tiene el potencial de acelerar sustancialmente el desarrollo de algoritmos entrenados en datos simulados y sintéticos; herramientas que en última instancia pueden ayudar a su equipo a erradicar las formas en que el sistema de atención médica actual está privando a los grupos marginados de los servicios que necesitan.
En cuanto al fraude, Rose está desarrollando herramientas de auditoría de IA en proyectos dirigidos por la estudiante de doctorado en Ciencias de Datos Biomédicos Oana Enache para detectar prácticas poco éticas. “Marlowe apoyará algoritmos más complejos y de mayor escala, lo que proporcionará información más profunda sobre los sistemas de salud que podría ayudarnos a detectar el fraude, mejorar la equidad y gestionar los costos a largo plazo”, dice Rose. Stanford Report. A. M. Traducido al español