En la carrera por comprender el cambio climático de nuestro planeta, la velocidad y la precisión son cruciales.
Sin embargo, los simuladores climáticos más utilizados en la actualidad suelen tener dificultades: no pueden capturar completamente procesos críticos a pequeña escala, como tormentas eléctricas o imponentes nubes tropicales, debido a limitaciones computacionales.
Para capturar estas características, los científicos realizan simulaciones de ultraalta resolución llamadas modelos de resolución de nubes (MRC). Estas simulaciones rastrean la formación y evolución de las nubes, pero son tan costosas que ejecutar una para una década de pronósticos climáticos globales resulta prácticamente imposible.
¿Qué pasaría si pudiéramos destilar la sabiduría de estas simulaciones detalladas en un modelo de aprendizaje automático que funcione decenas a cientos de veces más rápido, sin renunciar a la fidelidad?
Esa es la promesa de ClimSim-Online , un marco reproducible para desarrollar e implementar modelos climáticos híbridos de física y aprendizaje automático a escala. Este marco fue desarrollado por NVIDIA Earth 2 y un consorcio de modeladores climáticos internacionales de ámbitos gubernamentales y académicos. Fue iniciado y respaldado por un centro de ciencia y tecnología con sede en la Universidad de Columbia, financiado por la Fundación Nacional de Ciencias, que explora el futuro de la tecnología de simulación climática basada en IA.
De terabytes a llave en mano: entrenamiento de IA para emular la física climática anidada compleja
ClimSim-Online se basa en el galardonado conjunto de datos ClimSim , presentado en NeurIPS 2023. El conjunto de datos se sirve en el repositorio ClimSim Hugging Face . Este conjunto de datos se creó utilizando el Energy Exascale Earth System Model-Multiscale Modeling Framework (E3SM-MMF) , un simulador climático de próxima generación que integra miles de CRM localizados y computacionalmente intensivos dentro de cada columna atmosférica de un modelo climático anfitrión de cuadrícula gruesa. Es una forma experimental de generar predicciones climáticas que reduce la cantidad de suposiciones que generalmente se deben hacer sobre la física a escala fina, pero tiene un costo computacional tal que no se utiliza en las proyecciones internacionales convencionales. La subcontratación de la física anidada a la IA podría cambiar eso.
El modelo climático anfitrión opera con una resolución horizontal de aproximadamente 1,5 grados (unos 150 km) o más gruesa, mientras que cada CRM incorporado funciona con una resolución de 2 km, simulando explícitamente las nubes y la convección en escalas mucho más finas.
Durante un período simulado de 10 años, el E3SM-MMF produjo la asombrosa cantidad de 5.700 millones de muestras, cada una de las cuales describe cómo los procesos físicos a pequeña escala alteran el estado atmosférico a gran escala. Estos procesos incluyen cómo las corrientes ascendentes turbulentas conducen a la formación de nubes, qué causa la formación de microgotas físicas, cómo se organiza la convección desde escalas de nubes individuales hasta grandes complejos nubosos organizados, y cómo estos sistemas nubosos interactúan con la radiación solar e infrarroja, regulando así el clima.
Este enorme conjunto de datos sirve de base para el entrenamiento de modelos de aprendizaje automático (ML) que emulan la física de submallas y pueden reemplazar el costoso CRM integrado, que consume aproximadamente el 95 % del gasto computacional total. Ya ha impulsado una competición global de Kaggle que atrajo a más de 460 equipos de todo el mundo para desarrollar y comparar soluciones de ML con este conjunto de datos climáticos de alta fidelidad, lo que ayuda a acelerar el progreso mediante la innovación abierta y colaborativa.

¿El reto? Estos modelos deben ser más que precisos sin conexión. Deben mantenerse estables al integrarse en un simulador climático en vivo (que funcione hora tras hora, año tras año) sin que la atmósfera virtual se desvíe hacia estados irreales. Controlar el comportamiento de las simulaciones híbridas de física y aprendizaje automático (ML) es un reto crucial, especialmente en situaciones donde el modelo de física del anfitrión no puede diferenciarse. Algunos modelos de anfitrión simples pueden reescribirse en código diferenciable, lo que permite la optimización directa de la dinámica híbrida mediante ML. Sin embargo, muchos modelos de anfitrión candidatos no son fáciles de reescribir de forma diferenciable, o son tan no lineales que la optimización directa del comportamiento híbrido resulta impráctica. Los simuladores climáticos completos que abarcan millones de líneas de código fuente son un excelente ejemplo.
Conectar y simular
ClimSim-Online fue desarrollado por NVIDIA para hacer accesible el modelado climático híbrido a la comunidad de aprendizaje automático (ML) en general. Creamos un flujo de trabajo reproducible y contenedorizado para superar los obstáculos habituales al ejecutar simuladores climáticos completos, como las dependencias de ciertos entornos de supercomputadoras y software, que limitan la interacción de la comunidad con ellos. Con tan solo un archivo de modelo TorchScript, los usuarios pueden inyectar su modelo de ML entrenado en el simulador climático E3SM basado en Fortran y ejecutar simulaciones híbridas, ya sea en estaciones de trabajo locales, clústeres de HPC o máquinas virtuales en la nube, y pueden conectarse a diagnósticos estandarizados para medir su éxito.

Es una emulación climática, ahora plug-and-play .
Todo el sistema se ejecuta en un contenedor precargado con todas las bibliotecas y dependencias necesarias. Simplemente cargue, monte y simule. Los usuarios pueden encontrar instrucciones para configurar el contenedor en el repositorio de ClimSim-Online. El flujo de trabajo completo, desde el acceso a los datos y el entrenamiento del modelo de aprendizaje automático hasta la ejecución y evaluación de simulaciones climáticas híbridas, se encuentra en el repositorio de ClimSim .
Un gran avance: estable durante años, realista hasta la tropopausa
Los científicos de las organizaciones de Investigación y Desarrollo de Tecnología de NVIDIA han logrado un avance importante gracias a estas nuevas API. En nuestro último artículo , publicado el 10 de julio en la revista Journal of Advances in Modeling Earth Systems (JAMES) , demostramos simulaciones híbridas estables de varios años utilizando una red neuronal U-Net entrenada con el conjunto de datos de ClimSim mediante PhysicsNemo . Esto estableció un nuevo punto de referencia para las habilidades en línea dentro de ClimSim-Online. PhysicsNemo es un marco de aprendizaje profundo de código abierto que permite a los usuarios explorar, desarrollar, validar e implementar métodos de vanguardia para la ciencia y la ingeniería que pueden combinar el conocimiento basado en la física con los datos.
Pero ¿el verdadero avance? El aprendizaje automático basado en la física.
Para evitar simulaciones descontroladas y comportamientos poco realistas de las nubes, incorporamos restricciones microfísicas directamente en la arquitectura de la red neuronal:
- Todos los condensados siguen una partición de fases basada en la temperatura, al igual que el modelo de resolución de nubes que la red neuronal está emulando.
- No quedan nubes de hielo persistentes por encima de la tropopausa.
Con estas duras restricciones , estabilizamos simulaciones previas que presentaban derivas y mejoramos drásticamente el realismo de las climatologías de las nubes, especialmente en los trópicos, donde los modelos sin restricciones tendían a sobreestimar las nubes a grandes altitudes.
El proceso de investigación que condujo a esta solución fue acelerado fundamentalmente por ClimSim-Online: poder iterar rápidamente sobre patologías de modelos híbridos en evolución fue clave para descubrir las pistas que finalmente informaron nuestro trabajo de investigación científica.

En nuestras simulaciones híbridas, observamos que el sesgo de temperatura se mantuvo por debajo de los 2 grados Celsius y el sesgo de humedad se mantuvo por debajo de 1 gramo por kilogramo dentro de la troposfera, un nuevo resultado de última generación en el marco de modelado multiescala.
Y vimos simulaciones estables de cinco años con modelos explícitos de condensado de nubes, geografía real y acoplamiento tierra-atmósfera, un hito no demostrado anteriormente en esta clase de simulaciones híbridas.
Listo para el despegue
ClimSim-Online simplifica la colaboración entre IA y clima. Facilita:
- Entrene modelos ML utilizando datos de simulación de clase mundial
- Evaluación comparativa de habilidades fuera de línea
- Y lo más importante, evaluar el rendimiento en línea dentro de un simulador climático a escala real: la prueba definitiva de preparación para el mundo real.
Ya sea que sea un investigador de IA ansioso por trabajar en el clima o un científico del clima curioso sobre el poder del modelado híbrido, ClimSim-Online le brinda herramientas para unirse a la próxima ola de simulación climática.
Si bien hemos demostrado un enfoque basado en la ciencia del dominio para resolver problemas de primer orden del modelado híbrido, aún queda mucho trabajo por hacer para reducir los sesgos híbridos a niveles realmente tolerables. Y se necesitan nuevas ideas. Por ejemplo: ¿Podría la comunidad de aprendizaje por refuerzo encontrar una solución aún más robusta, independiente de la ciencia del dominio? Ahora que ClimSim-Online facilita el muestreo de la señal de recompensa no diferenciable, quizás pronto lo descubramos. El futuro de la simulación climática híbrida entre física y aprendizaje automático nos espera. NVIDIA Blog. Z. H. y M. P. Traducido al español