De terabytes a soluciones llave en mano: los modelos climáticos basados en IA se generalizan
En la carrera por comprender el cambio climático de nuestro planeta, la velocidad y la precisión son cruciales. Sin embargo, los simuladores climáticos más utilizados en la actualidad suelen tener dificultades: no pueden capturar completamente procesos críticos a pequeña escala, como tormentas eléctricas o imponentes nubes tropicales, debido a limitaciones computacionales. Para capturar estas características, los científicos realizan simulaciones de ultraalta resolución llamadas modelos de resolución de nubes (MRC). Estas simulaciones rastrean la formación y evolución de las nubes, pero son tan costosas que ejecutar una para una década de pronósticos climáticos globales resulta prácticamente imposible. ¿Qué pasaría si pudiéramos destilar la sabiduría de estas simulaciones detalladas en un modelo de aprendizaje automático que funcione decenas a cientos de veces más rápido, sin renunciar a la fidelidad? Esa es la promesa de ClimSim-Online , un marco reproducible para desarrollar e implementar modelos climáticos híbridos de física y aprendizaje automático a escala. Este marco fue desarrollado por NVIDIA Earth 2 y un consorcio de modeladores climáticos internacionales de ámbitos gubernamentales y académicos. Fue iniciado y respaldado por un centro de ciencia y tecnología con sede en la Universidad de Columbia, financiado por la Fundación Nacional de Ciencias, que explora el futuro de la tecnología de simulación climática basada en IA. De terabytes a llave en mano: entrenamiento de IA para emular la física climática anidada compleja ClimSim-Online se basa en el galardonado conjunto de datos ClimSim , presentado en NeurIPS 2023. El conjunto de datos se sirve en el repositorio ClimSim Hugging Face . Este conjunto de datos se creó utilizando el Energy Exascale Earth System Model-Multiscale Modeling Framework (E3SM-MMF) , un simulador climático de próxima generación que integra miles de CRM localizados y computacionalmente intensivos dentro de cada columna atmosférica de un modelo climático anfitrión de cuadrícula gruesa. Es una forma experimental de generar predicciones climáticas que reduce la cantidad de suposiciones que generalmente se deben hacer sobre la física a escala fina, pero tiene un costo computacional tal que no se utiliza en las proyecciones internacionales convencionales. La subcontratación de la física anidada a la IA podría cambiar eso. El modelo climático anfitrión opera con una resolución horizontal de aproximadamente 1,5 grados (unos 150 km) o más gruesa, mientras que cada CRM incorporado funciona con una resolución de 2 km, simulando explícitamente las nubes y la convección en escalas mucho más finas. Durante un período simulado de 10 años, el E3SM-MMF produjo la asombrosa cantidad de 5.700 millones de muestras, cada una de las cuales describe cómo los procesos físicos a pequeña escala alteran el estado atmosférico a gran escala. Estos procesos incluyen cómo las corrientes ascendentes turbulentas conducen a la formación de nubes, qué causa la formación de microgotas físicas, cómo se organiza la convección desde escalas de nubes individuales hasta grandes complejos nubosos organizados, y cómo estos sistemas nubosos interactúan con la radiación solar e infrarroja, regulando así el clima. Este enorme conjunto de datos sirve de base para el entrenamiento de modelos de aprendizaje automático (ML) que emulan la física de submallas y pueden reemplazar el costoso CRM integrado, que consume aproximadamente el 95 % del gasto computacional total. Ya ha impulsado una competición global de Kaggle que atrajo a más de 460 equipos de todo el mundo para desarrollar y comparar soluciones de ML con este conjunto de datos climáticos de alta fidelidad, lo que ayuda a acelerar el progreso mediante la innovación abierta y colaborativa. ¿El reto? Estos modelos deben ser más que precisos sin conexión. Deben mantenerse estables al integrarse en un simulador climático en vivo (que funcione hora tras hora, año tras año) sin que la atmósfera virtual se desvíe hacia estados irreales. Controlar el comportamiento de las simulaciones híbridas de física y aprendizaje automático (ML) es un reto crucial, especialmente en situaciones donde el modelo de física del anfitrión no puede diferenciarse. Algunos modelos de anfitrión simples pueden reescribirse en código diferenciable, lo que permite la optimización directa de la dinámica híbrida mediante ML. Sin embargo, muchos modelos de anfitrión candidatos no son fáciles de reescribir de forma diferenciable, o son tan no lineales que la optimización directa del comportamiento híbrido resulta impráctica. Los simuladores climáticos completos que abarcan millones de líneas de código fuente son un excelente ejemplo. Conectar y simular ClimSim-Online fue desarrollado por NVIDIA para hacer accesible el modelado climático híbrido a la comunidad de aprendizaje automático (ML) en general. Creamos un flujo de trabajo reproducible y contenedorizado para superar los obstáculos habituales al ejecutar simuladores climáticos completos, como las dependencias de ciertos entornos de supercomputadoras y software, que limitan la interacción de la comunidad con ellos. Con tan solo un archivo de modelo TorchScript, los usuarios pueden inyectar su modelo de ML entrenado en el simulador climático E3SM basado en Fortran y ejecutar simulaciones híbridas, ya sea en estaciones de trabajo locales, clústeres de HPC o máquinas virtuales en la nube, y pueden conectarse a diagnósticos estandarizados para medir su éxito. Es una emulación climática, ahora plug-and-play . Todo el sistema se ejecuta en un contenedor precargado con todas las bibliotecas y dependencias necesarias. Simplemente cargue, monte y simule. Los usuarios pueden encontrar instrucciones para configurar el contenedor en el repositorio de ClimSim-Online. El flujo de trabajo completo, desde el acceso a los datos y el entrenamiento del modelo de aprendizaje automático hasta la ejecución y evaluación de simulaciones climáticas híbridas, se encuentra en el repositorio de ClimSim . Un gran avance: estable durante años, realista hasta la tropopausa Los científicos de las organizaciones de Investigación y Desarrollo de Tecnología de NVIDIA han logrado un avance importante gracias a estas nuevas API. En nuestro último artículo , publicado el 10 de julio en la revista Journal of Advances in Modeling Earth Systems (JAMES) , demostramos simulaciones híbridas estables de varios años utilizando una red neuronal U-Net entrenada con el conjunto de datos de ClimSim mediante PhysicsNemo . Esto estableció un nuevo punto de referencia para las habilidades en línea dentro de ClimSim-Online. PhysicsNemo es un marco de aprendizaje profundo de código abierto que permite a los usuarios explorar, desarrollar, validar e implementar métodos de vanguardia para la ciencia y la ingeniería que pueden combinar el conocimiento basado en la física con los datos. Pero








