Ha comenzado la era en la que la IA va más allá del simple «dibujo plausible» para comprender incluso por qué la ropa se mueve y se arruga. Un equipo de investigación de KAIST ha desarrollado una nueva IA generativa que aprende el movimiento y la interacción en el espacio 3D siguiendo las leyes físicas. Se espera que esta tecnología, que supera las limitaciones de la IA de vídeo 2D existente, mejore el realismo de los avatares en películas, el metaverso y los videojuegos, y reduzca significativamente la necesidad de captura de movimiento o trabajo manual con gráficos 3D.
KAIST (Presidente Kwang Hyung Lee) anunció el 22 que el equipo de investigación del Profesor Tae-Kyun (TK) Kim de la Escuela de Computación ha desarrollado ‘MPMAvatar’, un modelo de IA generativo basado en física y espacio que supera las limitaciones de la tecnología de generación de video basada en píxeles 2D existente.
Para resolver los problemas de la tecnología 2D convencional, el equipo de investigación propuso un nuevo método que reconstruye imágenes de múltiples vistas en el espacio 3D utilizando Gaussian Splatting y lo combina con el Método de Punto Material (MPM) , una técnica de simulación física.
En otras palabras, la IA fue entrenada para aprender leyes físicas por sí sola reconstruyendo estereoscópicamente videos tomados desde múltiples puntos de vista y permitiendo que los objetos dentro de ese espacio se movieran e interactuaran como si estuvieran en el mundo físico real.
Esto permite que la IA calcule el movimiento en función del material, la forma y las fuerzas externas de los objetos y luego aprenda las leyes físicas comparando los resultados con videos reales.
El equipo de investigación representó el espacio 3D utilizando unidades puntuales y, al aplicar Gauss y MPM a cada punto, lograron simultáneamente un movimiento físicamente natural y una representación de video realista.
Es decir, dividieron el espacio 3D en numerosos puntos pequeños, haciendo que cada punto se moviera y se deformara como un objeto real, logrando así un vídeo natural casi indistinguible de la realidad.
En particular, para expresar con precisión la interacción de objetos delgados y complejos como la ropa, calcularon tanto la superficie del objeto (malla) como su estructura de unidad de partículas (punto), y utilizaron el Método de Punto Material (MPM) , que calcula el movimiento y la deformación del objeto en el espacio 3D de acuerdo con las leyes físicas.
Además, desarrollaron una nueva tecnología de manejo de colisiones para reproducir de manera realista escenas en las que la ropa o los objetos se mueven y chocan entre sí en múltiples puntos y de manera compleja.
El modelo generativo de IA MPMAvatar , al que se aplica esta tecnología, reprodujo con éxito el movimiento y la interacción realistas de una persona que viste ropa holgada, y también tuvo éxito en la generación ‘Zero-shot’ , donde la IA procesa datos que nunca ha visto durante el proceso de aprendizaje al inferir por sí misma.

< Figura 1. Modelado de nuevas poses humanas y dinámicas de vestimenta a partir de una entrada de video de múltiples vistas y generación de toma cero de nuevas interacciones físicas.>
El método propuesto es aplicable a diversas propiedades físicas, como cuerpos rígidos, objetos deformables y fluidos, lo que permite su uso no sólo para avatares sino también para la generación de escenas complejas generales.

< “Figura 2. Representación de elegantes movimientos de danza y suaves pliegues de la ropa, como los de Navillera .>
El profesor Tae-Kyun (TK) Kim explicó: «Esta tecnología va más allá de que la IA simplemente dibuje una imagen; permite que la IA comprenda por qué el mundo que tiene delante se ve como se ve. Esta investigación demuestra el potencial de la IA física, que comprende y predice las leyes físicas, lo que marca un importante punto de inflexión hacia la IAG (Inteligencia Artificial General) ». Añadió: «Se espera que se aplique de forma práctica en toda la industria del contenido inmersivo, incluyendo la producción virtual, películas, contenidos de formato corto y anuncios publicitarios, generando un cambio significativo».
Actualmente, el equipo de investigación está ampliando esta tecnología para desarrollar un modelo que pueda generar vídeos 3D físicamente consistentes simplemente a partir de la entrada de texto del usuario.
Esta investigación contó con la participación de Changmin Lee, estudiante de maestría de la Escuela de Posgrado de IA del KAIST, como primer autor, y Jihyun Lee, estudiante de doctorado de la Escuela de Informática del KAIST, como coautor. Los resultados de la investigación se presentarán en NeurIPS , la conferencia académica internacional más prestigiosa en el campo de la IA, el 2 de diciembre, y el código del programa se publicará en su totalidad próximamente.
· Ponencia: C. Lee, J. Lee, TK. Kim, MPMAvatar: Aprendizaje de avatares gaussianos 3D con dinámicas precisas y robustas basadas en la física , Actas de la Trigésima Novena Conferencia Anual sobre Sistemas de Procesamiento de Información Neural (NeurIPS), San Diego, EE. UU., 2025
· Versión arXiv: https://arxiv.org/abs/2510.01619
· Sitio del proyecto relacionado: https://kaistchangmin.github.io/MPMAvatar/
· Enlaces de vídeos relacionados que muestran el baile tipo ‘Navillera’ dibujado por IA:
o https://www.youtube.com/shorts/ZE2KoRvUF5c
o https://youtu.be/ytrKDNqACqM
Este trabajo fue apoyado por la subvención del Instituto de Planificación y Evaluación de Tecnologías de la Información y las Comunicaciones (IITP) financiada por el gobierno de Corea (MSIT) a través del Proyecto de Tecnología AGI Desafiante de Próxima Generación Orientada al Humano (RS-2025-25443318) y el Programa de Desarrollo de Talentos Profesionales de IA para Agentes de IA Multimodales (RS-2025-25441313).
KAIST News. Traducido al español

