El Portal de las Tecnologías para la Innovación

Cuando la movilidad autónoma aprende a maravillarse

La movilidad autónoma ya existe… hasta cierto punto. Construir un vehículo autónomo que pueda circular con seguridad por una autopista vacía es una cosa. El verdadero reto reside en adaptarse a la dinámica y caótica realidad de los entornos urbanos.

A diferencia de las calles cuadriculadas de muchas ciudades estadounidenses, las carreteras europeas suelen ser estrechas, sinuosas e irregulares. Los entornos urbanos presentan innumerables intersecciones sin señalización clara, zonas peatonales exclusivas, rotondas y zonas donde bicicletas y patinetes comparten la vía con coches. Diseñar un sistema de movilidad autónoma que pueda operar con seguridad en estas condiciones requiere algo más que sensores y cámaras sofisticados.

Se trata principalmente de afrontar un enorme reto: predecir la dinámica del mundo; en otras palabras, comprender cómo se desenvuelven los humanos en entornos urbanos determinados. Los peatones, por ejemplo, suelen tomar decisiones espontáneas, como cruzar la calle a toda velocidad, cambiar de dirección repentinamente o sortear multitudes. Un niño podría correr tras un perro. Los ciclistas y los patinetes complican aún más la ecuación, con sus maniobras ágiles y a menudo impredecibles.

Dos escenarios posibles @VITA Lab
© Laboratorio VITA, EPFL

La movilidad autónoma, ya sea en forma de coches autónomos o robots de reparto, debe evolucionar más allá de la simple reacción al momento presente. Para desenvolverse en nuestro mundo complejo y dinámico, estos sistemas impulsados ​​por IA necesitan la capacidad de imaginar, anticipar y simular futuros posibles, tal como lo hacemos los humanos cuando nos preguntamos qué podría suceder a continuación. En esencia, la IA debe aprender a preguntarse, afirma Alexandre Alahi, director del Laboratorio de Inteligencia Visual para el Transporte (VITA) de la EPFL.

Ampliando los límites de la predicción: GEM

En el laboratorio VITA, el objetivo de hacer que la IA «maraville» se está haciendo realidad. Este año, el equipo ha aceptado siete artículos en la prestigiosa Conferencia sobre Visión Artificial y Reconocimiento de Patrones (CVPR’25). Cada contribución introduce un método novedoso para ayudar a los sistemas de IA a imaginar, predecir y simular futuros posibles, desde la predicción del movimiento humano hasta la generación de secuencias de vídeo completas. En el espíritu de la ciencia abierta, todos los modelos y conjuntos de datos se publican como código abierto, lo que permite a la comunidad investigadora y a la industria global desarrollar y ampliar este trabajo. En conjunto, estas contribuciones representan un esfuerzo conjunto para dotar a la movilidad autónoma de la capacidad no solo de reaccionar, sino de anticiparse al mundo que la rodea.

Uno de los modelos más innovadores está diseñado para predecir secuencias de vídeo a partir de una sola imagen captada por una cámara instalada en un vehículo (o cualquier vista egocéntrica). Denominado GEM (Modelo Mundial Multimodal Generalizable de Visión Egocéntrica), ayuda a los sistemas autónomos a anticipar eventos futuros al aprender cómo evolucionan las escenas con el tiempo.

Como parte de la Iniciativa Suiza de IA, y en colaboración con otras cuatro instituciones (Universidad de Berna, SDSC, Universidad de Zúrich y ETH Zúrich), entrenaron su modelo utilizando 4000 horas de vídeos que abarcan conducción autónoma, actividades humanas egocéntricas (es decir, actividades desde una perspectiva en primera persona) y grabaciones de drones. GEM aprende cómo se mueven las personas y los objetos en diferentes entornos. Utiliza este conocimiento para generar secuencias de vídeo completamente nuevas que imaginan lo que podría suceder a continuación en una escena determinada, ya sea un peatón cruzando la calle o un coche girando en una intersección. Estos escenarios imaginarios pueden incluso controlarse añadiendo coches y peatones, lo que convierte a GEM en una potente herramienta para entrenar y probar sistemas autónomos de forma segura en una amplia gama de situaciones realistas.

Para realizar estas predicciones, el modelo analiza simultáneamente varios tipos de información, también llamados modalidades. Analiza imágenes RGB (fotogramas de vídeo a color estándar) para comprender el contexto visual de una escena, y mapas de profundidad para comprender su estructura 3D. Estos dos tipos de datos, en conjunto, permiten al modelo interpretar tanto lo que sucede como la ubicación de los objetos en el espacio. GEM también tiene en cuenta el movimiento de la cámara (ego-motion), las poses humanas y la dinámica de los objetos a lo largo del tiempo. Al comprender cómo evolucionan todas estas señales en conjunto en miles de situaciones del mundo real, puede generar secuencias coherentes y realistas que reflejan cómo podría cambiar una escena en los próximos segundos.

Posibilidad de generar un escenario insertando un vehículo @VITA Lab
© Laboratorio VITA, EPFL

La herramienta puede funcionar como un simulador realista para vehículos, drones y otros robots, lo que permite probar de forma segura las políticas de control en entornos virtuales antes de implementarlas en condiciones reales. También puede ayudar en la planificación, ayudando a estos robots a anticipar los cambios en su entorno, lo que hace que la toma de decisiones sea más robusta y contextualizada, afirma Mariam Hassan, estudiante de doctorado en el laboratorio VITA.

El camino hacia las predicciones

Predecir el comportamiento humano es un desafío complejo y multifacético, y GEM representa solo una parte del esfuerzo más amplio del Laboratorio VITA para abordarlo. Mientras que GEM se centra en generar los videos del futuro y exponer sistemas autónomos a diversos escenarios virtuales, otros proyectos de investigación del equipo del profesor Alahi abordan niveles de abstracción más bajos para mejorar la predicción con robustez, generalización y conciencia social.

Por ejemplo, uno de ellos busca certificar el movimiento de las personas, incluso cuando los datos están incompletos o son ligeramente erróneos. Por otro lado, MotionMap aborda la imprevisibilidad inherente del movimiento humano mediante un enfoque probabilístico. Este enfoque probabilístico ayuda a los sistemas a prepararse para movimientos inesperados en entornos dinámicos.

Estos esfuerzos conforman un marco integral que mapea las complejas interacciones que ocurren en entornos urbanos abarrotados. Aún existen desafíos: la consistencia a largo plazo, la precisión espacial de alta fidelidad y la eficiencia computacional siguen evolucionando. En el centro de todo esto se encuentra la pregunta más difícil: ¿qué tan bien podemos predecir a las personas que no siempre siguen patrones? Las decisiones humanas están condicionadas por la intención, la emoción y el contexto, factores que no siempre son visibles para las máquinas.

Acerca de la Iniciativa Suiza de IA.
Lanzada en diciembre de 2023 por la EPFL y la ETH de Zúrich, la Iniciativa Suiza de IA cuenta con el apoyo de más de 10 instituciones académicas en toda Suiza. Con más de 800 investigadores involucrados y acceso a 10 millones de horas de GPU, se erige como el mayor esfuerzo mundial de ciencia abierta y código abierto dedicado a los modelos básicos de IA. El modelo desarrollado por el laboratorio VITA, en colaboración con otras cuatro instituciones (Universidad de Berna, SDSC, Universidad de Zúrich y ETH de Zúrich), es uno de los primeros modelos importantes surgidos de esta ambiciosa colaboración. Se entrenó en la supercomputadora Alps del Centro Nacional Suizo de Supercomputación (CSCS), que proporcionó la enorme potencia computacional necesaria para procesar grandes cantidades de datos multimodales.

Movilidad autónoma en Suiza
. En Suiza, la movilidad totalmente autónoma aún no está permitida en la vía pública. Sin embargo, a partir de marzo de 2025, los vehículos equipados con sistemas avanzados de conducción asistida podrán conducir, acelerar y frenar de forma autónoma. Si bien los conductores deben permanecer alerta y listos para tomar el control, esto marca un paso significativo hacia la automatización diaria. Los cantones tienen la autoridad para aprobar rutas específicas para vehículos totalmente autónomos, que operan sin un humano a bordo y son monitoreados remotamente por centros de control. Estas rutas serán utilizadas principalmente por autobuses y furgonetas de reparto.

Referencias

“MotionMap: Representación de la multimodalidad en la predicción de la postura humana”, R. Hosseininejad, M. Shukla, S. Saadatnejad, M. Salzmann, A. Alahi, CVPR’25. Código

“Helvipad: un conjunto de datos del mundo real para la estimación de la profundidad estéreo omnidireccional”, M. Zayene, J. Endres, A. Havolli, C.Corbière, S. Cherkaoui, A. Ben Ahmed Kontouli, A. Alahi, CVPR’25. Código

“FG2: Localización de vista cruzada de grano fino mediante coincidencia de características de grano fino”. Z. Xia, A. Alahi, CVPR’25. Código

“Hacia la predicción de trayectorias generalizables mediante aprendizaje de representación de doble nivel e indicaciones adaptativas”, K. Messaoud, M. Cord, A. Alahi, CVPR’25. Código

Transferencia causal de simulación a realidad: un enfoque de aprendizaje métrico para representaciones de interacción con conciencia causal”, A. Rahimi, PC. Luan, Y. Liu, F. Rajic, A. Alahi, CVPR’25. Código

Predicción certificada de la trayectoria humana”, M. Bahari, S. Saadatnejad, A. Askari Farsangi, S. Moosavi-Dezfooli, A. Alahi, Código CVPR’25

“GEM: Un modelo de mundo multimodal generalizable de visión egoica para el control detallado del movimiento egoico, la dinámica de objetos y la composición de escenas”, M. Hassan*, S. Stapf*, A. Rahimi*, PMB Rezende*, Y. Haghighi, D. Brüggemann, I. Katircioglu, L. Zhang, X. Chen, S. Saha, M. Cannici, E. Aljalbout, B. Ye, X. Wang, A. Davtyan, M. Salzmann, D. Scaramuzza, M. Pollefeys, P. Favaro, A. Alahi, CVPR’25. Código

EPFL News. M. A. Traducido al español

Artículos relacionados

Scroll al inicio