Un modelo de IA creado por científicos informáticos de Johns Hopkins imagina escenarios detallados basados en una sola imagen para tomar decisiones informadas.
Los científicos informáticos de Johns Hopkins han creado un sistema de inteligencia artificial capaz de “imaginar” su entorno sin tener que explorarlo físicamente, acercando la IA al razonamiento humano.
El nuevo sistema, llamado Generative World Explorer o GenEx, necesita solamente una imagen fija para crear un mundo entero, lo que le da una ventaja significativa sobre los sistemas anteriores que requerían que un robot o agente se moviera físicamente a través de una escena para mapear el entorno circundante, lo que puede ser costoso, inseguro y llevar mucho tiempo. Los resultados del equipo aparecen en el archivo de acceso abierto arXiv.org .
Puntos clave
- Esta nueva tecnología permite a los usuarios explorar un mundo 3D a partir de una sola imagen.
- Esta capacidad de mapear mentalmente el entorno a partir de datos visuales limitados es crucial para muchas aplicaciones del mundo real, incluso en escenarios como la respuesta a desastres.
- Por ejemplo, los equipos de rescate podrían utilizar una sola imagen de vigilancia para ayudar a explorar sitios peligrosos desde lejos sin riesgo para los humanos o los equipos valiosos.
«Supongamos que estás en un lugar en el que nunca has estado antes: como ser humano, utilizas señales ambientales, experiencias pasadas y tu conocimiento del mundo para imaginar lo que podría estar a la vuelta de la esquina», dice el autor principal Alan Yuille , profesor distinguido de Bloomberg de Ciencias Cognitivas Computacionales en Johns Hopkins. «GenEx ‘imagina’ y razona sobre su entorno de la misma manera que lo hacen los humanos, tomando decisiones informadas sobre los pasos que debe dar a continuación sin tener que comprobar físicamente su entorno primero».
GenEx utiliza un conocimiento sofisticado del mundo para generar múltiples posibilidades de lo que podría existir más allá de la imagen visible, asignando diferentes probabilidades a cada escenario en lugar de hacer una única suposición definitiva. Esta capacidad de mapear mentalmente el entorno a partir de datos visuales limitados es crucial para muchas aplicaciones del mundo real, incluso en escenarios como la respuesta a desastres. Por ejemplo, los equipos de rescate podrían usar una sola imagen de vigilancia para ayudar a explorar sitios peligrosos desde lejos sin riesgo para los humanos o el equipo valioso.
«Esta tecnología también puede mejorar las aplicaciones de navegación, ayudar en el entrenamiento de robots autónomos y potenciar experiencias de juegos y realidad virtual inmersivas», afirma el autor principal Jieneng Chen , estudiante de doctorado en informática.
Videocrédito: Centro de procesamiento del lenguaje y del habla de la JHU
A partir de una única imagen, GenEx genera un mundo virtual sintético y realista en el que los agentes de IA pueden navegar y tomar decisiones mediante el razonamiento y la planificación. El agente solo necesita una vista de su escena actual, una dirección de movimiento y la distancia que debe recorrer. Como se muestra en la animación a continuación, el agente puede avanzar, cambiar de dirección y explorar su entorno con una flexibilidad ilimitada.
Título de la imagen:Representación digital de una IA que navega en un mundo virtual sintético
Imagencrédito:Cortesía de la Escuela de Ingeniería Whiting
Y a diferencia de las aplicaciones de exploración de mundos oníricos con IA que ahora están ganando popularidad (como Oasis , un simulador de Minecraft generado por IA), los entornos de GenEx son consistentes. Esto se debe a que el modelo se entrenó con datos a gran escala con una técnica llamada «aprendizaje de consistencia esférica», que garantiza que sus predicciones de nuevos entornos encajen dentro de una esfera panorámica.
«Para medir esto, hacemos que GenEx recorra una ruta cerrada seleccionada al azar y regrese al origen en un bucle fijo», explica Chen. «Nuestro objetivo era lograr que las vistas de inicio y fin fueran idénticas, garantizando así la coherencia en el modelado del mundo de GenEx».
Si bien esta consistencia no es exclusiva de GenEx, el equipo de investigación dice que es el primer y único explorador mundial generativo que permite a los agentes de IA tomar decisiones lógicas basadas en nuevas observaciones sobre el mundo que están explorando en un proceso que los científicos informáticos llaman «política aumentada por la imaginación».
Por ejemplo, supongamos que usted está conduciendo y la luz de adelante está en verde, pero se da cuenta de que el taxi que va delante de usted se ha detenido de forma abrupta e inesperada. Salir del coche para investigar sería peligroso, pero si imagina la escena desde la perspectiva del taxista, puede pensar en una posible razón para su parada repentina: tal vez se esté acercando un vehículo de emergencia y usted también debería ceder el paso.
Título de la imagen:Representación de un modelo de IA que toma una decisión basada en la observación
Imagencrédito:Cortesía de la Escuela de Ingeniería Whiting
«Si bien los humanos pueden usar otras señales, como las sirenas, para identificar este tipo de situaciones, los modelos de IA actuales desarrollados para la conducción autónoma y otras tareas similares solo tienen acceso a imágenes y lenguaje, lo que hace necesaria la exploración imaginativa en ausencia de otra información multimodal», afirma Chen.
El equipo de Hopkins evaluó la consistencia y la calidad de los resultados de GenEx en comparación con los parámetros de generación de video estándar. Los investigadores también realizaron experimentos con usuarios humanos para determinar si GenEx podía aumentar sus capacidades lógicas y de planificación y de qué manera, y descubrieron que los usuarios tomaban decisiones más precisas e informadas cuando tenían acceso a las capacidades de exploración del modelo.
«Nuestros resultados experimentales demuestran que GenEx puede generar observaciones consistentes y de alta calidad durante una exploración prolongada de un gran mundo físico virtual», afirma Chen. «Además, las creencias actualizadas con las observaciones generadas pueden informar a un modelo de toma de decisiones existente, como un agente de modelo de lenguaje de gran tamaño, e incluso a usuarios humanos para hacer mejores planes».
Junto con Tianmin Shu y Daniel Khashabi , ambos profesores adjuntos de informática, y el estudiante de grado TaiMing Lu , Yuille y Chen incorporarán datos de sensores del mundo real y escenas dinámicas para escenarios de planificación más realistas e inmersivos. Rama Chellappa, profesor distinguido de Bloomberg de Visión artificial e inteligencia artificial, y Cheng Peng , profesor adjunto de investigación en el Instituto de Matemáticas para la Ciencia de Datos , ayudarán a seleccionar los datos de sensores del mundo real.
El proyecto interdisciplinario, que involucra visión por computadora, procesamiento del lenguaje natural y ciencia cognitiva, marca un logro significativo hacia el logro de una inteligencia similar a la humana en la IA encarnada, dice Yuille.
Obtenga más información sobre su trabajo y explore una demostración interactiva aquí . Universidad Johns Hopkins News. J. P. Traducido al español