En NeurIPS se presentaron proyectos del curso MIT 4.043/4.044 (Inteligencia de interacción), que muestran cómo la IA transforma la creatividad, la educación y la interacción de formas inesperadas.
Imagina un equipo de música que sigue cada uno de tus movimientos y sugiere música que se adapta a tu estilo de baile personal. Esa es la idea detrás de “Be the Beat”, uno de los varios proyectos del curso 4.043/4.044 (Interaction Intelligence) del MIT , impartido por Marcelo Coelho en el Departamento de Arquitectura, que se presentaron en la 38.ª conferencia anual NeurIPS (Neural Information Processing Systems) en diciembre de 2024. Con más de 16.000 asistentes reunidos en Vancouver, NeurIPS es una conferencia competitiva y prestigiosa dedicada a la investigación y la ciencia en el campo de la inteligencia artificial y el aprendizaje automático, y un lugar de primer nivel para mostrar desarrollos de vanguardia.
El curso investiga el campo emergente de los objetos de lenguaje de gran tamaño y cómo la inteligencia artificial se puede extender al mundo físico. Si bien “Be the Beat” transforma las posibilidades creativas de la danza, otras propuestas de los estudiantes abarcan disciplinas como la música, la narración, el pensamiento crítico y la memoria, creando experiencias generativas y nuevas formas de interacción entre humanos y computadoras. En conjunto, estos proyectos ilustran una visión más amplia de la inteligencia artificial: una que va más allá de la automatización para catalizar la creatividad, reformular la educación y reimaginar las interacciones sociales.
Sé el ritmo
“Be the Beat”, de Ethan Chang, estudiante de ingeniería mecánica y diseño del MIT, y Zhixing Chen, estudiante de ingeniería mecánica y música del MIT, es un boombox impulsado por IA que sugiere música a partir del movimiento de un bailarín. La danza ha sido tradicionalmente guiada por la música a lo largo de la historia y en todas las culturas, sin embargo, el concepto de bailar para crear música rara vez se explora.
“Be the Beat” crea un espacio para la colaboración entre humanos e IA en la danza de estilo libre, lo que permite a los bailarines repensar la dinámica tradicional entre la danza y la música. Utiliza PoseNet para describir los movimientos de un gran modelo de lenguaje, lo que le permite analizar el estilo de baile y consultar API para encontrar música con estilo, energía y ritmo similares. Los bailarines que interactuaron con el boombox informaron tener más control sobre la expresión artística y describieron el boombox como un enfoque novedoso para descubrir géneros de danza y realizar coreografías de manera creativa.
Un misterio para ti
“A Mystery for You”, de Mrinalini Singha SM ’24, recién graduada del programa de Arte, Cultura y Tecnología, y Haoheng Tang, recién graduado de la Escuela de Diseño de la Universidad de Harvard, es un juego educativo diseñado para cultivar el pensamiento crítico y las habilidades de verificación de datos en los estudiantes jóvenes. El juego aprovecha un modelo de lenguaje amplio (LLM) y una interfaz tangible para crear una experiencia de investigación inmersiva. Los jugadores actúan como verificadores de datos ciudadanos, respondiendo a las “alertas de noticias” generadas por IA impresas por la interfaz del juego. Al insertar combinaciones de cartuchos para solicitar “actualizaciones de noticias” de seguimiento, navegan por escenarios ambiguos, analizan evidencia y sopesan información conflictiva para tomar decisiones informadas.
Esta experiencia de interacción entre humanos y computadoras desafía nuestros hábitos de consumo de noticias al eliminar las interfaces de pantalla táctil, reemplazando el desplazamiento perpetuo y la lectura superficial con un dispositivo analógico hápticamente rico. Al combinar las ventajas de los medios lentos con los nuevos medios generativos, el juego promueve interacciones reflexivas y corporales al tiempo que equipa a los jugadores para comprender y desafiar mejor el panorama mediático polarizado de la actualidad, donde prosperan la desinformación y las narrativas manipuladoras.
Memorscopio
“Memorscope”, del colaborador de investigación del MIT Media Lab Keunwook Kim, es un dispositivo que crea memorias colectivas fusionando la experiencia profundamente humana de la interacción cara a cara con tecnologías avanzadas de inteligencia artificial. Inspirado en la forma en que utilizamos microscopios y telescopios para examinar y descubrir detalles ocultos e invisibles, Memorscope permite a dos usuarios “mirarse” a la cara, utilizando esta interacción íntima como una puerta de entrada a la creación y exploración de sus recuerdos compartidos.
El dispositivo aprovecha modelos de inteligencia artificial como OpenAI y Midjourney, introduciendo diferentes interpretaciones estéticas y emocionales, lo que da como resultado un espacio de memoria dinámico y colectivo. Este espacio trasciende las limitaciones de los álbumes compartidos tradicionales, ofreciendo un entorno fluido e interactivo donde los recuerdos no son solo instantáneas estáticas, sino narrativas vivas y en evolución, moldeadas por la relación continua entre los usuarios.
Narratrón
“Narratron”, de Xiying (Aria) Bao y Yubo Zhao, estudiantes de la Escuela de Diseño de la Universidad de Harvard, es un proyector interactivo que crea y representa en conjunto historias infantiles a través de marionetas de sombras utilizando grandes modelos de lenguaje. Los usuarios pueden presionar el obturador para “capturar” a los protagonistas que quieren que sean en la historia, y toma sombras de manos (como formas de animales) como entrada para los personajes principales. Luego, el sistema desarrolla la trama de la historia a medida que se introducen nuevos personajes de sombras. La historia aparece a través de un proyector como telón de fondo para las marionetas de sombras mientras se narra a través de un altavoz mientras los usuarios giran una manivela para “jugar” en tiempo real. Al combinar interacciones visuales, auditivas y corporales en un solo sistema, el proyecto tiene como objetivo estimular la creatividad en la narración de historias de marionetas de sombras y permitir la colaboración multimodal entre humanos e IA.
Sintaxis perfecta
“Perfect Syntax”, de Karyn Nakamura ’24, es una pieza de videoarte que examina la lógica sintáctica detrás del movimiento y el video. Utilizando inteligencia artificial para manipular fragmentos de video, el proyecto explora cómo las máquinas pueden simular y reconstruir la fluidez del movimiento y el tiempo. Inspirándose tanto en la investigación filosófica como en la práctica artística, el trabajo de Nakamura interroga la relación entre la percepción, la tecnología y el movimiento que da forma a nuestra experiencia del mundo. Al reimaginar el video a través de procesos computacionales, Nakamura investiga las complejidades de cómo las máquinas entienden y representan el paso del tiempo y el movimiento. MIT News. A. Z. Traducido al español