Ha estado lloviendo durante días cuando te desplazarás por la web y te encontrarás con una imagen de una hermosa playa con agua turquesa que brilla bajo el sol. ¿Dónde está eso, preguntas en voz alta y cómo puedo llegar allí? La respuesta es inmediata. Su asistente de IA no solo identifica la playa, sino que también reúne un plan de vacaciones completo para usted. Hablas de los detalles para refinar tu itinerario, obtienes algunos consejos para enfrentar el clima triste mientras tanto y comienzas a tocar una banda sonora sugerida para ayudar a levantar tu estado de ánimo. Las experiencias de IA se están volviendo cada vez más multimodales, lo que significa que pueden ir más allá de las simples indicaciones de texto — que escribes una pregunta; la herramienta responde — usando imágenes, audio y video para ver lo que ves en línea y escuchar lo que escuchas. Esas capacidades están ayudando a las últimas herramientas de IA a obtener una imagen más completa de lo que está buscando hacer, todo mientras le brinda formas más intuitivas de interactuar con la tecnología y obtener información aún más rápida y fácilmente. Al igual que los cerebros humanos absorben información de texto, imágenes y audio simultáneamente, con los investigadores de IA multimodales que han trabajado para “colapsar todas estas capacidades en un modelo universal,” dice Ryan Volum, quien guía el desarrollo de productos de IA en Microsoft. “Weirre le da más y más del mundo que vemos como humanos.” Si bien los modelos de IA multimodal no son completamente nuevos, están comenzando a tener un impacto en el mundo real con herramientas para ayudar a los médicos a diagnosticar y tratar a los pacientes con más precisión y las agencias meteorológicas predicen más tormentas severas precisión. Cada vez más, la inteligencia artificial nos encontrará donde estamos para que pueda comprender mejor nuestras necesidades y satisfacerlas de manera más proactiva. Las herramientas multimodales también están ayudando a las personas a simplificar asuntos más mundanos —, como cuando Volum recientemente intentó elegir entre diferentes opciones de seguro de salud. En lugar de tener que estudiar detenidamente el lenguaje denso de cada plan, Volum recurrió a Copilot Visión, una característica de Microsoft que proporciona asistencia en tiempo real para hacer que navegar por la web sea menos abrumador. Con su permiso, Copilot Vision pudo ver todo en el sitio que estaba examinando — no solo texto, sino también gráficos e imágenes — y resumirlo todo para él en menos tiempo de lo que lo habría llevado a recorrer la primera línea. Luego respondió a sus preguntas en una conversación natural, trayendo información de otras fuentes para proporcionar un contexto que lo ayudó a decidir. “Fue capaz de conocerme en mi mundo” y ofrecer una mejor asistencia, dice Volum. Lo compara con la forma en que dos personas a menudo trabajan juntas para volar un avión. “Si tu copiloto en un avión solo podía escuchar lo que estás diciendo pero no podía ver lo que estás viendo, serían mucho menos útiles,” dice. “Pero debido a que pueden ver las nubes frente a ti, los indicadores del tablero, la telemetría del avión, ese copiloto puede ser mucho más útil, y hay mucho menos trabajo necesario para que el usuario comunique lo que necesita.” Cómo funcionan los modelos de IA multimodales — y qué pueden hacer Con la IA multimodal, los desarrolladores se han basado en los avances recientes con el lenguaje natural y han ampliado esas capacidades a diferentes entradas. Así como los modelos tradicionales de lenguaje grande (LLM) realizan tareas basadas en texto extrayendo conceptos codificados en lenguaje humano y pensamiento para hacer inferencias lógicas, resolver problemas y generar contenido, los modelos multimodales hacen lo mismo con otros modos de comunicación como voz y visuales. Los modelos están capacitados en grandes conjuntos de datos para identificar características clave en diferentes tipos de datos, como palabras y frases en texto, formas y colores en imágenes, o tonos y tonos en audio. Ordenan estas entradas y las conectan de manera unificada — vinculando una imagen de un gato a la palabra escrita y hablada, por ejemplo — y luego reconocen patrones para hacer conexiones entre modalidades. Una vez entrenado, un modelo puede traducir entre modos para comprender y crear contenido. Puede generar una imagen de direcciones habladas de alguien, por ejemplo, o crear audio a partir de una solicitud escrita. Estas capacidades ampliadas están ayudando clínicos y científicos, en particular, hacer grandes avances, dice Jonathan Carlson, quien dirige la investigación en ciencias de la salud y la vida en Microsoft Health Futures. Los LLM se utilizan durante las citas médicas para registrar y ordenar las conversaciones con los pacientes — incluso si la discusión rebotó entre los síntomas y las preguntas — para varias tareas de seguimiento que de otro modo requieren mucho tiempo y atención de un médico, como redactar un resumen después de la visita y una referencia a un especialista que el médico solo tiene que probar y firmar. Y los modelos multimodales van un paso más allá al aplicar esa capacidad de razonamiento para analizar píxeles imágenes médicas, identificar posibles tumores u otras anomalías que podrían ser difíciles de encontrar. La IA se puede usar para apoyar y validar el trabajo de un patólogo e incluso detectar cosas que un ojo humano podría perder, dice Carlson, o extrapolar para ayudar a diagnosticar enfermedades raras que tienen datos de entrenamiento limitados. “Ahora tenemos modelos que entienden conceptos codificados en imágenes y en lenguaje,” Carlson dice. “Así que puedes decir, ‘Hey, tengo una imagen de patología, muéstrame todas las células inmunes, identifico cualquier célula cancerosa sospechosa y avísame si hay algún biomarcador probable que pueda ayudarme a elegir el tratamiento adecuado.’ Una vez que tienes modelos que tienen estos conceptos ricos, en realidad es muy simple alinear esos conceptos y básicamente unirlos y terminar con esto rica experiencia donde ahora puedes hablar esencialmente con una imagen.” Esa capacidad ayuda a guiar a los médicos hacia más pruebas específicas y tratamientos precisosmejorar los