Ha estado lloviendo durante días cuando te desplazarás por la web y te encontrarás con una imagen de una hermosa playa con agua turquesa que brilla bajo el sol.
¿Dónde está eso, preguntas en voz alta y cómo puedo llegar allí?
La respuesta es inmediata. Su asistente de IA no solo identifica la playa, sino que también reúne un plan de vacaciones completo para usted. Hablas de los detalles para refinar tu itinerario, obtienes algunos consejos para enfrentar el clima triste mientras tanto y comienzas a tocar una banda sonora sugerida para ayudar a levantar tu estado de ánimo.
Las experiencias de IA se están volviendo cada vez más multimodales, lo que significa que pueden ir más allá de las simples indicaciones de texto — que escribes una pregunta; la herramienta responde — usando imágenes, audio y video para ver lo que ves en línea y escuchar lo que escuchas. Esas capacidades están ayudando a las últimas herramientas de IA a obtener una imagen más completa de lo que está buscando hacer, todo mientras le brinda formas más intuitivas de interactuar con la tecnología y obtener información aún más rápida y fácilmente.
Al igual que los cerebros humanos absorben información de texto, imágenes y audio simultáneamente, con los investigadores de IA multimodales que han trabajado para “colapsar todas estas capacidades en un modelo universal,” dice Ryan Volum, quien guía el desarrollo de productos de IA en Microsoft. “Weirre le da más y más del mundo que vemos como humanos.”
Si bien los modelos de IA multimodal no son completamente nuevos, están comenzando a tener un impacto en el mundo real con herramientas para ayudar a los médicos a diagnosticar y tratar a los pacientes con más precisión y las agencias meteorológicas predicen más tormentas severas precisión.
Cada vez más, la inteligencia artificial nos encontrará donde estamos para que pueda comprender mejor nuestras necesidades y satisfacerlas de manera más proactiva.
Las herramientas multimodales también están ayudando a las personas a simplificar asuntos más mundanos —, como cuando Volum recientemente intentó elegir entre diferentes opciones de seguro de salud.
En lugar de tener que estudiar detenidamente el lenguaje denso de cada plan, Volum recurrió a Copilot Visión, una característica de Microsoft que proporciona asistencia en tiempo real para hacer que navegar por la web sea menos abrumador. Con su permiso, Copilot Vision pudo ver todo en el sitio que estaba examinando — no solo texto, sino también gráficos e imágenes — y resumirlo todo para él en menos tiempo de lo que lo habría llevado a recorrer la primera línea.
Luego respondió a sus preguntas en una conversación natural, trayendo información de otras fuentes para proporcionar un contexto que lo ayudó a decidir.
“Fue capaz de conocerme en mi mundo” y ofrecer una mejor asistencia, dice Volum. Lo compara con la forma en que dos personas a menudo trabajan juntas para volar un avión.
“Si tu copiloto en un avión solo podía escuchar lo que estás diciendo pero no podía ver lo que estás viendo, serían mucho menos útiles,” dice. “Pero debido a que pueden ver las nubes frente a ti, los indicadores del tablero, la telemetría del avión, ese copiloto puede ser mucho más útil, y hay mucho menos trabajo necesario para que el usuario comunique lo que necesita.”
Cómo funcionan los modelos de IA multimodales — y qué pueden hacer
Con la IA multimodal, los desarrolladores se han basado en los avances recientes con el lenguaje natural y han ampliado esas capacidades a diferentes entradas. Así como los modelos tradicionales de lenguaje grande (LLM) realizan tareas basadas en texto extrayendo conceptos codificados en lenguaje humano y pensamiento para hacer inferencias lógicas, resolver problemas y generar contenido, los modelos multimodales hacen lo mismo con otros modos de comunicación como voz y visuales.
Los modelos están capacitados en grandes conjuntos de datos para identificar características clave en diferentes tipos de datos, como palabras y frases en texto, formas y colores en imágenes, o tonos y tonos en audio. Ordenan estas entradas y las conectan de manera unificada — vinculando una imagen de un gato a la palabra escrita y hablada, por ejemplo — y luego reconocen patrones para hacer conexiones entre modalidades.
Una vez entrenado, un modelo puede traducir entre modos para comprender y crear contenido. Puede generar una imagen de direcciones habladas de alguien, por ejemplo, o crear audio a partir de una solicitud escrita.

Estas capacidades ampliadas están ayudando clínicos y científicos, en particular, hacer grandes avances, dice Jonathan Carlson, quien dirige la investigación en ciencias de la salud y la vida en Microsoft Health Futures.
Los LLM se utilizan durante las citas médicas para registrar y ordenar las conversaciones con los pacientes — incluso si la discusión rebotó entre los síntomas y las preguntas — para varias tareas de seguimiento que de otro modo requieren mucho tiempo y atención de un médico, como redactar un resumen después de la visita y una referencia a un especialista que el médico solo tiene que probar y firmar.
Y los modelos multimodales van un paso más allá al aplicar esa capacidad de razonamiento para analizar píxeles imágenes médicas, identificar posibles tumores u otras anomalías que podrían ser difíciles de encontrar. La IA se puede usar para apoyar y validar el trabajo de un patólogo e incluso detectar cosas que un ojo humano podría perder, dice Carlson, o extrapolar para ayudar a diagnosticar enfermedades raras que tienen datos de entrenamiento limitados.
“Ahora tenemos modelos que entienden conceptos codificados en imágenes y en lenguaje,” Carlson dice. “Así que puedes decir, ‘Hey, tengo una imagen de patología, muéstrame todas las células inmunes, identifico cualquier célula cancerosa sospechosa y avísame si hay algún biomarcador probable que pueda ayudarme a elegir el tratamiento adecuado.’ Una vez que tienes modelos que tienen estos conceptos ricos, en realidad es muy simple alinear esos conceptos y básicamente unirlos y terminar con esto rica experiencia donde ahora puedes hablar esencialmente con una imagen.”
Esa capacidad ayuda a guiar a los médicos hacia más pruebas específicas y tratamientos precisosmejorar los resultados a través de diagnósticos anteriores y ahorrar tiempo, incomodidad y dinero a los pacientes al reducir los procedimientos innecesarios.
Cómo puede aprovechar la multimodalidad
Muchas personas podrán usar capacidades multimodales en los navegadores Edge con Copilot Vision, ahora disponible para todos los usuarios de Copilot Pro y Copilot gratis en los EE. Cada persona tiene el control cuando se trata de usar la nueva herramienta: Debe hacer clic en el icono de Copilot Vision para iniciar una sesión, y una vez que la termine, los datos se eliminan.

Las empresas y los desarrolladores pueden elegir entre un todo catálogo de modelos multimodales — o obtener ayuda mezcla y coincidencia de las 1.800 opciones en el Azure AI Foundry — para crear herramientas comerciales más inteligentes e interactivas.
Mercedes-Benz, por ejemplo, creó una herramienta que utiliza Azure AI Vision y GPT-4 Turbo para ver un entorno de carruajes y responder verbalmente a las preguntas del conductor, como si se les permite estacionarse en una calle determinada o qué edificio se acerca.
Microsoft Microsofts recientemente introducido Modelo magma integra la percepción visual con la comprensión del lenguaje para ayudar a los asistentes o robots impulsados por IA a comprender el entorno en el que no han sido entrenados y sugieren acciones apropiadas para nuevas tareas — como agarrar una herramienta o navegar por un sitio web y hacer clic en un botón para ejecutar un comando. Es un paso significativo hacia Agentes de IA eso puede servir como asistentes versátiles y de propósito general.
Y lo nuevo Modelo multimodal phi-4 puede procesar el habla, la visión y el texto directamente en los dispositivos, utilizando menos potencia informática que sus predecesores. Este modelo más pequeño y accesible permite a los desarrolladores crear aplicaciones eficientes que sobresalen en tareas matemáticas y lógicas.
Capacidades multimodales en servicios como Comprensión del contenido de Azure AI puede ayudar a encontrar información significativa a partir de un montón de datos no estructurados, como grabaciones de centros de llamadas, documentos escaneados o publicaciones en redes sociales.
El audio y el video aumentan las apuestas por seguridad
Toda esa capacidad conlleva nuevos riesgos y una necesidad más amplia de educación sobre IA y colaboración para salvaguardarla, dice Sarah Bird, directora de productos de Microsoft IA responsable.
La forma en que las personas están representadas — o tergiversadas — es un riesgo exclusivo de la IA multimodal, dice Bird, ya que la forma en que alguien se ve o suena puede hacerse pasar por la tecnología generativa.
Y las reacciones de peopleens cambian con las modalidades utilizadas, dice ella. Por ejemplo, las imágenes violentas se perciben como más severas que el texto violento; un video se considera más confiable que una historia escrita; y cuando un asistente de IA como Copilot habla con una voz audible, los errores se sienten más intencionales que cuando aparecen en pantalla.

Por lo tanto, los investigadores e ingenieros de seguridad de Microsoft han estado construyendo sobre las barandillas que ya están en su lugar para la IA generativa, dice Bird.
A medida que más modalidades introducen más riesgo, las entradas como texto, imágenes o audio que pueden ser benignos por sí solos se pueden usar para crear contenido dañino cuando se combinan, como una foto de una persona famosa con texto que los describe como un animal. Es por eso que Microsoft está actualizando sus modelos de seguridad para revisar la suma de la salida, en lugar de solo las partes individuales, dice Bird.
También es clave una amplia conciencia sobre los riesgos y cómo reconocer el contenido generado por la IA. Microsoft firma criptográficamente todo el contenido generado por IA hecho con su tecnología para que cualquiera pueda identificarlo. La educación y la capacitación son cruciales para que las personas sepan esperar estas firmas y saber lo que significan — como lo es la colaboración entre organizaciones tecnológicas, como la Coalición C2PA fundada por Microsoft y otros líderes de la industria para desarrollar estándares para certificar fuentes.
“Hay mucho que podemos hacer tecnológicamente y dentro de la plataforma” para reducir el riesgo, dice Bird. “Pero también, hay nuevo contenido en el mundo, y el mundo necesita ajustar su enfoque a eso. Cada persona tiene un papel que desempeñar en la forma en que evaluamos y defendemos los riesgos multimodales.”
Abriendo un mundo de oportunidades
La investigación avanza rápidamente a medida que los desarrollos se construyen entre sí.
Por primera vez, en los últimos años, dice Carlson, los investigadores tienen la maquinaria y la asistencia multimodal de IA que les permite construir una imagen holística de una célula.

“El siguiente conjunto de cosas es, ¿cómo aprende un modelo a entender las proteínas?” él dice. “Weiz ha estado trabajando mucho en eso, y puedes tomar las mismas ideas del modelado del lenguaje y aplicarlo a cientos, miles, millones de secuencias de proteínas” para diseñar antígenos para vacunas, por ejemplo.
“Se trata de aprender el lenguaje de la naturaleza,” dice. “De la misma manera que aprendemos el lenguaje de cómo hablan los humanos, ¿podemos aprender el lenguaje de cómo se expresa la célula o cómo funcionan realmente las secuencias de proteínas?”
Ser capaz de usar texto, voz, imágenes, audio y video para resolver todo tipo de problemas a la vez abre un mundo de nuevas oportunidades, dice Volum.
“Cada vez más, la inteligencia artificial nos encontrará donde estamos,” dice, “para que pueda comprender mejor nuestras necesidades y satisfacerlas de manera más proactiva.”
Ilustraciones de Micha reach Bednarski / Makeshift Studios. Historia publicada el 18 de marzo de 2025
Microsoft News. S. R. Traducido al español