El Portal de las Tecnologías para la Innovación

Presentamos Gemini 2.0: nuestro nuevo modelo de IA para la era de la agencia

Una nota del director ejecutivo de Google y Alphabet, Sundar Pichai:

La información es el núcleo del progreso humano. Por eso, durante más de 26 años nos hemos centrado en nuestra misión de organizar la información del mundo y hacerla accesible y útil. Y es por eso que seguimos ampliando las fronteras de la IA para organizar esa información en cada entrada y hacerla accesible a través de cualquier salida, de modo que pueda ser realmente útil para usted.

Esa fue nuestra visión cuando presentamos Gemini 1.0 en diciembre pasado . El primer modelo creado para ser multimodal de forma nativa, Gemini 1.0 y 1.5 impulsó grandes avances con la multimodalidad y el contexto extenso para comprender información en texto, video, imágenes, audio y código, y procesar mucho más de esa información.

En la actualidad, millones de desarrolladores desarrollan con Gemini, lo que nos ayuda a reinventar todos nuestros productos (incluidos los 7 que cuentan con 2 mil millones de usuarios) y a crear otros nuevos. NotebookLM es un gran ejemplo de lo que la multimodalidad y el contexto extenso pueden permitir a las personas, y por qué es tan apreciado por tantas personas.

Durante el último año, hemos estado invirtiendo en el desarrollo de modelos más agentes, lo que significa que pueden comprender más sobre el mundo que lo rodea, pensar varios pasos por adelantado y tomar medidas en su nombre, con su supervisión.

Hoy estamos entusiasmados por lanzar nuestra próxima era de modelos diseñados para esta nueva era de agentes: presentamos Gemini 2.0, nuestro modelo más capaz hasta el momento. Con nuevos avances en multimodalidad (como salida de audio e imagen nativa) y uso de herramientas nativas, nos permitirá crear nuevos agentes de IA que nos acerquen a nuestra visión de un asistente universal.

Hoy mismo estamos poniendo la versión 2.0 en manos de desarrolladores y evaluadores de confianza. Y estamos trabajando rápidamente para incorporarla a nuestros productos, comenzando con Gemini y Search. A partir de hoy, nuestro modelo experimental Flash de Gemini 2.0 estará disponible para todos los usuarios de Gemini. También estamos lanzando una nueva función llamada Deep Research , que utiliza capacidades avanzadas de razonamiento y contexto extenso para actuar como asistente de investigación, explorando temas complejos y compilando informes en su nombre. Está disponible en Gemini Advanced hoy.

Ningún producto ha sido transformado más por la IA que la Búsqueda. Nuestras Vistas generales de IA ahora llegan a mil millones de personas, lo que les permite hacer tipos de preguntas completamente nuevos, convirtiéndose rápidamente en una de nuestras funciones de Búsqueda más populares. Como próximo paso, estamos incorporando las capacidades de razonamiento avanzado de Gemini 2.0 a las Vistas generales de IA para abordar temas más complejos y preguntas de varios pasos, incluidas ecuaciones matemáticas avanzadas, consultas multimodales y codificación. Comenzamos con pruebas limitadas esta semana y las implementaremos de manera más amplia a principios del próximo año. Y continuaremos llevando las Vistas generales de IA a más países e idiomas durante el próximo año.

Los avances de Gemini 2.0 están respaldados por inversiones de una década en nuestro enfoque diferenciado de pila completa para la innovación en IA. Está construido sobre hardware personalizado como Trillium, nuestras TPU de sexta generación. Las TPU impulsaron el 100 % del entrenamiento e inferencia de Gemini 2.0, y hoy Trillium está disponible para los clientes de manera general para que también puedan desarrollar con él.

Si Gemini 1.0 se centraba en organizar y comprender la información, Gemini 2.0 se centra en hacerla mucho más útil. No veo la hora de ver qué nos deparará la próxima era.

-Sundar


Presentamos Gemini 2.0: nuestro nuevo modelo de IA para la era de la agencia

Por Demis Hassabis, director ejecutivo de Google DeepMind y Koray Kavukcuoglu, director de tecnología de Google DeepMind en nombre del equipo de Gemini

Durante el último año, hemos seguido logrando avances increíbles en inteligencia artificial. Hoy, estamos lanzando el primer modelo de la familia de modelos Gemini 2.0: una versión experimental de Gemini 2.0 Flash. Es nuestro modelo de trabajo con baja latencia y rendimiento mejorado a la vanguardia de nuestra tecnología, a escala.

También compartimos las fronteras de nuestra investigación agente al mostrar prototipos habilitados por las capacidades multimodales nativas de Gemini 2.0.

Géminis 2.0 Flash

Gemini 2.0 Flash se basa en el éxito de 1.5 Flash, nuestro modelo más popular hasta el momento para desarrolladores, con un rendimiento mejorado con tiempos de respuesta igualmente rápidos. Cabe destacar que 2.0 Flash incluso supera a 1.5 Pro en los principales puntos de referencia, con el doble de velocidad. 2.0 Flash también viene con nuevas capacidades. Además de admitir entradas multimodales como imágenes, video y audio, 2.0 Flash ahora admite salida multimodal como imágenes generadas de forma nativa mezcladas con texto y audio multilingüe de texto a voz (TTS) dirigible. También puede llamar de forma nativa a herramientas como Google Search, ejecución de código y funciones definidas por el usuario de terceros.

Un gráfico que compara los modelos Gemini y sus capacidades

Nuestro objetivo es que nuestros modelos lleguen a las manos de las personas de forma segura y rápida. Durante el último mes, hemos estado compartiendo versiones experimentales preliminares de Gemini 2.0 y hemos recibido excelentes comentarios de los desarrolladores.

Gemini 2.0 Flash ya está disponible como modelo experimental para desarrolladores a través de la API de Gemini en Google AI Studio y Vertex AI, con entrada multimodal y salida de texto disponibles para todos los desarrolladores, y generación de texto a voz y de imágenes nativas disponibles para socios de acceso anticipado. La disponibilidad general se realizará en enero, junto con más tamaños de modelo.

Para ayudar a los desarrolladores a crear aplicaciones dinámicas e interactivas, también estamos lanzando una nueva API Multimodal Live que tiene entrada de audio y video en tiempo real y la capacidad de usar múltiples herramientas combinadas. Puede encontrar más información sobre Flash 2.0 y la API Multimodal Live en nuestro blog para desarrolladores .

Gemini 2.0 disponible en la aplicación Gemini, nuestro asistente de IA

A partir de hoy, los usuarios de Gemini de todo el mundo pueden acceder a una versión optimizada para chat de Flash 2.0 experimental seleccionándola en el menú desplegable de modelos en la versión de escritorio y la web móvil, y pronto estará disponible en la aplicación móvil de Gemini. Con este nuevo modelo, los usuarios pueden experimentar un asistente de Gemini aún más útil.

A principios del próximo año, ampliaremos Gemini 2.0 a más productos de Google.

Desbloqueo de experiencias de agencia con Gemini 2.0

Las capacidades de acción de la interfaz de usuario nativa de Gemini 2.0 Flash, junto con otras mejoras como razonamiento multimodal, comprensión de contexto largo, seguimiento y planificación de instrucciones complejas, llamada de funciones compositivas, uso de herramientas nativas y latencia mejorada, trabajan en conjunto para permitir una nueva clase de experiencias de agencia.

La aplicación práctica de los agentes de IA es un área de investigación llena de posibilidades apasionantes. Estamos explorando esta nueva frontera con una serie de prototipos que pueden ayudar a las personas a realizar tareas y lograr que se hagan las cosas. Entre ellos se incluyen una actualización del Proyecto Astra, nuestro prototipo de investigación que explora las capacidades futuras de un asistente de IA universal; el nuevo Proyecto Mariner, que explora el futuro de la interacción entre humanos y agentes, comenzando por su navegador; y Jules, un agente de código impulsado por IA que puede ayudar a los desarrolladores.

Todavía estamos en las primeras etapas de desarrollo, pero estamos entusiasmados por ver cómo los evaluadores confiables usan estas nuevas capacidades y qué lecciones podemos aprender para que estén más ampliamente disponibles en los productos en el futuro.

Vídeo supercortado de Gemini 2.0

Proyecto Astra: agentes que utilizan la comprensión multimodal en el mundo real

Desde que presentamos el Proyecto Astra en I/O, hemos estado aprendiendo de probadores de confianza que lo utilizan en teléfonos Android. Sus valiosos comentarios nos han ayudado a comprender mejor cómo podría funcionar en la práctica un asistente de IA universal, incluidas las implicaciones para la seguridad y la ética. Las mejoras en la última versión creada con Gemini 2.0 incluyen:

  • Mejor diálogo: Project Astra ahora tiene la capacidad de conversar en varios idiomas y en idiomas mixtos, con una mejor comprensión de acentos y palabras poco comunes.
  • Nueva herramienta de uso: con Gemini 2.0, Project Astra puede utilizar Google Search, Lens y Maps, lo que lo hace más útil como asistente en su vida diaria.
  • Mejor memoria: Hemos mejorado la capacidad de Project Astra para recordar cosas mientras te mantiene en control. Ahora tiene hasta 10 minutos de memoria durante la sesión y puede recordar más conversaciones que tuviste con él en el pasado, por lo que está más personalizado para ti.
  • Latencia mejorada: con nuevas capacidades de transmisión y comprensión de audio nativo, el agente puede comprender el lenguaje con una latencia similar a la de una conversación humana.

Estamos trabajando para incorporar este tipo de capacidades a productos de Google como la aplicación Gemini , nuestro asistente de inteligencia artificial y otros formatos como las gafas. Y estamos empezando a ampliar nuestro programa de probadores de confianza a más personas, incluido un pequeño grupo que pronto comenzará a probar el Proyecto Astra en prototipos de gafas.

Vídeo de demostración del proyecto Astra

Proyecto Mariner: agentes que pueden ayudarle a realizar tareas complejas

Project Mariner es un prototipo de investigación inicial creado con Gemini 2.0 que explora el futuro de la interacción entre humanos y agentes, comenzando por el navegador. Como prototipo de investigación, es capaz de comprender y razonar sobre la información en la pantalla del navegador, incluidos píxeles y elementos web como texto, código, imágenes y formularios, y luego utiliza esa información a través de una extensión experimental de Chrome para completar tareas por usted.

Cuando se evaluó en comparación con el punto de referencia WebVoyager , que prueba el rendimiento del agente en tareas web de extremo a extremo del mundo real, Project Mariner logró un resultado de vanguardia del 83,5 % trabajando como una configuración de agente único.

Aún es pronto, pero el Proyecto Mariner demuestra que cada vez es técnicamente posible navegar dentro de un navegador, aunque hoy en día no siempre es preciso y resulta lento completar tareas, algo que mejorará rápidamente con el tiempo.

Para desarrollar esto de manera segura y responsable, estamos realizando una investigación activa sobre nuevos tipos de riesgos y mitigaciones, manteniendo a los humanos informados. Por ejemplo, Project Mariner solo puede escribir, desplazarse o hacer clic en la pestaña activa de su navegador y solicita a los usuarios una confirmación final antes de realizar ciertas acciones sensibles, como comprar algo.

Los evaluadores confiables están comenzando a probar el Proyecto Mariner usando una extensión experimental de Chrome y, en paralelo, estamos iniciando conversaciones con el ecosistema web.

Vídeo de demostración de Mariner

Jules: agentes para desarrolladores

A continuación, exploraremos cómo los agentes de IA pueden ayudar a los desarrolladores con Jules, un agente de código experimental impulsado por IA que se integra directamente en un flujo de trabajo de GitHub. Puede abordar un problema, desarrollar un plan y ejecutarlo, todo bajo la dirección y supervisión de un desarrollador. Este esfuerzo es parte de nuestro objetivo a largo plazo de crear agentes de IA que sean útiles en todos los dominios, incluida la codificación.

Puede encontrar más información sobre este experimento en curso en nuestra publicación del blog para desarrolladores .

Agentes en juegos y otros dominios

Google DeepMind tiene una larga trayectoria en el uso de juegos para ayudar a los modelos de IA a mejorar su capacidad para seguir reglas, planificar y aplicar la lógica. La semana pasada, por ejemplo, presentamos Genie 2 , nuestro modelo de IA que puede crear una variedad infinita de mundos 3D jugables, todo a partir de una única imagen. Basándonos en esta tradición, hemos creado agentes que utilizan Gemini 2.0 que pueden ayudarte a navegar por el mundo virtual de los videojuegos. Puede razonar sobre el juego basándose únicamente en la acción que se muestra en la pantalla y ofrecer sugerencias sobre qué hacer a continuación en una conversación en tiempo real.

Estamos colaborando con desarrolladores de juegos líderes como Supercell para explorar cómo funcionan estos agentes, probando su capacidad para interpretar reglas y desafíos en una amplia gama de juegos, desde títulos de estrategia como «Clash of Clans» hasta simuladores agrícolas como «Hay Day».

Además de actuar como compañeros de juego virtuales, estos agentes pueden incluso aprovechar la Búsqueda de Google para conectarte con la gran cantidad de conocimiento sobre juegos en la web.

Vídeo de demostración de Navi

Además de explorar las capacidades de los agentes en el mundo virtual, estamos experimentando con agentes que pueden ayudar en el mundo físico aplicando las capacidades de razonamiento espacial de Gemini 2.0 a la robótica. Si bien todavía es temprano, estamos entusiasmados con el potencial de los agentes que pueden ayudar en el entorno físico.

Puede obtener más información sobre estos prototipos y experimentos de investigación en labs.google .

Construir responsablemente en la era de la agencia

Gemini 2.0 Flash y nuestros prototipos de investigación nos permiten probar e iterar sobre nuevas capacidades a la vanguardia de la investigación de IA que eventualmente harán que los productos de Google sean más útiles.

A medida que desarrollamos estas nuevas tecnologías, reconocemos la responsabilidad que conllevan y las numerosas preguntas que los agentes de IA plantean en materia de seguridad. Por eso, estamos adoptando un enfoque exploratorio y gradual para el desarrollo, realizando investigaciones sobre múltiples prototipos, implementando de forma iterativa la capacitación en seguridad, trabajando con evaluadores de confianza y expertos externos y realizando evaluaciones exhaustivas de riesgos y evaluaciones de seguridad y garantía.

Por ejemplo:

  • Como parte de nuestro proceso de seguridad, hemos trabajado con nuestro Comité de Responsabilidad y Seguridad (RSC), nuestro antiguo grupo de revisión interna, para identificar y comprender los riesgos potenciales.
  • Las capacidades de razonamiento de Gemini 2.0 han permitido avances importantes en nuestro enfoque de trabajo en equipo asistido por IA, incluida la capacidad de ir más allá de la simple detección de riesgos y ahora generar automáticamente evaluaciones y datos de entrenamiento para mitigarlos. Esto significa que podemos optimizar el modelo de manera más eficiente para la seguridad a escala.
  • A medida que la multimodalidad de Gemini 2.0 aumenta la complejidad de los resultados potenciales, continuaremos evaluando y entrenando el modelo en entradas y salidas de imágenes y audio para ayudar a mejorar la seguridad.
  • Con Project Astra, estamos explorando posibles mitigaciones contra los usuarios que comparten información confidencial sin intención con el agente, y ya hemos incorporado controles de privacidad que facilitan a los usuarios la eliminación de sesiones. También seguimos investigando formas de garantizar que los agentes de IA actúen como fuentes confiables de información y no realicen acciones no deseadas en su nombre.
  • Con Project Mariner, estamos trabajando para garantizar que el modelo aprenda a priorizar las instrucciones del usuario por sobre los intentos de terceros de introducir instrucciones, de modo que pueda identificar instrucciones potencialmente maliciosas de fuentes externas y evitar el uso indebido. Esto evita que los usuarios queden expuestos a intentos de fraude y phishing a través de elementos como instrucciones maliciosas ocultas en correos electrónicos, documentos o sitios web.

Creemos firmemente que la única forma de construir IA es ser responsables desde el principio y continuaremos priorizando la seguridad y la responsabilidad como un elemento clave de nuestro proceso de desarrollo de modelos a medida que avanzamos en nuestros modelos y agentes.

Gemini 2.0, agentes de IA y más allá

Los lanzamientos de hoy marcan un nuevo capítulo para nuestro modelo Gemini. Con el lanzamiento de Gemini 2.0 Flash y la serie de prototipos de investigación que exploran las posibilidades de la agencia, hemos alcanzado un hito emocionante en la era Gemini. Y esperamos seguir explorando de forma segura todas las nuevas posibilidades a nuestro alcance a medida que avanzamos hacia la IAG. Google Blog. Traducido al español

Artículos relacionados

Scroll al inicio