El Portal de las Tecnologías para la Innovación

Compartir nuevas investigaciones, modelos y conjuntos de datos de Meta FAIR

Hoy, nos complace publicar algunas de las últimas investigaciones, códigos, modelos y conjuntos de datos de Meta Fundamental AI Research (FAIR).

 Comida para llevar

  • Hoy, Meta FAIR está lanzando varios artefactos de investigación nuevos que resaltan nuestras innovaciones recientes en el desarrollo de agentes, robustez y seguridad, y arquitecturas que facilitan el aprendizaje automático.
  • El trabajo que compartimos promueve nuestro objetivo de lograr inteligencia artificial avanzada e incluye Meta Motivo, un modelo fundamental para controlar el comportamiento de agentes virtuales encarnados, y Meta Video Seal, un modelo de código abierto para marcas de agua en videos.
  • Nuestro objetivo es democratizar el acceso a tecnologías de última generación que transformen nuestra interacción con el mundo físico, por eso estamos comprometidos a fomentar un ecosistema colaborativo y abierto que acelere el progreso y el descubrimiento.

A medida que continuamos trabajando para alcanzar nuestro objetivo de lograr una inteligencia artificial avanzada, queremos compartir nuestro progreso con la comunidad de investigación para que puedan aprovechar nuestro trabajo. Hoy, nos complace publicar algunas de las últimas investigaciones, códigos, modelos y conjuntos de datos de Meta Fundamental AI Research (FAIR). Los artefactos que estamos compartiendo hoy se centran en la creación de agentes más capaces, solidez y seguridad, e innovaciones arquitectónicas que permiten a los modelos aprender nueva información de manera más eficaz y escalar más allá de los límites actuales.

En esta versión, compartimos una demostración y un código para Meta Video Seal, un modelo de código abierto para la creación de marcas de agua en videos que se basa en el popular trabajo Meta Audio Seal que compartimos el año pasado. También compartimos una variedad de otros artefactos, incluido un modelo de base para controlar el comportamiento de agentes virtuales encarnados, un método para escalar capas de memoria que permitirá obtener más información factual y un código para ayudar a que los modelos se vuelvan más inteligentes socialmente. Hay mucho más para explorar en esta publicación con un total de nueve proyectos y artefactos listos para que las personas los descarguen y comiencen a usarlos hoy.

Este trabajo respalda nuestra larga y probada trayectoria de compartir ciencia abierta y reproducible con la comunidad. Al compartir públicamente nuestro trabajo de investigación inicial, esperamos inspirar iteraciones y, en última instancia, ayudar a avanzar la IA de una manera responsable. Como siempre, esperamos ver lo que la comunidad creará con estas nuevas versiones y continuar el diálogo sobre cómo podemos avanzar todos juntos en la IA de manera responsable y construir por el bien común.

Meta Motivo

El aprendizaje por refuerzo no supervisado implica el entrenamiento previo de modelos para resolver una amplia gama de tareas posteriores en entornos complejos. La mayoría de los métodos requieren conjuntos de datos de interacción muy bien seleccionados y, a menudo, dependen de pérdidas no supervisadas que conducen a políticas que pueden no alinearse bien con las tareas objetivo. Hoy, compartimos Meta Motivo, un modelo de base conductual único en su tipo que controla los movimientos de un agente humanoide encarnado virtual para realizar tareas complejas.

Meta Motivo se entrena con un algoritmo novedoso que aprovecha un conjunto de datos de movimientos sin etiquetar para fundamentar el aprendizaje de refuerzo no supervisado con el fin de aprender comportamientos similares a los humanos, al tiempo que se conservan las capacidades de inferencia de disparo cero. La novedad técnica clave de nuestro algoritmo es aprender una representación que se puede utilizar para incorporar estados, movimientos y recompensas en el mismo espacio latente. Como resultado, Meta Motivo puede resolver una amplia gama de tareas de control de cuerpo completo, incluido el seguimiento de movimientos, el logro de la postura objetivo y la optimización de recompensas, sin ningún entrenamiento o planificación adicional.

Meta Motivo logra un rendimiento competitivo en comparación con los métodos específicos de la tarea y supera el aprendizaje de refuerzo no supervisado de última generación y las líneas base basadas en modelos, al tiempo que exhibe comportamientos más parecidos a los humanos. El modelo también muestra un sorprendente nivel de robustez ante cambios en el entorno, como la gravedad, el viento o perturbaciones directas, a pesar de no haber sido entrenado para ellos.

En el futuro, creemos que esta investigación podría allanar el camino para agentes completamente encarnados en el Metaverso, lo que conduciría a NPC más realistas, la democratización de la animación de personajes y nuevos tipos de experiencias inmersivas.

Sello de vídeo meta

Si bien las herramientas de IA pueden ayudar a acercar al mundo, es importante que implementemos salvaguardas para mitigar los riesgos de imitación, manipulación y otras formas de uso indebido que pueden socavar sus beneficios. La marca de agua a posteriori es un paso crucial hacia una mejor trazabilidad del contenido y los modelos de IA.

Hoy lanzamos Meta Video Seal, un marco integral de última generación para la marca de agua neuronal en videos. Video Seal agrega una marca de agua (con un mensaje oculto opcional) a los videos que es imperceptible a simple vista y que luego se puede descubrir para determinar el origen de un video. La marca de agua ha demostrado ser resistente a los esfuerzos comunes de edición de videos, como el desenfoque o el recorte, así como a los algoritmos de compresión que se usan comúnmente al compartir contenido en línea. Estamos lanzando públicamente el modelo Video Seal bajo una licencia permisiva, junto con un artículo de investigación, un código de capacitación y un código de inferencia. También hay disponible una demostración para probar el modelo de forma interactiva.

Junto con Video Seal, también estamos lanzando Meta Omni Seal Bench, una tabla de clasificación dedicada a la marca de agua neuronal que cubre varias modalidades, lo que permite a la comunidad de investigación probar y agregar fácilmente su propio trabajo en el campo. También estamos relanzando nuestro modelo Meta Watermark Anything bajo una licencia permisiva y organizaremos un taller sobre marcas de agua en ICLR en 2025.

Esta investigación es un testimonio de nuestro compromiso con la IA responsable. Esperamos que otros investigadores y desarrolladores se unan a nuestros esfuerzos integrando capacidades de marca de agua al crear modelos de IA generativos. Watermark Anything, Video Seal y Audio Seal (nuestros trabajos anteriores sobre marcas de agua de audio post-hoc) ya están disponibles para descargar y listos para integrarse.

Guía y código base de Flow Matching, una versión Meta FAIR

Flow Matching es un paradigma generativo de última generación para muchas modalidades, incluida la generación de imágenes, videos, audio, música, estructuras 3D como proteínas y más. Nuestro método ya ha reemplazado la difusión clásica en muchas aplicaciones generativas en Meta, incluidas Meta Movie Gen , Meta Audiobox y Meta Melody Flow , y en toda la industria en trabajos como Stable-Diffusion-3, Flux, Fold-Flow y Physical Intelligence Pi_0. Flow Matching proporciona un marco de IA generativa simple pero flexible, que mejora el rendimiento y la eficiencia al tiempo que permite una generalización fácil a datos complejos. Hoy, compartimos un artículo y un código, que incluyen implementaciones básicas de Flow Matching continuo y discreto, junto con scripts de capacitación de última generación para permitir que la comunidad de investigación use e itere fácilmente sobre el método Flow Matching. Al compartir públicamente este trabajo, esperamos inspirar una adopción más amplia de Flow Matching y permitir que las personas lo usen en sus propios proyectos generativos.

Meta Explorar la teoría de la mente

Un aspecto clave de nuestra inteligencia social nos permite razonar sobre los pensamientos y creencias de otros agentes, tanto humanos como artificiales. Los conjuntos de datos de teoría de la mente (ToM) existentes tienen limitaciones, ya que se centran únicamente en la evaluación y representan solo un rango estrecho de interacciones. Para abordar esto y acercarnos a lograr una inteligencia artificial avanzada, presentamos Meta Explore Theory-of-Mind, una generación de datos adversarios guiada por programas para el razonamiento de la teoría de la mente. Nuestro novedoso marco permite la generación de datos de razonamiento de ToM diversos, desafiantes y escalables tanto para el entrenamiento como para la evaluación, lo que ayudará a acelerar el progreso en esta área crítica de investigación.

Explore Theory-of-Mind genera historias sólidas y confiables que superan los límites de los modelos de lenguaje grandes (LLM), lo que lo hace ideal para evaluar modelos de frontera o ajustar datos, lo que da como resultado mejoras significativas en los puntos de referencia clásicos de la teoría de la mente. Nuestro enfoque pionero en su tipo condujo a una mejora de la precisión de 27 puntos en el punto de referencia ToMi de uso común al ajustar un modelo Llama-3.1 7B, lo que significa una precisión sin precedentes en la evaluación de los datos de entrenamiento de la teoría de la mente. Explore Theory-of-Mind se puede utilizar para generar conjuntos de datos para mejorar los LLM, mejorar los escenarios orientados a objetivos y recopilar conjuntos de datos de interacción, al mismo tiempo que sirve como punto de referencia para evaluar el rendimiento de los LLM.

Modelos conceptuales de gran escala

A medida que avanzamos hacia una inteligencia artificial avanzada, los modelos deberán poder razonar en distintos idiomas y modalidades y destacarse en capacidades generacionales extensas que requieren un pensamiento jerárquico explícito, como escribir un ensayo. Los enfoques actuales de modelado del lenguaje generalmente operan a nivel de token y no razonan explícitamente de manera jerárquica.

Hoy, presentamos un paradigma de entrenamiento fundamentalmente diferente para el modelado del lenguaje: el modelo de concepto grande (LCM). La idea central del LCM es disociar el razonamiento de la representación del lenguaje, y está inspirado en la forma en que los humanos pueden planificar pensamientos de alto nivel para comunicarse. Por ejemplo, cuando se da una presentación varias veces, un presentador siempre tiene la misma serie de ideas que desea transmitir (materializadas por sus diapositivas proyectadas en la pantalla), pero su elección exacta de palabras puede variar de una presentación a la otra.

Guiado por ese principio, el LCM es un cambio significativo con respecto a un LLM típico. En lugar de predecir el siguiente token, el LCM está entrenado para predecir el siguiente concepto o idea de alto nivel, representada por una oración completa en un espacio de incrustación multimodal y multilingüe. Nuestro trabajo explora cómo se pueden hacer predicciones para el texto en un espacio continuo de este tipo. En general, el LCM supera o iguala a los LLM recientes en la tarea generativa pura de resumen, ofrece una fuerte generalización de cero disparos a idiomas no vistos y es más eficiente computacionalmente a medida que crece el contexto de entrada. Esperamos que la comunidad de investigación use este trabajo para mejorar los modelos de lenguaje que pueden operar en cualquier modalidad o idioma, de manera jerárquica explícita.

Transformador latente de bytes metadinámicos

Los modelos de lenguaje asumen que el texto ha sido tokenizado en un paso de preprocesamiento heurístico, dividiendo las palabras en unidades más pequeñas que son más fáciles de procesar. Esto limita el aprendizaje de extremo a extremo, es difícil de optimizar en la práctica y puede afectar el rendimiento en secuencias de texto poco comunes. Para abordar esto, presentamos Dynamic Byte Latent Transformer, un modelo jerárquico a nivel de bytes (sin tokenizador) con esquemas de parcheo dinámico que pueden operar sobre bytes, sin ninguna heurística de tokenización, al mismo tiempo que mejoran la eficiencia para secuencias largas durante el entrenamiento y la inferencia.

Dynamic Byte Latent Transformer supera a los modelos basados ​​en tokenizadores en términos de robustez, con una ventaja de siete puntos en promedio, y se destaca en el procesamiento de secuencias de cola larga y raras de símbolos no vistos. Al compartir este trabajo, esperamos acelerar los avances que nos permitirán razonar mejor sobre una variedad de dominios que son importantes para la inteligencia artificial avanzada, incluidos los lenguajes de bajos recursos, la codificación y la factualidad.

Capas de meta memoria

La memoria paramétrica, el repositorio de información factual almacenada en los pesos de una red neuronal durante el preentrenamiento, permite a los LLM comprender conceptos complejos y matices lingüísticos. A medida que los métodos de escalado actuales se acercan a su límite de escalado eficiente, se deben explorar nuevas arquitecturas que permitan a los modelos aprender información de manera más efectiva. Hoy, compartimos un artículo de investigación y un código para Meta Memory Layers at Scale, un método para escalar capas de memoria que permite un aumento en la factualidad en comparación con los puntos de referencia de uso común a medida que trabajamos para lograr una inteligencia de máquina avanzada.

Las capas de memoria utilizan un mecanismo de búsqueda de clave-valor entrenable para agregar parámetros adicionales a un modelo sin aumentar los FLOP. Las capas de memoria escasamente activadas complementan la naturaleza de alto consumo de recursos computacionales de las capas densas de propagación hacia adelante, lo que proporciona una capacidad dedicada para almacenar y recuperar información de manera económica. En las tareas posteriores, los modelos de lenguaje ampliados con nuestra capa de memoria mejorada superan a los modelos densos con más del doble del presupuesto computacional, así como a los modelos MoE cuando se combinan tanto en términos de recursos computacionales como de parámetros.

Contrariamente a la percepción predominante en el campo de que las arquitecturas de memoria dispersa no se pueden escalar de manera competitiva, demostramos un escalamiento eficiente de capas de memoria dispersa de hasta 128 mil millones de parámetros y 8 mil millones de modelos base, con mejoras significativas en el cómputo comparable en todos los ámbitos para los puntos de referencia de factualidad de uso común.

Modelado de diversidad de imágenes meta

Este año, FAIR se ha centrado en la investigación para comprender mejor y desarrollar nuevos métodos para el desarrollo seguro de modelos de generación de imágenes. Hoy, anunciamos actualizaciones sobre esta investigación y lanzamos un conjunto de herramientas de evaluación integral para modelos generativos de texto a imagen. El modelo de generación de imágenes que hemos desarrollado a lo largo de esta investigación se basa en nuestra investigación previa sobre arquitecturas y pérdidas de modelos generativos y prioriza la generación de imágenes que sean representativas del mundo físico, manteniendo al mismo tiempo una calidad de imagen competitiva con los modelos de última generación.

Para continuar con la investigación de nuevos métodos y técnicas para el desarrollo responsable, estamos colaborando con expertos externos, a quienes invitamos a utilizar nuestro modelo para llevar a cabo investigaciones en áreas que puedan ayudarnos a mejorar la seguridad y la responsabilidad en el modelado de diversidad de imágenes. Esta iniciativa destaca nuestro compromiso de colaborar con la comunidad de investigación de IA en general para promover colectivamente la responsabilidad de la IA.

Además, publicaremos un conjunto de herramientas de evaluación integral para modelos generativos de texto a imagen con el fin de mejorar la facilidad y reproducibilidad de la evaluación comparativa de generación de imágenes y, al mismo tiempo, promover conclusiones interpretables que informen sobre futuras investigaciones responsables de texto a imagen.

A través de nuestro trabajo continuo, esperamos comprender mejor y ofrecer nuevos métodos para el desarrollo responsable de modelos generativos de imágenes que puedan ser adoptados por la comunidad de investigación más amplia.

Metaclip 1.2

Nos complace lanzar Meta CLIP 1.2, un hito en nuestros esfuerzos continuos por desarrollar un codificador de visión y lenguaje de alto rendimiento. Hemos estado trabajando en algoritmos avanzados para seleccionar y alinear de manera eficaz grandes cantidades de datos de imágenes y texto, lo que permite el aprendizaje del conocimiento humano sobre el mundo. Esto permite que nuestros modelos aprendan de manera eficiente y precisa, capturando los matices de la correlación de grano fino entre la semántica de imágenes y lenguaje.

Los conjuntos de datos a gran escala, de alta calidad y diversos son esenciales para construir modelos básicos que puedan aprender sobre el mundo. Meta CLIP es nuestro esfuerzo por construir dichos conjuntos de datos y modelos básicos. Para garantizar un modelo básico de codificador de lenguaje visual seguro y de alta calidad , hemos desarrollado algoritmos para seleccionar y alinear eficazmente los datos con el conocimiento humano a partir de grandes conjuntos de datos, lo que permite que nuestros modelos aprendan de manera eficiente y cubran todas las posibilidades. También realizamos una investigación rigurosa de los datos mientras aplicábamos sólidas medidas de integridad y protección de la privacidad.

Al publicar nuestros algoritmos de datos, recetas de entrenamiento y modelos básicos entrenados en nuestro conjunto de datos seleccionados, proporcionamos a los investigadores y desarrolladores las herramientas que necesitan para avanzar en el campo de la comprensión del lenguaje visual. Estos modelos básicos se pueden utilizar como codificación visual para MLLM, incrustación multimodal para recuperación y clasificación de disparo cero, a la vez que sirven como punto de partida para la investigación sobre la calidad de los datos. Además, nuestros algoritmos y métodos de entrenamiento también se pueden utilizar para crear conjuntos de datos de gran escala, de alta calidad y similares a CLIP desde cero, lo que puede ayudar con nuevos casos de uso de investigación o producción. Meta News

Artículos relacionados

Scroll al inicio