El Portal de las Tecnologías para la Innovación

Impulsando la inteligencia de las máquinas a través de la investigación centrada en el ser humano

Meta Fundamental AI Research (FAIR) se centra en lograr inteligencia artificial avanzada (AMI) y utilizarla para impulsar productos e innovaciones en beneficio de todos.

Conclusiones: 

  • Meta FAIR comparte nuevos hallazgos de investigación que resaltan nuestro compromiso con la inteligencia artificial avanzada (AMI) y el impacto de las tecnologías de código abierto en el avance de la IA. Al compartir nuestra investigación, nuestro objetivo es crear sistemas inteligentes que puedan comprender y responder a las necesidades humanas complejas, mejorando en última instancia nuestra vida diaria.
  • El trabajo que compartimos incluye el conjunto de datos y el punto de referencia Meta PARTNR, cuyo objetivo es construir robots socialmente inteligentes que puedan ayudar a las personas en tareas cotidianas, como recoger una entrega en la puerta de entrada o ayudar en la casa.
  • Como parte de nuestro trabajo continuo con la UNESCO para promover la diversidad lingüística en la tecnología, invitamos a los colaboradores a unirse a nosotros para mejorar y expandir la traducción automática y las tecnologías lingüísticas. A través de la colaboración, queremos promover la diversidad lingüística y la inclusión en el mundo digital.
  • También compartimos avances en procesamiento de audio, comunicación multilingüe y tecnología del lenguaje, todos ellos avances cruciales en el camino hacia el logro de la AMI.

Meta Fundamental AI Research (FAIR) se centra en lograr inteligencia artificial avanzada (AMI) y utilizarla para impulsar productos e innovaciones en beneficio de todos. Hoy, nos complace compartir algunas de nuestras investigaciones y modelos más recientes que respaldan nuestro objetivo de lograr la AMI y nuestro compromiso de larga data de compartir ciencia abierta y reproducible. 

Meta PARTNR: Desbloqueo de la colaboración entre humanos y robots 

Imagine un mundo en el que los robots sean socios intuitivos en nuestra vida diaria. Limpian, recogen las entregas y ayudan a cocinar, todo ello mientras comprenden nuestras necesidades y se adaptan al entorno dinámico de un hogar ajetreado. Hoy, estamos encantados de presentar PARTNR, un marco de investigación que nos acerca a esta realidad al impulsar la investigación en la colaboración perfecta entre humanos y robots. La mayoría de los robots actuales operan de forma aislada, lo que limita su potencial como agentes de asistencia útiles del futuro. Con PARTNR, pretendemos cambiar el statu quo mediante la publicación de código abierto de un punto de referencia, un conjunto de datos y un modelo a gran escala destinados a estudiar la colaboración entre humanos y robots en las tareas cotidianas. En esencia, PARTNR proporciona un mecanismo para entrenar a los robots sociales mediante un entrenamiento a gran escala en simulación, seguido de su implementación en el mundo físico. 

PARTNR se basa en trabajos previos de gran impacto que se han compartido con la comunidad de código abierto. Se basa en los avances logrados con Habitat 1.0 , que entrenó a robots virtuales para navegar en escaneos 3D de casas reales, y Habitat 2.0 , que entrenó a robots virtuales para limpiar casas reorganizando objetos. Con Habitat 3.0 , un simulador diseñado para entrenar modelos para la colaboración entre humanos y robots, dimos otro paso adelante. Habitat 3.0 permitió entrenar modelos de colaboración entre humanos y robots a gran escala, lo que no es factible en el mundo físico debido a problemas de seguridad y escalabilidad.

También estamos presentando el benchmark PARTNR, cuyo objetivo es evaluar a los robots colaborativos y garantizar que puedan desempeñarse bien tanto en entornos simulados como físicos. Nuestro benchmark consta de 100.000 tareas, incluidas tareas domésticas como limpiar platos y juguetes. También estamos lanzando el conjunto de datos PARTNR que consiste en demostraciones humanas de las tareas PARTNR en simulación, que se pueden usar para entrenar modelos de IA encarnados. El benchmark PARTNR destaca las principales deficiencias de los modelos existentes, como la mala coordinación y los fallos en el seguimiento de tareas y la recuperación de errores. Animamos a la comunidad académica a seguir desarrollando nuestro trabajo e impulsar el progreso en el campo de la colaboración entre humanos y robots.

También hemos avanzado en modelos que pueden colaborar con humanos tanto en entornos físicos como de simulación. Utilizando datos de simulación a gran escala, hemos entrenado un gran modelo de planificación que supera a las líneas base de última generación en términos de velocidad y rendimiento. Este modelo logra un aumento de 8,6 veces en velocidad, al tiempo que permite a los humanos ser un 24 % más eficientes a la hora de completar tareas en comparación con los modelos de alto rendimiento existentes. Puede interpretar instrucciones de largo plazo, descomponiendo tareas complejas en pasos prácticos y proporcionando asistencia significativa a los usuarios humanos. Hemos implementado con éxito este modelo en Spot de Boston Dynamics , lo que demuestra su capacidad para trabajar junto a los humanos en entornos del mundo real. Para mejorar la transparencia y la confianza, también hemos desarrollado una interfaz de realidad mixta que visualiza las acciones y los procesos de pensamiento del robot, ofreciendo una ventana a su toma de decisiones.

El potencial de innovación y desarrollo en el campo de la colaboración entre humanos y robots es enorme. Con PARTNR, queremos reimaginar a los robots como futuros socios, no solo agentes, e impulsar la investigación en este apasionante campo.

Descargar el código

Descargar el conjunto de datos

Lea el artículo

Democratizar la tecnología lingüística para el Decenio Internacional de las Lenguas Indígenas 

El lenguaje es una parte fundamental de quienes somos y, sin embargo, muchas personas en todo el mundo están excluidas de la conversación digital porque su idioma no está respaldado por la tecnología. Para ayudar a cerrar esta brecha, invitamos a la comunidad lingüística a colaborar con nosotros para mejorar y ampliar la cobertura de las tecnologías lingüísticas de código abierto de Meta, incluido el reconocimiento de voz y la traducción automática. 

Programa de socios de tecnología lingüística

Buscamos socios que colaboren con nosotros para promover las tecnologías lingüísticas, como el reconocimiento de voz y la traducción automática. Nuestros esfuerzos se centran especialmente en los idiomas desatendidos, en apoyo del trabajo de la UNESCO y como parte de la contribución del sector privado al empoderamiento digital en el marco del Decenio Internacional de las Lenguas Indígenas. Buscamos socios que puedan contribuir con más de 10 horas de grabaciones de voz con transcripciones, grandes corpus de texto escrito (más de 200 oraciones) y conjuntos de oraciones traducidas en diversos idiomas. Los socios trabajarán con nuestros equipos para ayudar a integrar estos idiomas en modelos de reconocimiento de voz y traducción automática impulsados ​​por IA, que pretendemos abrir y poner a disposición de la comunidad de forma gratuita. Como socio, también tendrá acceso a talleres dirigidos por nuestros equipos de investigación en los que aprenderá a aprovechar nuestros modelos de código abierto para crear tecnologías lingüísticas. Nos complace que el Gobierno de Nunavut, Canadá, haya aceptado trabajar con nosotros en esta emocionante iniciativa.

Para unirse a nuestro Programa de socios de tecnología lingüística, complete este formulario de interés .

Referencia de traducción automática de código abierto

Además de nuestro Programa de Socios de Tecnología del Lenguaje, estamos lanzando un punto de referencia de traducción automática de código abierto de oraciones cuidadosamente elaboradas por expertos en lingüística para mostrar la diversidad del lenguaje humano. Te invitamos a acceder al punto de referencia en siete idiomas y a contribuir con traducciones que estarán disponibles en código abierto para otros. Nuestro objetivo es construir colectivamente un punto de referencia de traducción automática multilingüe sin precedentes para la comunidad.

Más información

Nuestro compromiso de dar soporte a más idiomas y desarrollar tecnologías de código abierto para ellos es permanente. En 2022, lanzamos No Language Left Behind (NLLB) , un innovador motor de traducción automática de código abierto que sentó las bases para futuras investigaciones y desarrollos en esta área. Como primer modelo de traducción automática neuronal para muchos idiomas, NLLB allanó el camino para una mayor innovación. Desde su lanzamiento, la comunidad de código abierto ha aprovechado este trabajo y ha ampliado sus capacidades para dar soporte a docenas de idiomas adicionales. También nos complace que la UNESCO y Hugging Face hayan colaborado con nosotros para crear un traductor de idiomas basado en NLLB , que anunciamos durante la semana de la Asamblea General de las Naciones Unidas el pasado mes de septiembre. A medida que continuamos desarrollando esta tecnología, nos entusiasma colaborar con las comunidades lingüísticas para mejorar y ampliar la traducción automática y otras tecnologías lingüísticas.

Para apoyar el empoderamiento digital, que es un área temática clave del Plan de Acción Mundial del Decenio Internacional de las Lenguas Indígenas, presentamos recientemente el proyecto Massively Multilingual Speech (MMS), que amplía la transcripción de audio a más de 1100 idiomas. Hemos seguido mejorando y ampliando sus capacidades, incluida la incorporación del reconocimiento de voz de disparo cero, que permite al modelo transcribir audio en idiomas que nunca antes había visto sin capacitación previa. Estas tecnologías tienen implicaciones significativas para el apoyo y la accesibilidad de los idiomas, en particular para las comunidades desatendidas.

Al promover la implementación del Decenio Internacional de las Lenguas Indígenas, buscamos abordar los desafíos que plantea la proliferación de modelos del idioma inglés y trabajar hacia una representación equitativa de todos los idiomas, contribuyendo al logro de los Objetivos de Desarrollo Sostenible de las Naciones Unidas.

Además de su posible impacto en el soporte y la accesibilidad de los idiomas, nuestro trabajo también tiene implicaciones más amplias para el desarrollo de la AMI. Al trabajar en problemas multilingües y en idiomas desatendidos, el modelo demuestra la capacidad de aprender a partir de datos mínimos. Estos avances marcan un paso crucial hacia la creación de sistemas inteligentes que puedan adaptarse a nuevas situaciones y aprender de la experiencia.

En última instancia, nuestro objetivo es crear sistemas inteligentes que puedan comprender y responder a necesidades humanas complejas, independientemente del idioma o el origen cultural, y construir tecnología que incluya los idiomas y las culturas de nuestro mundo.

Estética de Meta Audiobox: un nuevo estándar para el procesamiento de audio 

Tradicionalmente, medir la estética del audio ha sido una tarea compleja debido a su naturaleza subjetiva. A diferencia de las métricas objetivas como la respuesta de frecuencia o la relación señal-ruido, la estética del audio requiere una comprensión matizada de la percepción humana. Hoy, estamos emocionados de abrir el código fuente de Meta Audiobox Aesthetics, un modelo que permite la evaluación automática de la estética del audio, proporcionando una evaluación integral de la calidad del audio en el habla, la música y el sonido. El modelo hace predicciones que analizan el disfrute del contenido, la utilidad del contenido, la complejidad de la producción y la calidad de la producción. Abordar los desafíos de la evaluación subjetiva del audio conduce a una mejor calidad del contenido de audio y al desarrollo de modelos de audio generativos más avanzados. 

Los métodos de evaluación existentes suelen proporcionar resultados específicos de cada submodalidad con instrucciones vagas que son difíciles de interpretar. Audiobox Aesthetics supera estas limitaciones al ofrecer un enfoque estructurado para la evaluación de audio.

Para desarrollar Audiobox Aesthetics, diseñamos un protocolo de anotación integral, que dio como resultado la recopilación de 562 horas de datos estéticos de audio. Nuestro conjunto de datos fue anotado por evaluadores profesionales para garantizar datos de alta calidad. El proceso de anotación implicó evaluar muestras de audio en una escala del uno al diez en cuatro métricas definidas: calidad de producción, complejidad de producción, disfrute del contenido y utilidad del contenido. Este proceso permitió la creación de una puntuación estética unificada calibrada en diferentes modalidades de audio, lo que garantiza la coherencia y la confiabilidad en las predicciones del modelo.

▲ Cuanto más alto, mejor. En las cuatro dimensiones de evaluación de calidad, Audiobox Aesthetics muestra una mejor correlación con el juicio humano que sus competidores en cuanto a habla, sonido y música.

Los experimentos exhaustivos demostraron que Audiobox Aesthetics superó a trabajos anteriores con una mayor correlación con el juicio humano, lo que demuestra su eficacia como métrica automática para la evaluación de la calidad. El modelo, que estamos lanzando con una licencia CC-BY 4.0, también mejora la calidad de varios modelos de generación de audio a través del filtrado de datos y la indicación de calidad, logrando mejoras significativas en aplicaciones de texto a voz, texto a música y texto a sonido.

Audiobox Aesthetics ya se ha utilizado para mejorar Meta Movie Gen , lo que ha ayudado a facilitar contenido multimedia de alta calidad y ha impulsado aún más el progreso y la innovación en la industria. Esperamos que este trabajo se utilice para mejorar la calidad del contenido de audio y respaldar el desarrollo de modelos de audio generativo más sofisticados.

Descargue los pesos y el código del modelo

Lea el artículo

Transcripciones de mensajes de voz de WhatsApp: cómo lograr una comunicación fluida 

Mientras seguimos construyendo el futuro de la conexión humana y la tecnología que la hace posible, lanzamos una actualización en WhatsApp para que la comunicación sea aún más fluida. Las transcripciones de mensajes de voz utilizan tecnología avanzada en el dispositivo para generar transcripciones de mensajes de audio de forma local y segura, lo que garantiza que los mensajes de voz personales estén cifrados de extremo a extremo. Actualmente, esta función está disponible en inglés, español, portugués y ruso, lo que amplía su alcance en diversas comunidades.  

El desarrollo de las transcripciones de mensajes de voz fue posible gracias al aprovechamiento de los conocimientos de la investigación de FAIR sobre comunicación fluida . WhatsApp puede seguir innovando y mejorando sus servicios gracias a esta investigación, lo que, en última instancia, impulsará el progreso hacia el objetivo de lograr una AMI con capacidades multilingües. Hemos explorado, desarrollado y compartido en profundidad las mejores prácticas para el ajuste fino de los modelos con la comunidad de investigación para las versiones públicas de los modelos M4T fluidos. Estas técnicas se aplicaron y se mejoraron aún más, junto con la destilación, para ajustarlas al género de los mensajes de voz de WhatsApp.

Este avance mejora la experiencia de las personas al tiempo que protege la mensajería privada y prepara el escenario para futuras innovaciones en la comunicación multilingüe. Meta Blog. Traducido al español

Artículos relacionados

Scroll al inicio