Microsoft presenta Phi-2, su IA para competir con Llama 2 y Gemini

El aumento masivo en el tamaño de los modelos de lenguaje ha desbloqueado capacidades emergentes, redefiniendo el procesamiento del lenguaje natural.

En los últimos meses el equipo de Machine Learning Foundations de Microsoft Research ha lanzado una serie de modelos de lenguaje pequeños (SLMs) llamados “Phi”, que han logrado un rendimiento notable en diversas pruebas.

Tras Phi-1, que alcanzó un rendimiento líder en codificación en Python, y Phi-1.5, que destacó en razonamiento de sentido común y comprensión del lenguaje,Microsoft acaba de presentars Phi-2, un modelo de lenguaje con 2.700 millones de parámetros que demuestra un destacado razonamiento y comprensión del lenguaje.

Innovaciones clave

El aumento masivo en el tamaño de los modelos de lenguaje ha desbloqueado capacidades emergentes, redefiniendo el procesamiento del lenguaje natural. La pregunta clave es si se pueden lograr habilidades emergentes a una escala menor mediante elecciones estratégicas en la formación, como la selección de datos.

Con los modelos Phi en Microsoft se ha buscado responder a esta pregunta, logrando un rendimiento comparable a modelos de mayor escala. Los dos principales enfoques para romper con las leyes convencionales de escala de modelos de lenguaje con Phi-2 son:

Calidad de datos de entrenamiento: La calidad de los datos de entrenamiento desempeña un papel crucial en el rendimiento del modelo. En Microsoft se han centrado en datos de “calidad de libro de texto”, utilizando conjuntos de datos sintéticos creados específicamente para enseñar al modelo razonamiento de sentido común y conocimientos generales. Además se ha aumentado el corpus de entrenamiento con datos web seleccionados cuidadosamente en función de su valor educativo y calidad de contenido.
Transferencia de conocimiento a Escala: Mediante técnicas innovadoras se ha escalado desde el anterior modelo Phi-1.5 de 1.300 millones de parámetros, incrustando su conocimiento en Phi-2 con 2.700 millones de parámetros. Esta transferencia de conocimiento no solo acelera la convergencia del entrenamiento sino que también mejora claramente las puntuaciones de Phi-2 en las pruebas.

Detalles del entrenamiento

Phi-2 es un modelo basado en Transformer con un objetivo de predicción de la siguiente palabra, entrenado en 1,4 billones de tokens de pases múltiples en conjuntos de datos sintéticos y web para NLP y codificación. El entrenamiento de Phi-2 se llevó a cabo en 96 GPUs A100 durante 14 días. A pesar de no haber sido alineado a través de aprendizaje por refuerzo de retroalimentación humana (RLHF) ni haber sido afinado mediante instrucciones, se ha observado un comportamiento más favorable en términos de toxicidad y sesgo en comparación con modelos de código abierto existentes que sí pasaron por el alineamiento.

Phi-2 ha superado el rendimiento de modelos más grandes en diversos benchmarks, incluyendo Mistral y Llama-2. A pesar de tener solo 2.700 millones de parámetros supera el rendimiento de modelos más grandes hasta 25 veces en tareas complejas como codificación y matemáticas. Además, Phi-2 se compara favorablemente con el recientemente anunciado Google Gemini Nano 2, a pesar de su menor tamaño. Fuente: Antonio Rentero, innovacion Silicon España.

Buscá noticias

Seleccioná una categoría

Artículos relacionados

MIT

Uso de IA generativa para diversificar los campos de entrenamiento virtuales para robots

Una nueva herramienta de MIT CSAIL crea cocinas y salas de estar virtuales realistas donde los robots simulados pueden interactuar con modelos de objetos del mundo real, ampliando los datos de entrenamiento para los modelos básicos de los robots.

Chatbots como ChatGPT y Claude han experimentado un aumento vertiginoso en su uso en los últimos tres años gracias a su capacidad para ayudarte con una amplia gama de tareas. Ya sea que estés escribiendo sonetos de Shakespeare, depurando código o necesites la respuesta a una pregunta trivial, los sistemas de inteligencia artificial parecen tenerlo todo cubierto. ¿El origen de esta versatilidad? Miles de millones, o incluso billones, de datos textuales en internet.

Continuar leyendo...

MIT

El MIT Schwarzman College of Computing y MBZUAI lanzan una colaboración internacional para dar forma al futuro de la IA

El Programa de Investigación Colaborativa MIT–MBZUAI unirá a profesores y estudiantes de ambas instituciones para promover la IA y acelerar su uso en desafíos científicos y sociales urgentes.

El MIT Schwarzman College of Computing y la Universidad de Inteligencia Artificial Mohamed bin Zayed (MBZUAI) celebraron recientemente el lanzamiento del Programa de Investigación Colaborativa MIT-MBZUAI, un nuevo esfuerzo para fortalecer los componentes básicos de la inteligencia artificial y acelerar su uso en desafíos científicos y sociales apremiantes.