El Portal de las Tecnologías para la Innovación

La IA proporciona respuestas confiables con menos gastos generales computacionales

Los investigadores de ETH Zurich han desarrollado un método que hace que las respuestas de IA sean cada vez más confiables. Su algoritmo selecciona específicamente datos relevantes para la pregunta. Además, incluso los modelos de IA hasta 40 veces más pequeños logran el mismo rendimiento de salida que los mejores modelos de IA grandes.

En resumen

  • El nuevo algoritmo SIFT, desarrollado por científicos informáticos de ETH, reduce continuamente la incertidumbre de las respuestas de IA utilizando datos de enriquecimiento seleccionados adaptados a la pregunta específica.
  • El algoritmo reconoce la información relevante para la pregunta y selecciona datos específicos para el procesamiento de IA que reduce la incertidumbre y mejora las respuestas.  
  • Método particularmente beneficioso para los usuarios que desean combinar sus propios datos especializados con un modelo general de IA y reducir la potencia informática requerida.

ChatGPT y similares a menudo nos sorprenden con la precisión de sus respuestas, pero desafortunadamente, también nos dan motivos de duda repetidamente. El principal problema con los potentes motores de respuesta de IA (inteligencia artificial) es que nos proporcionan respuestas perfectas y tonterías obvias con la misma facilidad.  Uno de los principales desafíos radica en cómo los grandes modelos de lenguaje (LLM) subyacentes a la IA lidian con la incertidumbre. Hasta ahora, ha sido muy difícil evaluar si los LLM diseñados para el procesamiento y la generación de texto basan sus respuestas en una base sólida de datos o si están operando en un terreno incierto.

Investigadores del Instituto de Aprendizaje Automático del Departamento de Ciencias de la Computación de ETH Zurich han desarrollado un método que se puede utilizar para reducir específicamente la incertidumbre de la IA. “Nuestro algoritmo puede enriquecer el modelo de lenguaje general de la IA con datos adicionales del área temática relevante de una pregunta. En combinación con la pregunta específica, podemos extraer de las profundidades del modelo y de los datos de enriquecimiento precisamente aquellas conexiones que tienen más probabilidades de generar una respuesta correcta, explica Jonas Hübotter del Learning & Adaptive Systems Group, quien desarrolló el nuevo método como parte de sus estudios de doctorado.

Enriquecer la IA con datos específicos

“El método es particularmente adecuado para empresas, científicos u otros usuarios que desean usar IA general en un campo especializado que solo está cubierto parcialmente o no por los datos de capacitación de IA, agrega Andreas Krause, jefe del grupo de investigación y Director del Centro de IA ETH.

Por ejemplo, los usuarios pueden alimentar sus datos almacenados localmente en un modelo de idioma grande (LLM), como Llama. El llamado algoritmo SIFT (Selecting Informative data for Fine-Tuning), desarrollado por científicos informáticos de ETH, puede utilizar los datos adicionales proporcionados para seleccionar información específica que esté más estrechamente relacionada con la pregunta.

Vectores de relación en el espacio multidimensional

El algoritmo utiliza la estructura según la cual la información del lenguaje está organizada en el modelo de lenguaje grande (LLM) de AIar para encontrar información relacionada. Los modelos dividen la información del idioma en sus datos de entrenamiento en partes de palabras. Las relaciones semánticas y sintácticas entre las partes de la palabra se organizan como flechas de conexión – conocidas en el campo como vectores – en un espacio multidimensional. Las dimensiones del espacio, que pueden numerarse en miles, surgen de los parámetros de relación que el LLM identifica de forma independiente durante el entrenamiento utilizando los datos generales.

Ángulo entre flechas como medida de correlación

Las flechas relacionales que apuntan en la misma dirección en este espacio vectorial indican una fuerte correlación. Cuanto mayor sea el ángulo entre dos vectores, menos dos unidades de información se relacionan entre sí.

El algoritmo SIFT desarrollado por los investigadores de ETH ahora utiliza la dirección del vector de relación de la consulta de entrada (prompt) para identificar aquellas relaciones de información que están estrechamente relacionadas con la pregunta pero que al mismo tiempo se complementan entre sí en términos de contenido. “El ángulo entre los vectores corresponde a la relevancia del contenido, y podemos usar los ángulos para seleccionar datos específicos que reduzcan la incertidumbre,” explica Hübotter.

Menos superposición de información redundante

Por el contrario, el método más común utilizado hasta la fecha para seleccionar la información adecuada para la respuesta, conocido como el método de vecino más cercano, tiende a acumular información redundante que está ampliamente disponible. La diferencia entre los dos métodos se vuelve clara cuando se mira un ejemplo de un mensaje de consulta que se compone de varias piezas de información.

Para responder a la pregunta de dos partes “¿Cuántos años tiene Roger Federer y cuántos niños tiene?”, el método de vecino más cercano considera que información similar como “Roger Federer tiene 43 años” y “Roger Federer es el cumpleaños del 8 de agosto de 1981” es igualmente relevante. La información sobre sus hijos, que es relevante para la segunda parte de la pregunta, a veces falta. Se superpone por la información de la fecha de nacimiento, que ocurre con mucha más frecuencia en los datos de entrenamiento de IA. El algoritmo SIFT, sin embargo, tiene en cuenta la medida en que las piezas de información incluidas se complementan entre sí, es decir, si los vectores de información apuntan en diferentes direcciones.  Esto permite identificar información relevante para ambos aspectos de la pregunta.

Respuestas más confiables con modelos mucho más pequeños

Sin embargo, la selección de información dirigida no solo mejora la calidad de las respuestas. También se puede utilizar para reducir la potencia informática cada vez mayor requerida por las aplicaciones de IA. Al medir indirectamente la incertidumbre, el modelo puede decidir por sí mismo cuántos más datos se necesitan para proporcionar una respuesta suficientemente confiable. En consecuencia, la sobrecarga computacional requerida por un LLM puede adaptarse sistemáticamente a la complejidad de la pregunta y la disponibilidad de información relevante.

Dado que SIFT adapta continuamente la ponderación de las direcciones de flecha a sus cálculos durante la recuperación de datos, el modelo enriquecido se vuelve cada vez más confiable cuanto más se usa. Esto se conoce como entrenamiento de tiempo de prueba y se puede usar para lograr el mismo rendimiento de salida con modelos más pequeños.  “En las pruebas con conjuntos de datos estándar, utilizamos la sintonización SIFT para superar incluso a los mejores modelos actuales de IA con modelos hasta 40 veces más pequeños, enfatiza Hübotter.

Identificar el valor añadido de los datos pertinentes

Se están abriendo aplicaciones adicionales para el algoritmo SIFT en términos de evaluación de datos, como explica Krause: “Podemos rastrear qué datos de enriquecimiento selecciona SIFT. Están estrechamente relacionados con la cuestión y, por lo tanto, son particularmente relevantes para este ámbito. Esto podría usarse en medicina, por ejemplo, para investigar qué análisis de laboratorio o valores de medición son significativos para un diagnóstico específico y cuáles menos.”

Hübotter presenta actualmente su enfoque en la Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR) en Singapur. En diciembre, los investigadores de ETH ganaron el premio al Mejor Artículo Científico por su método en la Conferencia Anual NeurIPS sobre Sistemas de Procesamiento de Información Neural (NeurIPS) en el taller “Finetuning in Modern Machine Learning”. 

Referencias

Hübotter, J, Bongni, S, Hakimi, I, Krause, A. Efficiently Learning at Test-Time: Active Fine-Tuning of LLMs. In: Proc. International Conference on Learning Representations (ICLR), 2025. DOI: external pagehttps://doi.org/10.48550/arXiv.2410.08020 (Preprint publication on ArXive)

ETH Zürich News. D. M. Traducido al español

Artículos relacionados

Scroll al inicio