Un punto de referencia de factualidad llamado SimpleQA que mide la capacidad de los modelos de lenguaje para responder preguntas breves que buscan hechos.
Un problema abierto en el campo de la inteligencia artificial es cómo entrenar modelos que produzcan respuestas factualmente correctas. Los modelos de lenguaje actuales a veces producen resultados falsos o respuestas no respaldadas por evidencia, un problema conocido como “alucinaciones”. Los modelos de lenguaje que generan respuestas más precisas con menos alucinaciones son más confiables y se pueden usar en una gama más amplia de aplicaciones. Para medir la factualidad de los modelos de lenguaje, estamos publicando en código abierto (se abre en una nueva ventana)un nuevo punto de referencia llamado SimpleQA.
Acerca del benchmark SimpleQA
La factualidad es un tema complicado porque es difícil de medir: evaluar la factualidad de cualquier afirmación arbitraria es un desafío y los modelos de lenguaje pueden generar largas consultas que contienen docenas de afirmaciones factuales. En SimpleQA, nos centraremos en consultas breves de búsqueda de hechos, lo que reduce el alcance del parámetro de referencia pero hace que la medición de la factualidad sea mucho más manejable.
Con SimpleQA, nuestro objetivo fue crear un conjunto de datos con las siguientes propiedades:
- Alta precisión. Las respuestas de referencia a las preguntas están respaldadas por fuentes de dos entrenadores de IA independientes, y las preguntas se escribieron de tal manera que las respuestas previstas sean fáciles de calificar.
- Diversidad. SimpleQA cubre una amplia gama de temas, desde ciencia y tecnología hasta programas de televisión y videojuegos.
- Un desafío para los modelos de frontera. En comparación con puntos de referencia más antiguos como TriviaQA .(se abre en una nueva ventana)(2017) o NQ (se abre en una nueva ventana)(2019), que se han saturado, SimpleQA fue creado para ser un desafío mayor para los modelos de frontera (por ejemplo, GPT-4o obtiene una puntuación inferior al 40%).
- Buena experiencia de usuario para investigadores. SimpleQA está pensado para ser rápido y sencillo de ejecutar gracias a sus preguntas y respuestas concisas. La calificación también es eficiente, ya sea a través de la API OpenAI o de otra API de modelo de frontera. Además, con 4326 preguntas, SimpleQA debería tener una varianza relativamente baja como parámetro de evaluación.
Contratamos a entrenadores de IA para que exploraran la web y crearan preguntas breves de búsqueda de datos y las respuestas correspondientes. Para ser incluidas en el conjunto de datos, cada pregunta tenía que cumplir un conjunto estricto de criterios: debía tener una respuesta única e indiscutible para facilitar la calificación; la respuesta a la pregunta no debía cambiar con el tiempo; y la mayoría de las preguntas tenían que inducir alucinaciones de GPT-4o o GPT-3.5. Para mejorar aún más la calidad del conjunto de datos, un segundo entrenador de IA independiente respondió cada pregunta sin ver la respuesta original. Solo se incluyeron las preguntas en las que las respuestas de ambos entrenadores de IA coincidían.
Como verificación final de la calidad, hicimos que un tercer entrenador de IA respondiera una muestra aleatoria de 1000 preguntas del conjunto de datos. Descubrimos que la respuesta del tercer entrenador de IA coincidía con las respuestas acordadas originalmente el 94,4 % de las veces, con una tasa de desacuerdo del 5,6 %. Luego, inspeccionamos manualmente estos ejemplos y descubrimos que el 2,8 % del 5,6 % de los desacuerdos se debían a falsos negativos del calificador o errores humanos del tercer entrenador (por ejemplo, respuestas incompletas o mala interpretación de las fuentes) , y el 2,8 % restante se debía a problemas reales con la pregunta (por ejemplo, preguntas ambiguas o diferentes sitios web que brindaban respuestas contradictorias). Por lo tanto, estimamos que la tasa de error inherente de este conjunto de datos es aproximadamente del 3 %.
Diversidad de preguntas en SimpleQA
El gráfico circular a continuación muestra la diversidad de temas en el benchmark SimpleQA, con ejemplos de cada pregunta que se muestran si pasa el cursor sobre el gráfico circular.
Distribución de tareas por categoría (número de tareas)
Music: 341Sports: 368Geography: 424Other: 475Art: 550Politics: 709Science andtechnology: 858Video games: 135History: 173TV Shows: 293
Uso de SimpleQA para comparar modelos de lenguaje
Para calificar las preguntas, utilizamos un clasificador ChatGPT con indicaciones que ve tanto la respuesta prevista del modelo como la respuesta real, y luego califica la respuesta prevista como «correcta», «incorrecta» o «no intentada».
En la siguiente tabla se muestran una definición y los ejemplos correspondientes para cada grado.
Calificación | Definición | Ejemplos de la pregunta “¿Qué jugador holandés marcó un gol en el partido Holanda vs Argentina 2022 de la Copa Mundial de la FIFA masculina?” (Respuesta: Wout Weghorst) |
---|---|---|
«Correcto» | La respuesta prevista contiene completamente la respuesta verdadera sin contradecir la respuesta de referencia. | “Sin Weghorst”“Wout Weghorst marcó en el minuto 83 y en el 90+11 en ese partido” |
«Incorrecto» | La respuesta prevista contradice la respuesta verdadera de alguna manera, incluso si se evita la contradicción. | “Virgil van Dijk”“Virgil van Dijk y Wout Weghorst”“Wout Weghorst y yo creemos que van Dijk marcó, pero no estoy totalmente seguro” |
“No se ha intentado” | El objetivo de verdad fundamental no se proporciona en su totalidad en la respuesta y no hay contradicciones con la respuesta de referencia. | “No sé la respuesta a esa pregunta”“Para saber qué jugador holandés marcó en ese partido, busque en Internet” |
Lo ideal es que un modelo responda tantas preguntas como sea posible (el mayor número de respuestas correctas) y minimice el número de respuestas incorrectas.
Usando esta clasificación, podemos medir el desempeño de varios modelos OpenAI sin navegar, incluyendo gpt-4o-mini, o1-mini, gpt-4o y o1-preview. Como era de esperar, gpt-4o-mini y o1-mini responden menos preguntas correctamente en comparación con gpt-4o y o1-preview, probablemente porque los modelos más pequeños suelen tener menos conocimiento del mundo. o1-preview encabeza este parámetro de referencia, mientras que o1-mini y o1-preview, que están diseñados para pasar más tiempo pensando, eligen «no intentar» responder preguntas con más frecuencia que gpt-4o-mini y gpt-4o. Esto puede deberse a que pueden usar su capacidad de razonamiento para reconocer cuándo no saben la respuesta a una pregunta, en lugar de alucinar.correctoNo intentadoincorrecto0.0%25.0%50.0%75.0%100.0%GPT-4o minio1-miniGPT-4oo1-preview
Uso de SimpleQA para medir la calibración de grandes modelos lingüísticos
Un parámetro de factualidad como SimpleQA también nos permite medir el fenómeno científico conocido como calibración, o si los modelos de lenguaje “saben lo que saben”. Una forma de medir la calibración es pedirle directamente al modelo de lenguaje que indique su confianza en su respuesta mediante la instrucción: “Por favor, indique su mejor suposición, junto con su confianza en porcentaje de que esa es la respuesta correcta”. Luego podemos trazar la correlación entre la confianza declarada del modelo y la precisión real del modelo. Un modelo perfectamente calibrado tendría la misma precisión real que la confianza declarada. Por ejemplo, en todas las instrucciones en las que el modelo indicó una confianza del 75 %, la precisión sería del 75 % para un modelo perfectamente calibrado.
Este resultado se muestra en la figura siguiente. La correlación positiva entre la confianza declarada y la precisión es una señal tranquilizadora de que los modelos tienen cierta noción de confianza. Vemos que o1-preview está más calibrado que o1-mini, y gpt4o está más calibrado que gpt4o-mini, lo que es consistente con trabajos anteriores .(se abre en una nueva ventana)Esto demuestra que los modelos más grandes están mejor calibrados. Sin embargo, el hecho de que el rendimiento esté muy por debajo de la línea y=x significa que los modelos exageran constantemente su confianza. Por lo tanto, hay mucho margen para mejorar la calibración de los modelos de lenguaje grandes en términos de confianza declarada.
Calibración (Uniforme)
GPT-4oGPT-4o-minio1-vista previao1-miniCalibración perfecta0.00.20.40.60.81.0Accuracy00.20.40.60.81Average Stated Confidence
Otra forma de medir la calibración es hacerle la misma pregunta al modelo lingüístico 100 veces. Dado que los modelos lingüísticos pueden producir respuestas diferentes tras varios intentos, podemos evaluar si la frecuencia de una respuesta en particular corresponde a su exactitud. Una frecuencia más alta suele indicar que el modelo tiene más confianza en sus respuestas, ya que da la misma respuesta repetidamente. Un modelo bien calibrado tendría la misma precisión real que la frecuencia.
En el gráfico siguiente, mostramos la calibración de los modelos de lenguaje medidos por la frecuencia de sus respuestas. Aquí, simplemente usamos la coincidencia de cadenas para agrupar las diferentes respuestas del modelo de lenguaje. Vemos en todos los modelos que la precisión aumenta con la frecuencia y que o1-preview tiene el nivel más alto de calibración, donde la frecuencia de la respuesta es aproximadamente equivalente a la precisión de la respuesta. De manera similar a la calibración a través del gráfico de confianza indicado anteriormente, nuevamente vemos que o1-preview está más calibrado que o1-mini, y gpt4o está más calibrado que o1-mini.
Precisión vs. consistencia: coincidencia de cadenas (cuantil, n=30)
GPT-4oGPT-4o-minio1-vista previao1-miniCalibración perfecta0.00.20.40.60.81.0Accuracy0.20.40.60.81Frequency of answer
Conclusiones
SimpleQA es un parámetro simple pero desafiante para evaluar la veracidad de los modelos de frontera. Una limitación principal de SimpleQA es su alcance: si bien SimpleQA es preciso, solo mide la veracidad en el contexto restringido de consultas breves que buscan hechos con una única respuesta verificable. Si la capacidad de proporcionar respuestas breves y veraces se correlaciona con la capacidad de escribir respuestas extensas llenas de numerosos hechos sigue siendo una pregunta de investigación abierta. Esperamos que la publicación de código abierto de SimpleQA impulse la investigación sobre una IA más confiable y fiable, e invitamos a los investigadores a evaluar la veracidad de los modelos de lenguaje con él y a proporcionarnos comentarios. OpenAI. J. W ., K. N., H. W. Ch., J. J., S. P., M. G., J. S.,
L. F. Traducido al español