Transparencia de los LLM: qué pasa en OpenAI & Cie

Hace unas semanas, Stanford publicó su “Índice de Transparencia del Modelo Fundacional”. Una mirada retrospectiva a los puntos débiles que emergen.

¿Conocemos las licencias de datos de entrenamiento? ¿Existen evaluaciones de terceros sobre las medidas de mitigación de riesgos? ¿Conocemos un mecanismo de recurso en caso de daño? Tantas preguntas a las que los equipos de Stanford respondieron sistemáticamente que no como parte del desarrollo de su “ índice de transparencia del modelo básico ”.

La primera edición de este índice –y por el momento la última– ofrece una instantánea al 15 de septiembre de 2023. Abarca diez modelos de otras tantas empresas:

– AI21 Labs (Jurassic-2)
– Amazon (Titan Text)
– Anthropic (Claude 2)
– Cohere (Command)
– Google (PaLM 2)
– Hugging Face (BLOOMZ)
– Inflexión (Inflexión-1)
– Meta (Llama 2)
– OpenAI (GPT-4)
– Estabilidad AI (Difusión estable 2)

El índice informa una evaluación «binaria» de 100 indicadores divididos en tres dominios (upstream, modelo, downstream) que a su vez se dividen en subdominios. Como sucede :

> Upstream
Data (10 indicadores), trabajo humano (7), acceso a datos (2), computación (7), métodos (4), mitigaciones (2)

> Bases del modelo
(6), acceso (3), capacidades (5), límites (3), riesgos (7), mitigaciones (5), confianza (2), inferencia (2)

> Distribución descendente
(7), políticas de uso (5), políticas de comportamiento del modelo (3), interfaces de usuario (2), protección de datos del usuario (3), actualizaciones del modelo (3), retroalimentación (3), impacto (7)

Datos, informática , trabajo humano: puntos ciegos en la fase upstream

De 17 indicadores, ningún modelo cumple con las especificaciones.

Cinco de sus indicadores caen en el dominio “upstream”:

> ¿Sabemos quién creó los datos utilizados para la capacitación?
> ¿Tenemos información de derechos de autor sobre estos mismos datos?
> ¿Conocemos las licencias asociadas a estos datos?
> ¿Se nos informa sobre la potencia informática utilizada?
> ¿Cuál es el impacto ambiental general?

Sobre la cuestión de la informática , los equipos de Stanford lamentan que nadie proporcione directamente un valor en los flops con suficiente precisión. Incluso si algunos comunican elementos que podrían permitir calcular o estimar un valor máximo.

Las puntuaciones de Upstream son sistemáticamente peores que las de las otras dos áreas. AI21, Amazon e Inflection simplemente reciben cero puntos. Hugging Face es el único que cumple más de la mitad de los criterios (21/32).

Las puntuaciones son especialmente bajas en los subdominios de datos (selección de fuentes, filtrado de datos no deseados, presencia de información personal, etc.: 20%), trabajo humano (condiciones de empleo, remuneración, instrucciones dadas, etc.: 17%). ) y computación (tiempo de desarrollo, propiedad del hardware, emisiones de carbono, etc.: 17%). La subárea de métodos, por otro lado, es aquella en la que los proveedores obtienen mejores resultados. Por ejemplo, seis de ellos describen las etapas de desarrollo de su modelo, los objetivos de aprendizaje y las dependencias utilizadas.

La falta de transparencia sobre los creadores de datos de formación se puede explicar por la naturaleza emergente de las herramientas de atribución de contenidos recopilados en Internet, explicamos en Stanford. En este contexto, los investigadores acogen con satisfacción los esfuerzos de Hugging Face con el corpus ROOTS. Esto impulsó BLOOM, en el que se basa BLOOMZ.

Las mejores puntuaciones generales se obtienen en los indicadores “protocolos de curación” (validados para todos excepto Anthropic) y “etapas de desarrollo del modelo” (todos excepto Cohere).

Falta de transparencia en las medidas de mitigación

Cuatro de los indicadores de “puntuación cero” entran en el ámbito del “modelo”:

> ¿Somos conscientes, en la publicación inicial del modelo o incluso antes, de los resultados de una evaluación de riesgos relacionados con daños intencionales?
> ¿Podemos reproducir las evaluaciones de las medidas de mitigación?
> ¿Existen evaluaciones de medidas de mitigación por parte de terceros?
> ¿Conocemos los recursos que consumiría una tarea determinada en una configuración de hardware determinada?

Según dos indicadores, sólo una empresa cumple las especificaciones. Por un lado, Cohere (¿el proveedor demuestra los límites del modelo?). Por otro, OpenAI (¿son reproducibles las evaluaciones de riesgos en caso de daño intencionado?).

No muchos más (dos: Cohere y AI21 Labs) ofrecen evaluaciones reproducibles de los límites de sus respectivos modelos. En el subdominio «mitigaciones» (descripción, demostración, evaluación, reproducibilidad, evaluaciones de terceros), es un punto cero para AI21 Labs, Hugging Face y Stability AI. Amazon, Cohere e Inflection obtienen resultados apenas mejores (1 punto).

Las mejores puntuaciones globales se encuentran en los subdominios “básicos” ( modalidades de entrada y salida , componentes y arquitectura del modelo, etc.: 63%), “capacidades” (descripción, demostración, evaluación, etc.: 62%) y “ límites” (descripción, demostración, evaluación de terceros: 60%).

Múltiples áreas de progreso en la fase downstream

La fase downstream reúne 8 indicadores que ningún proveedor cumple:

> ¿Conocemos el número de usuarios afectados por el modelo?
> ¿Existen estadísticas de uso que describan los impactos en los usuarios?
> ¿Tenemos la distribución de usos downstream por sectores de mercado?
> ¿Tenemos estadísticas geográficas sobre el uso del modelo?
> ¿Existe un mecanismo de recurso en caso de daño?
> ¿Estamos expuestos a un protocolo de acceso a datos de uso por parte de terceros?
> ¿El proveedor publica un resumen de los comentarios de los usuarios?
> ¿Publica información sobre las solicitudes gubernamentales que recibe?

El subdominio “impacto”, en el que se incluyen muchos de estos indicadores, tiene la puntuación general más baja (11%). Ocho empresas sólo obtienen un punto; los otros dos puntúan cero.

Solo Inflection y OpenAI cumplen con los criterios para proporcionar un mecanismo de recurso en caso de un procedimiento por violación de la política de uso.
OpenAI también destaca al explicar el comportamiento que se supone que adoptará el modelo en caso de violación de dicha política (es el único con Anthropic).-Ed. Silicon desde Francia, C. Bohic; traducido al español.

Ilustración © Tada Images – Adobe Stock

Comparte la nota:

Artículos relacionados

Scroll al inicio