El Portal de las Tecnologías para la Innovación

Los verificadores de seguridad de IBM encabezan un nuevo punto de referencia de IA

Granite Guardian se eleva a la cima de GuardBench, la primera medida independiente de qué tan bien los modelos de barandilla pueden detectar contenido dañino y alucinado, así como los intentos de ‘jailbreak’ controles de seguridad LLM.

El uso de modelos de IA puede conllevar riesgos, pero la IA también se está volviendo más inteligente al marcarlos y maniobrar a su alrededor.

Cuando IBM Research lanzó sus modelos Granite Guardian el año pasado, el equipo los consideró las herramientas más poderosas para detectar un amplio espectro de riesgos asociados IA generativa. Ahora, el primer punto de referencia para evaluar de forma independiente los llamados modelos AI “storerail” tiene Granite Guardian liderando el paquete.

IBM Modelos Granite Guardian mantenga seis de los 10 mejores lugares en el nuevo Tabla de clasificación de GuardBench, la primera medida de terceros de qué tan bien los clasificadores de IA pueden marcar indicaciones dañinas o maliciosas y respuestas generadas por LLM. Los tres mejores modelos — Granite Guardian 3.1 8B, Granite Guardian 3.0 8B y Granite Guardian 3.2 5B — también se han adoptado públicamente, con casi 36,000 descargas en Hugging Face, el centro de modelos de IA de código abierto.

Creado por investigadores de la Comisión Europea para el Centro Común de Investigación, GuardBench se compone de 40 conjuntos de datos, incluidos cinco que son completamente nuevos. Además de ser el primer punto de referencia independiente para probar la seguridad de la IA, es el primero en extender las preguntas de prueba más allá del Inglés, con pruebas en francés, alemán, italiano y español.

Granite Guardian ya se había distinguido en una variedad de conjuntos de datos públicos internamente. Los resultados de GuardBench proporcionan una confirmación adicional de las capacidades de models’, incluso en idiomas en los que los modelos no habían sido entrenados explícitamente. “Entrenamos a Granite Guardian solo con datos en inglés,” dijo Prasanna Sattigeri, investigadora de IBM que dirigió el proyecto. “El hecho de que lo hiciéramos tan bien muestra que teníamos un fuerte LLM multilingüe de granito para empezar.”

Los cuatro modelos principales de Granite Guardian tuvieron puntajes de 86% y 85% en los conjuntos de datos de Guardian Benchics 40. Por el contrario, Nvidia y Meta, las únicas otras compañías que rompieron el top 10, tenían modelos de barandilla que obtuvieron un 82%, 80%, 78% y 76%.

Investigadores desvelados GuardBench en noviembre pasado en EMNLP, una conferencia de procesamiento de lenguaje natural superior. Debido a que su artículo salió antes de que IBM lanzara sus modelos Granite Guardian, la tabla de clasificación de GuardBench que se puso en marcha la semana pasada fue la primera validación pública de los modelos de IBM.

“No nos sorprendió, pero fue bueno ver qué tan bien se generalizaron y se desempeñaron en los puntos de referencia en los que no los habíamos probado,” dijo el investigador de IBM Inkit Padhi, quien formó parte del equipo que desarrolló Granite Guardian.

Una solución integral

Granite Guardian fue diseñado para funcionar con cualquier LLM, independientemente de si sus pesos eran abiertos o propietarios. Los modelos también fueron entrenados bajo IBM Atlas de riesgo de IA para marcar contenido socialmente sesgado, lenguaje odioso, abusivo o profano (HAP), así como cualquier intento de los usuarios de ‘jailbreak,’ o bypass, los controles de seguridad de LLMm.

A diferencia de muchos otros modelos de barandillas, Granite Guardian también fue entrenado para detectar ‘respuestas alucinadas que podrían contener información incorrecta o engañosa, incluso en generación aumentada por recuperación (RAG) aplicaciones. Los modelos pueden igualar el rendimiento de los detectores de alucinaciones especializados y personalizarse para otras dimensiones de riesgo, con la indicación de construir su propio detector.

“No hay otro modelo de guardia único que sea tan completo en cuanto a riesgos y daños,” dijo el compañero de IBM Kush Varshney en LinkedIn.

El equipo atribuye gran parte de las habilidades de Granite Guardian a la calidad de sus datos de entrenamiento. Los investigadores contrataron a personas de diversos orígenes para etiquetar ejemplos de contenido no deseado. También incluyeron datos sintéticos generado durante el interno rojo-teaming ejercicios en modelos de lenguaje Granite más antiguos.

La velocidad es uno de los factores decisivos para que los modelos de barandilla tengan éxito. Filtrar contenido no deseado sobre la marcha, cuando un LLM puede estar generando millones de palabras, puede agregar retrasos adicionales que los usuarios pueden no estar dispuestos a tolerar.

Aquí, la serie Granite Guardian también brilla. Los investigadores de IBM desarrollaron varias variaciones ligeras para dar a los usuarios más flexibilidad. Filtros especializados para Detección de HAP solo fueron lanzados a principios de este año. Investigadores también reducido un modelo Granite Guardian 8B a 5B identificando y podando capas redundantes.

Esta intervención aceleró la inferencia 1,4 veces sin ninguna pérdida de precisión. El modelo 5B (actualmente #3 en GuardBench) también introdujo nuevas características, incluida la capacidad de marcar comentarios dañinos en conversaciones de varias vueltas y verbalizar su nivel de certeza en sus respuestas.

El Colección Granite Guardian está disponible en Hugging Face bajo una licencia Apache 2.0 y a través de IBM watsonx Plataforma de IA. Las últimas versiones cuantificadas de los modelos también son disponible en Hugging Face.

IBM News. Traducido al español

Artículos relacionados

Scroll al inicio