El Portal de las Tecnologías para la Innovación

Samsung presenta TRUEBench: un punto de referencia para la productividad de la IA en el mundo real

Fuente:

El punto de referencia propietario admite escenarios de productividad multilingües, lo que aborda las deficiencias en los puntos de referencia de IA existentes.

Samsung Electronics presentó hoy TRUEBench (Trustworthy Real-world Usage Evaluation Benchmark), un punto de referencia patentado desarrollado por Samsung Research para evaluar la productividad de la IA.

TRUEBench ofrece un conjunto completo de métricas para medir el rendimiento de los modelos lingüísticos de gran tamaño (LLM) en aplicaciones de productividad laboral reales. Para garantizar una evaluación realista, incorpora diversos escenarios de diálogo y condiciones multilingües.

Basándose en el uso interno de IA para la productividad por parte de Samsung, TRUEBench evalúa tareas empresariales comunes, como la generación de contenido, el análisis de datos, la síntesis y la traducción, en 10 categorías y 46 subcategorías. Este punto de referencia garantiza una puntuación fiable mediante una evaluación automática impulsada por IA, basada en criterios diseñados y perfeccionados de forma colaborativa por personas y la IA.

“Samsung Research aporta una amplia experiencia y una ventaja competitiva gracias a su experiencia en IA en el mundo real”, afirmó Paul (Kyungwhoon) Cheun, director de tecnología de la División DX de Samsung Electronics y director de Samsung Research. “Esperamos que TRUEBench establezca estándares de evaluación de productividad y consolide el liderazgo tecnológico de Samsung”.

Recientemente, a medida que las empresas adoptan la IA para sus tareas, ha aumentado la demanda de medir la productividad de los LLM. Sin embargo, los parámetros actuales miden principalmente el rendimiento general, se centran principalmente en el inglés y se limitan a estructuras de preguntas y respuestas de un solo turno. Esto limita su capacidad para reflejar entornos laborales reales.

Para abordar estas limitaciones, TRUEBench se compone de un total de 2485 conjuntos de pruebas en 10 categorías y 12 idiomas¹ , además de ser compatible con escenarios interlingüísticos. Los conjuntos de pruebas examinan lo que los modelos de IA pueden resolver realmente, y Samsung Research aplicó conjuntos de pruebas que abarcaban desde tan solo 8 caracteres hasta más de 20 000, abarcando tareas que abarcaban desde solicitudes sencillas hasta extensos resúmenes de documentos.

Para evaluar el rendimiento de los modelos de IA, es importante contar con criterios claros para determinar si las respuestas de la IA son correctas. En situaciones reales, es posible que no todas las intenciones del usuario se indiquen explícitamente en las instrucciones. TRUEBench está diseñado para permitir una evaluación realista, considerando no solo la precisión de las respuestas, sino también las condiciones detalladas que satisfacen las necesidades implícitas de los usuarios.

Samsung Research verificó los elementos de evaluación mediante la colaboración entre humanos e IA. Primero, los anotadores humanos crean los criterios de evaluación y, a continuación, la IA los revisa para detectar errores, contradicciones o restricciones innecesarias. Posteriormente, los anotadores humanos refinan los criterios, repitiendo este proceso para aplicar estándares de evaluación cada vez más precisos. Con base en estos criterios de verificación cruzada, se realiza la evaluación automática de los modelos de IA, minimizando el sesgo subjetivo y garantizando la consistencia. Además, para cada prueba, se deben cumplir todas las condiciones para que el modelo sea aprobado. Esto permite una puntuación más detallada y precisa en todas las tareas.

Las muestras de datos y las tablas de clasificación de TRUEBench están disponibles en la plataforma global de código abierto Hugging Face, que permite comparar un máximo de cinco modelos y realizar comparaciones completas del rendimiento de los modelos de IA de un vistazo. Además, también se publican datos sobre la duración promedio de los resultados de respuesta, lo que permite comparar simultáneamente el rendimiento y la eficiencia. Puede encontrar información detallada en la página de TRUEBench Hugging Face: https://huggingface.co/spaces/SamsungResearch/TRUEBench .

1 chino, inglés, francés, alemán, italiano, japonés, coreano, polaco, portugués, ruso, español y vietnamita

Samsung News

Artículos relacionados

Huawei

Huawei presenta su visión de sinergia submarino-terrestre y orquestación óptica-inteligente

Huawei presentó su visión de sinergia submarino-terrestre y orquestación óptica-inteligente. En su debut en Submarine Networks World 2025, el principal evento de comunicaciones submarinas en Singapur, la compañía presentó una solución innovadora y productos estrella diseñados para facilitar la integración y la sinergia eficiente entre las redes submarinas y terrestres.

Continuar leyendo...
Nintendo

¡Despega con Mario en dos aventuras que desafían la gravedad!

¿Listo para explorar los confines del espacio? Super Mario Galaxy™ y Super Mario Galaxy 2 son dos aventuras icónicas de Mario, conocidas por sus plataformas desenfrenadas, sorpresas cósmicas y una banda sonora orquestada y envolvente. (Ah, y un dato curioso: ¡Super Mario Galaxy también fue la primera aparición de Rosalina y los Lumas!)

Continuar leyendo...
Scroll al inicio