El Portal de las Tecnologías para la Innovación

La respuesta de IBM a los agentes de IA que gobiernan: Automatización y Evaluación con watsonx.governance

La mayoría de las organizaciones aún enfrentan incertidumbre sobre cómo usar los agentes de IA de manera segura y efectiva. 

La IA agénica está transformando los paisajes de TI a nivel mundial, pero la mayoría de las organizaciones aún enfrentan incertidumbre sobre cómo usar los agentes de IA de manera segura y efectiva. Esto se debe a la complejidad de desarrollar y administrar estos agentes, garantizar el cumplimiento y la gobernanza, y mitigar los riesgos asociados con los modelos, usuarios y conjuntos de datos.

El potencial de los agentes es inmenso, por lo que Gartner predice que para 2028, un tercio de las interacciones de IA de generación utilizarán modelos de acción y agentes autónomos. Los riesgos para la IA generativa y el aprendizaje automático pueden ser significativos para empezar, especialmente para ciertos casos de uso. Agregue agentes de IA y los riesgos se amplifican aún más.  

Nos complace anunciar que una vista previa tecnológica de las nuevas capacidades de evaluación agentic estará disponible la semana del 3 de marzo. Estas métricas pueden ayudar a las organizaciones a rastrear a los agentes más de cerca, confirmando que están actuando adecuadamente y detectando señales de alerta temprana si no lo están.

Aquí están las nuevas métricas de evaluación de RAG, AI agentic que encontrará en watsonx.governance:

  • Relevancia del contexto: Mide qué tan bien se alinean los datos recuperados por el modelo con la pregunta especificada en el mensaje. Las puntuaciones varían de 0 a 1. Las puntuaciones más altas indican que el contexto es más relevante para la pregunta en el mensaje
  • Fidelidad: Indica con qué precisión y fiabilidad la respuesta generada refleja la información contenida en los documentos o el contexto recuperados. Mide la medida en que el modelo generativo se mantiene fiel al contenido que ha recuperado, sin introducir errores, alucinaciones (es decir, generar información no respaldada por el contexto recuperado) o detalles engañosos que no están presentes en el material de origen. Las puntuaciones varían de 0 a 1. Las puntuaciones más altas indican que la producción está más castigada y menos alucinada.
  • Respuesta similitud: La similitud de respuesta mide qué tan cerca se alinea la respuesta generada con una respuesta de referencia para determinar la calidad del rendimiento de su modelo. Las puntuaciones varían de 0 a 1. Las puntuaciones más altas indican que la respuesta está más estrechamente alineada con la respuesta de referencia.

Por qué se requiere gobernanza para los agentes de IA 

Los agentes tienen autonomía sin supervisión y pueden tomar acciones que a veces son perjudiciales para las organizaciones o sus clientes, y en algunos casos, esas acciones pueden ser irreversibles. Con tantas capacidades, datos y puntos de decisión, incluso rastrear y rastrear los muchos pasos que un agente tomó para llegar a una conclusión y tomar las medidas recomendadas puede ser desalentador. 

Estas acciones también pueden influir en los datos subyacentes y crear sesgos de datos debido a acciones específicas, que en algunos casos podrían crear bucles de retroalimentación infinitos. Como otras formas de IA generativa, los agentes también pueden alucinar y elija con confianza la herramienta incorrecta o tome una acción poco práctica o imprudente. La seguridad y el acceso a lo que el agente puede interactuar con y quién puede interactuar con el agente se convierte en un desafío desde una perspectiva de gestión de identidad. 

El alcance y la escala de administrar, gobernar y asegurar agentes es abrumador y no es factible de una manera ad hoc o manual, incluso experimentar con seguridad con agentes en un esfuerzo por aprender a medida que escala requiere una solución robusta de gobierno de IA.  

Siga leyendo para obtener más información sobre los beneficios de usar watsonx.gobernanza, incluida su capacidad para rastrear el ciclo de vida de la IA de extremo a extremo, ayudar al cumplimiento de las políticas internas y las regulaciones externas y mejorar la transparencia y la explicabilidad de los modelos rastreados. Al final, comprenderá cómo watsonx.governance puede ayudarlo a generar confianza en su capacidad para construir, implementar, administrar y gobernar agentes de IA. 

Gobernanza del ciclo de vida de los agentes de IA

El desarrollo, la implementación y la administración de IA agentic siguen el mismo ciclo de vida que otras IA, comenzando con el caso de uso, pero requieren capacidades adicionales para rastrear completamente los metadatos para cada etapa de los sistemas agentic. La gestión del riesgo, el cumplimiento y la seguridad también son clave para la gobernanza agentic. Watsonx.governance automatiza muchos de estos procesos para que pueda escalar la IA agentic en su organización. 

Creamos una breve demostración para resaltar cómo se puede usar watsonx.governance para la gobernanza del ciclo de vida de la IA agéntica. Este clip muestra cómo watsonx.governance le permite crear un caso de uso de IA que describe los objetivos comerciales para el agente de IA. En este ejemplo, hemos creado Asistente de inversión automatizado como nuestro caso de uso hipotético. Desde el caso de uso puede asociar los agentes de IA relacionados. Luego asociamos un agente de IA existente Portafolio Rebalancer, al nuevo agente y agregue una entrada para otro nuevo agente, Agente de Retiro del Fondo. Los agentes deben seguir el flujo de trabajo gobernado por los organismos, que incluye una evaluación inicial de riesgos para identificar los riesgos potenciales al principio del proceso. Una vez implementado, puede monitorear el rendimiento y el comportamiento del agente utilizando las funciones de monitoreo de tiempo de ejecución de watsonx.governanceranceans.   

Gobernanza de la IA agénica con watsonx.governance

Gobierno de IA agénica con watsonx.governance (0:30 min)

Si bien la demostración anterior muestra que es posible gobernar la IA agentic en watsonx.governance hoy, estamos trabajando para proporcionar una funcionalidad lista para usar y mejorada para hacer lo mismo, que se lanzará a finales de este año.  

Cuando las organizaciones están explorando la IA agentic en varios casos de uso, el seguimiento de experimentos puede ayudar a evaluar cómo se están desempeñando los diferentes agentes variantes para informar a los desarrolladores y líderes sobre cuál impulsar la producción. La trazabilidad también puede ayudar a los desarrolladores de aplicaciones agentic a depurar sus aplicaciones al proporcionar un linaje completo de las decisiones de los agentes en cada paso de la interacción del usuario y el procesamiento del agente para informar las acciones.

Evaluación de Sistemas Agentic

Si bien las métricas siempre han sido importantes para gobernar la IA, lo son aún más con los agentes gobernantes. A finales de este año, watsonx.governance admitirá métricas especializadas adicionales para sistemas agentic a lo largo del ciclo de vida del modelo y la interacción del agente.  La relevancia del contexto, la fidelidad y las métricas de relevancia de la respuesta se discutieron anteriormente y pintan una mejor imagen sobre la capacidad del agente para responder la pregunta correcta, de la manera correcta, con el resultado correcto. Estamos trabajando en métricas de IA agentic especializadas adicionales para monitorear y mejorar el rendimiento del agente.

Las métricas de fidelidad de traducción de consultas pueden confirmar si un agente entendió correctamente una pregunta del usuario o si alucinó. Por ejemplo, si un usuario pregunta “¿cuánto descuento recibo como cliente de nivel dorado?” y la consulta de los agentes fue: FindDiscount(type=silver), eso tendría una puntuación pobre.  

Las métricas de deriva del sistema ayudan a rastrear si los agentes están operando e inferiendo según lo previsto cuando se lanzaron, o si han evolucionado significativamente con el tiempo y potencialmente se han desviado hacia ser inseguros o improductivosatsonx.governance también buscará la calidad de selección de herramientas, que evalúa si el orquestador seleccionó la herramienta o agente adecuado para cada consulta del usuario. 

Mejoras agentic adicionales de watsonx.governance 

Agentic AI continuará siendo un foco para nosotros durante todo el año y vamos a lanzar la gestión de riesgos y el cumplimiento normativo para los sistemas agentic. Sobre la base de las barandillas actuales y las capacidades de equipo rojo dentro de watsonx.governance, también tendremos barandillas de sistemas agentic mejoradas, barandillas de conversación de varias vueltas y equipo rojo agentic. 

Si a usted le gusta que su organización explore y escale la IA agentica de manera efectiva y responsable, necesita una solución de gobierno de IA de extremo a extremo como watsonx.governance.  Pruébelo usted mismo o configure un momento para que lo discutamos con un experto de IBM hoy. IBM Blog. H. G., M. B. y J. B. Traducido al español

Artículos relacionados

Scroll al inicio