Al experimentar de manera temprana, medir rigurosamente y construir una arquitectura que evoluciona con cada modelo, Intercom creó una plataforma de IA escalable que ofrece nuevas capacidades en días, no en trimestres.
Cuando ChatGPT se lanzó en 2022, Intercom (se abre en una nueva ventana)No solo vieron los titulares, sino que se movilizaron. A las pocas horas del lanzamiento de GPT-3.5, la empresa de software de atención al cliente comenzó a experimentar y, tan solo cuatro meses después, lanzó Fin, su agente de IA que ahora resuelve millones de consultas de clientes cada mes.
Ese impulso inicial no fue casualidad. A medida que los LLM avanzaban, Intercom reconoció que la IA transformaría la experiencia del cliente. La dirección actuó con rapidez: creó un grupo de trabajo multifuncional, canceló proyectos no relacionados con IA y destinó 100 millones de dólares para reestructurar el negocio en torno a la IA.
Esa decisión desencadenó cambios en toda la empresa: equipos de producto reorganizados, una nueva estrategia de soporte técnico centrada en la IA y una plataforma diseñada para ayudar a Fin a gestionar grandes volúmenes y consultas complejas de los clientes.
A continuación, se presentan tres lecciones del recorrido de Intercom que cualquier equipo, independientemente de su punto de partida, puede poner en práctica ahora mismo.
“La IA debe estar incorporada; no se puede agregar como complemento”.
Paul Adams, director de productos de Intercom
Lección 1: Experimente temprano y con frecuencia para desarrollar fluidez con el modelo
Intercom prueba los modelos con frecuencia y de manera temprana, y aprende profundamente de su trabajo.
El equipo comenzó a experimentar con modelos generativos desde el principio, y su experiencia práctica les ayudó a identificar las limitaciones de los modelos e identificar oportunidades. Cuando GPT‑4 estuvo disponible a principios de 2023, estaban listos. En cuatro meses, lanzaron Fin y desde entonces no han bajado el ritmo.
“Pudimos aprovechar GPT-3.5 para mantener conversaciones fluidas con destellos de magia, pero aún no era lo suficientemente confiable como para confiarlo a nuestros clientes”, afirma Jordan Neill, vicepresidente sénior de Ingeniería. “Como ya habíamos hecho el trabajo, cuando llegó GPT-4, supimos que estaba listo y enviamos Fin”.
Esa misma fluidez ayudó a Intercom a diseñar Fin Tasks, un sistema que automatiza flujos de trabajo complejos como reembolsos y soporte técnico. Si bien el equipo inicialmente planeó una pila basada en un modelo de razonamiento, sus evaluaciones demostraron que GPT-4.1 podía gestionar la tarea por sí solo, con alta confiabilidad y menor latencia.
Hoy en día, GPT‑4.1 impulsa una parte cada vez mayor del uso de IA en Intercom, incluyendo la lógica clave en las Tareas Fin. El equipo también descubrió que añadir indicaciones de cadena de pensamiento a las consultas sin razonamiento redujo las deficiencias de rendimiento.
La conclusión de Intercom: cuanto mejor conozca sus modelos, más rápido podrá adaptarse a medida que evoluciona el estado del arte.SimpleModerateComplexTask complexity020406080100Completion rate (%)GPT-4.1GPT-4oModelTask completion rate by task complexity
En las evaluaciones de Intercom, GPT‑4.1 mostró la mayor fiabilidad en la finalización de tareas, a la vez que ofreció una reducción de costes del 20 % en comparación con GPT‑4o. Los valores de completitud se promediaron en 5 ejecuciones independientes (utilizando Pass@k); un resultado solo se considera «completo» si se completa correctamente en las 5 ejecuciones, para reducir la varianza.
Lección 2: Desbloquea la velocidad con evaluaciones sólidas
Para avanzar rápido, hay que medir qué funciona y por qué.
La capacidad de Intercom para adoptar nuevos modelos, modalidades y arquitecturas rápidamente se basa en su riguroso proceso de evaluación . Cada nuevo modelo de OpenAI, ya sea para Fin Voice, con la tecnología de la API en tiempo real, o para Fin Tasks, con la tecnología GPT‑4.1, se somete a pruebas estructuradas fuera de línea y ensayos A/B en vivo para evaluar el seguimiento de instrucciones, la precisión de las llamadas a herramientas y la coherencia general antes de su implementación.
Por ejemplo, el equipo compara los modelos con transcripciones de interacciones de soporte reales, evaluando su eficacia en la gestión de instrucciones de varios pasos, como reembolsos, la fidelidad a la marca Fin y la fiabilidad de la ejecución de las llamadas a funciones. Estos resultados se utilizan para realizar pruebas A/B en vivo que comparan las tasas de resolución y la satisfacción del cliente en modelos como GPT‑4 y GPT‑4.1.
Este enfoque ayudó a Intercom a migrar de GPT‑4 a GPT‑4.1 en tan solo unos días. Tras confirmar las mejoras en el manejo de instrucciones y la ejecución de funciones, implementaron GPT‑4.1 en Fin Tasks y observaron mejoras inmediatas tanto en el rendimiento como en la satisfacción del usuario.
“Cuando se lanzó GPT-4.1, tuvimos los resultados de la evaluación en 48 horas y un plan de implementación inmediatamente después”, afirma Pedro Tabacof, científico principal de aprendizaje automático en Intercom. “Enseguida vimos que GPT-4.1 ofrecía una buena combinación de inteligencia y latencia para satisfacer las necesidades de nuestros clientes”.
Para Fin Voice, el mismo proceso de evaluación ayudó a Intercom validar nuevas instantáneas del modelo de voz e identificar mejoras en la latencia, la ejecución de funciones y la adherencia al script: todo esencial para brindar soporte telefónico de calidad humana.
Intercom amplió sus evaluaciones para captar la dimensión adicional que la voz aporta a las interacciones. Evaluaron sistemáticamente Fin Voice en función de factores como la personalidad, el tono, la gestión de interrupciones y el ruido de fondo para garantizar experiencias de alta calidad para el cliente.
Lección 3: Construya ventajas a largo plazo con flexibilidad arquitectónica
Intercom está diseñado para el cambio desde el primer día y cuenta con una arquitectura lo suficientemente flexible para evolucionar junto con los modelos de los que depende.
El sistema de Fin es modular por diseño y admite múltiples modalidades, como chat, correo electrónico y voz, cada una con diferentes ventajas y desventajas en términos de latencia y complejidad. Esta arquitectura permite a Intercom dirigir las consultas al modelo más adecuado para el trabajo e intercambiar modelos sin necesidad de rediseñar el sistema subyacente.
Esa flexibilidad es deliberada y está en constante evolución. La arquitectura de Fin se encuentra ahora en su tercera iteración importante, y la siguiente ya está en desarrollo. A medida que los modelos mejoran, el equipo añade complejidad donde es necesario para desbloquear nuevas capacidades y simplifica donde es posible.
Esta adaptabilidad resultó crucial con Fin Tasks. Inicialmente, el equipo asumió que necesitaría modelos basados en razonamiento para Fin Tasks, lo que permite a Fin resolver consultas complejas de clientes y gestionar procesos de varios pasos, como la emisión de reembolsos, la realización de cambios en las cuentas o la resolución de problemas técnicos.
Pero en las pruebas, las capacidades de seguimiento de instrucciones de GPT-4.1 superaron las expectativas y ofrecieron la misma confiabilidad con menor latencia y costo.
“Sinceramente, creo que no se habla lo suficiente de GPT‑4.1”, afirma Pratik Bothra, ingeniero principal de aprendizaje automático en Intercom. “Nos sorprendió mucho la latencia y el perfil de costes. Nos permite adaptar nuestra arquitectura y eliminar gran parte de la complejidad”.

Motor de inteligencia artificial Fin™
Construyendo experiencias de clientes conectadas a través de datos unificados y automatización del flujo de trabajo
El equipo apenas está comenzando. Impulsado por modelos avanzados y basado en una arquitectura modular e independiente de cada modelo, Intercom se expande más allá de la atención al cliente para impulsar los flujos de trabajo en toda la empresa, ofreciendo resoluciones más rápidas y mejores experiencias para los clientes.
- Equipos de soporte: resolución de la mayoría de las consultas entrantes a través de chat, correo electrónico, voz y más con Fin AI Agent
- Equipos de operaciones: automatización de flujos de trabajo complejos como reembolsos, cambios de cuenta y actualizaciones de suscripciones con Fin Tasks
- Equipos de productos: al utilizar el servidor MCP de Intercom, las herramientas de IA como ChatGPT pueden acceder a conversaciones de clientes, tickets y datos de usuarios, lo que ayuda a los equipos de toda la empresa a detectar errores, diseñar hojas de ruta, refinar mensajes y prepararse para informes trimestrales.
Intercom construyó una plataforma de IA escalable manteniéndose riguroso en la evaluación, basado en el rendimiento y flexible en el diseño, redefiniendo el soporte y ofreciendo lecciones para cualquier empresa que trabaje con IA.
OpenAI News. Traducido al español