La estudiante de doctorado Sarah Alnegheimish quiere hacer que los sistemas de aprendizaje automático sean accesibles.
Los intereses de investigación de Sarah Alnegheimish se centran en la intersección del aprendizaje automático y la ingeniería de sistemas. Su objetivo: hacer que los sistemas de aprendizaje automático sean más accesibles, transparentes y fiables.
Alnegheimish es estudiante de doctorado en el grupo de Datos a IA del Científico Investigador Principal Kalyan Veeramachaneni, en el Laboratorio de Sistemas de Información y Decisión (LIDS) del MIT. Allí, dedica la mayor parte de su energía al desarrollo de Orion, un marco de aprendizaje automático y una biblioteca de series temporales de código abierto y fácil de usar, capaz de detectar anomalías sin supervisión en entornos industriales y operativos a gran escala.
Influencia temprana
Hija de un profesor universitario y una formadora de docentes, aprendió desde pequeña que el conocimiento debía compartirse libremente. «Creo que haber crecido en un hogar donde la educación era muy valorada es parte de la razón por la que quiero que las herramientas de aprendizaje automático sean accesibles». Su propia experiencia con recursos de código abierto no hizo más que aumentar su motivación. «Aprendí a ver la accesibilidad como la clave para la adopción. Para lograr un impacto, quienes necesitan acceder a las nuevas tecnologías deben ser evaluados. Ese es el propósito del desarrollo de código abierto».
Alnegheimish obtuvo su licenciatura en la Universidad Rey Saud (KSU). «Formé parte de la primera promoción de informática. Antes de la creación de este programa, la única otra especialización disponible en informática era TI [tecnología de la información]». Formar parte de la primera promoción fue emocionante, pero también presentó sus propios desafíos. «Todo el profesorado enseñaba material nuevo. Para superarlo, era necesario un aprendizaje independiente. Fue entonces cuando descubrí por primera vez MIT OpenCourseWare: como un recurso para mi propio aprendizaje».
Poco después de graduarse, Alnegheimish se incorporó como investigadora a la Ciudad Rey Abdul Aziz para la Ciencia y la Tecnología (KACST), el laboratorio nacional de Arabia Saudita. A través del Centro de Sistemas de Ingeniería Complejos (CCES) de KACST y del MIT, comenzó a investigar con Veeramachaneni. Cuando solicitó plaza en el MIT para cursar un posgrado, su grupo de investigación fue su primera opción.
Creando Orión
La tesis de maestría de Alnegheimish se centró en la detección de anomalías en series temporales: la identificación de comportamientos o patrones inesperados en los datos, que pueden proporcionar información crucial a los usuarios. Por ejemplo, patrones inusuales en los datos de tráfico de red pueden ser una señal de amenazas de ciberseguridad, lecturas anormales de sensores en maquinaria pesada pueden predecir posibles fallos futuros, y la monitorización de las constantes vitales de los pacientes puede ayudar a reducir las complicaciones de salud. Fue a través de su investigación de maestría que Alnegheimish comenzó a diseñar Orion.
Orion utiliza modelos estadísticos y basados en aprendizaje automático que se registran y mantienen continuamente. Los usuarios no necesitan ser expertos en aprendizaje automático para utilizar el código. Pueden analizar señales, comparar métodos de detección de anomalías e investigar anomalías en un programa integral. El marco, el código y los conjuntos de datos son de código abierto.
Con el código abierto, la accesibilidad y la transparencia se logran directamente. Se tiene acceso ilimitado al código, donde se puede investigar cómo funciona el modelo a través de la comprensión del código. Con Orion, hemos aumentado la transparencia: etiquetamos cada paso del modelo y lo presentamos al usuario. Alnegheimish afirma que esta transparencia ayuda a que los usuarios comiencen a confiar en el modelo antes de comprobar por sí mismos su fiabilidad.
“Intentamos reunir todos estos algoritmos de aprendizaje automático en un solo lugar para que cualquiera pueda usar nuestros modelos listos para usar”, afirma. “No es solo para los patrocinadores con los que trabajamos en el MIT. Lo utilizan muchos usuarios públicos. Acuden a la biblioteca, lo instalan y lo ejecutan con sus datos. Está demostrando ser una excelente fuente para encontrar algunos de los métodos más recientes de detección de anomalías”.
Reutilización de modelos para la detección de anomalías
En su doctorado, Alnegheimish continúa explorando formas innovadoras de detectar anomalías con Orion. «Cuando comencé mi investigación, todos los modelos de aprendizaje automático debían entrenarse desde cero con los datos. Ahora podemos usar modelos preentrenados», afirma. Trabajar con modelos preentrenados ahorra tiempo y costos computacionales. Sin embargo, el desafío radica en que la detección de anomalías en series temporales es una tarea completamente nueva para ellos. «En su sentido original, estos modelos se entrenaron para pronosticar, pero no para detectar anomalías», afirma Alnegheimish. «Estamos ampliando sus límites mediante ingeniería rápida, sin capacitación adicional».
Dado que estos modelos ya capturan los patrones de datos de series temporales, Alnegheimish cree que ya cuentan con todo lo necesario para detectar anomalías. Hasta el momento, sus resultados actuales respaldan esta teoría. No superan la tasa de éxito de los modelos entrenados independientemente con datos específicos, pero ella cree que algún día lo harán.
Diseño accesible
Alnegheimish habla extensamente sobre los esfuerzos que ha realizado para hacer Orion más accesible. «Antes de llegar al MIT, pensaba que la parte crucial de la investigación era desarrollar el propio modelo de aprendizaje automático o mejorar su estado actual. Con el tiempo, me di cuenta de que la única manera de hacer que tu investigación sea accesible y adaptable para otros es desarrollar sistemas que la hagan accesible. Durante mis estudios de posgrado, adopté el enfoque de desarrollar mis modelos y sistemas en conjunto».
El elemento clave para el desarrollo de su sistema fue encontrar las abstracciones adecuadas para sus modelos. Estas abstracciones proporcionan una representación universal para todos los modelos con componentes simplificados. «Cualquier modelo tendrá una secuencia de pasos para ir desde la entrada sin procesar hasta la salida deseada. Hemos estandarizado la entrada y la salida, lo que permite que la parte intermedia sea flexible y fluida. Hasta ahora, todos los modelos que hemos ejecutado se han adaptado a nuestras abstracciones». Las abstracciones que utiliza han sido estables y fiables durante los últimos seis años.
El valor de construir sistemas y modelos simultáneamente se aprecia en el trabajo de Alnegheimish como mentora. Tuvo la oportunidad de trabajar con dos estudiantes de maestría que obtenían sus títulos de ingeniería. «Solo les mostré el sistema en sí y la documentación sobre cómo usarlo. Ambos estudiantes pudieron desarrollar sus propios modelos con las abstracciones a las que nos estamos ajustando. Esto reafirmó que vamos por buen camino».
Alnegheimish también investigó si un modelo de lenguaje extenso (LLM) podría utilizarse como mediador entre los usuarios y un sistema. El agente LLM que implementó puede conectarse a Orion sin que los usuarios necesiten conocer los detalles de su funcionamiento. «Piensen en ChatGPT. No tienen ni idea de qué modelo hay detrás, pero es muy accesible para todos». Para su software, los usuarios solo conocen dos comandos: Fit y Detect. Fit permite a los usuarios entrenar su modelo, mientras que Detect les permite detectar anomalías.
“El objetivo final de lo que he intentado hacer es que la IA sea más accesible para todos”, afirma. Hasta ahora, Orion ha alcanzado más de 120.000 descargas, y más de mil usuarios han marcado el repositorio como uno de sus favoritos en Github. “Tradicionalmente, se medía el impacto de la investigación mediante citas y publicaciones en artículos. Ahora se consigue una adopción en tiempo real gracias al código abierto”. MIT News. B. G. W. Traducido al español