El Portal de las Tecnologías para la Innovación

3 preguntas: ¿Cómo ayudar a los estudiantes a reconocer posibles sesgos en sus conjuntos de datos de IA?

Los cursos sobre el desarrollo de modelos de IA para la atención médica deben centrarse más en identificar y abordar los sesgos, afirma Leo Anthony Celi.

Cada año, miles de estudiantes toman cursos que les enseñan a implementar modelos de inteligencia artificial que pueden ayudar a los médicos a diagnosticar enfermedades y determinar los tratamientos adecuados. Sin embargo, muchos de estos cursos omiten un elemento clave: capacitar a los estudiantes para detectar fallos en los datos de entrenamiento utilizados para desarrollar los modelos.

Leo Anthony Celi, investigador principal del Instituto de Ingeniería y Ciencias Médicas del MIT, médico del Centro Médico Beth Israel Deaconess y profesor asociado de la Facultad de Medicina de Harvard, ha documentado estas deficiencias en un nuevo artículo y espera persuadir a los desarrolladores de cursos para que enseñen a los estudiantes a evaluar sus datos con mayor profundidad antes de incorporarlos a sus modelos. Numerosos estudios previos han demostrado que los modelos entrenados principalmente con datos clínicos de hombres blancos no funcionan bien cuando se aplican a personas de otros grupos. En este artículo, Celi describe el impacto de este sesgo y cómo los educadores podrían abordarlo en sus enseñanzas sobre modelos de IA.

P: ¿Cómo se introduce el sesgo en estos conjuntos de datos y cómo se pueden abordar estas deficiencias?

R: Cualquier problema en los datos se integrará en cualquier modelado de los mismos. Anteriormente, hemos descrito instrumentos y dispositivos que no funcionan bien en diferentes individuos. Por ejemplo, descubrimos que  los oxímetros de pulso sobreestiman los niveles de oxígeno en personas de color, debido a que no hubo suficientes personas de color inscritas en los ensayos clínicos de los dispositivos. Recordamos a nuestros estudiantes que los dispositivos y equipos médicos están optimizados para hombres jóvenes sanos. Nunca se optimizaron para una mujer de 80 años con insuficiencia cardíaca, y aun así los utilizamos para esos fines. La FDA no exige que un dispositivo funcione bien en la población tan diversa en la que lo usaremos. Solo necesitan una prueba de su eficacia en sujetos sanos.

Además, el sistema de historiales médicos electrónicos no está en condiciones de ser utilizado como base de la IA. Estos registros no fueron diseñados para ser un sistema de aprendizaje, por lo que hay que ser muy cuidadoso al usarlos. El sistema de historiales médicos electrónicos será reemplazado, pero eso no ocurrirá pronto, así que debemos ser más inteligentes. Necesitamos ser más creativos al usar los datos que tenemos ahora, por muy deficientes que sean, para desarrollar algoritmos.

Una vía prometedora que estamos explorando es el desarrollo de un  modelo transformador de datos numéricos de historias clínicas electrónicas, que incluya, entre otros, los resultados de pruebas de laboratorio. Modelar la relación subyacente entre las pruebas de laboratorio, los signos vitales y los tratamientos puede mitigar el efecto de la falta de datos como resultado de los determinantes sociales de la salud y los sesgos implícitos de los proveedores.

P: ¿Por qué es importante que los cursos de IA aborden las posibles fuentes de sesgo? ¿Qué encontró al analizar el contenido de dichos cursos?

R:  Nuestro curso en el MIT comenzó en 2016, y en algún momento nos dimos cuenta de que estábamos animando a la gente a competir para construir modelos sobreajustados a alguna medida estadística de rendimiento, cuando en realidad los datos que utilizamos están plagados de problemas que la gente desconoce. En ese momento, nos preguntábamos: ¿Cuán común es este problema?

Nuestra sospecha era que, si se analizaban los cursos con el programa de estudios disponible en línea, ninguno se molestaba en advertir a los estudiantes sobre la importancia de ser precavidos con los datos. Y, en efecto, al analizar los diferentes cursos en línea, todo giraba en torno a la construcción del modelo. ¿Cómo se construye el modelo? ¿Cómo se visualizan los datos? Descubrimos que, de los 11 cursos que revisamos, solo cinco incluían secciones sobre sesgo en los conjuntos de datos, y solo dos contenían una discusión significativa sobre el sesgo.

Dicho esto, no podemos subestimar el valor de estos cursos. He escuchado muchas historias de personas que estudian por su cuenta basándose en estos cursos en línea, pero al mismo tiempo, dada su influencia y su impacto, necesitamos redoblar nuestros esfuerzos para exigirles que enseñen las habilidades adecuadas, ya que cada vez más personas se sienten atraídas por este multiverso de la IA. Es importante que las personas se doten de la capacidad necesaria para trabajar con IA. Esperamos que este informe ilumine esta enorme brecha en la forma en que enseñamos IA a nuestros estudiantes.

P: ¿Qué tipo de contenido deberían incorporar los desarrolladores de cursos?

R: Primero, darles una lista de verificación con preguntas al principio. ¿De dónde provienen estos datos? ¿Quiénes fueron los observadores? ¿Quiénes fueron los médicos y enfermeros que recopilaron los datos? Y luego, aprender un poco sobre el panorama de esas instituciones. Si se trata de una base de datos de UCI, deben preguntar quién ingresa y quién no, porque eso ya introduce un sesgo de selección en el muestreo. Si todos los pacientes pertenecientes a minorías ni siquiera ingresan en la UCI porque no pueden llegar a tiempo, entonces los modelos no les funcionarán. Sinceramente, para mí, el 50% del contenido del curso debería ser comprender los datos, o incluso más, porque el modelado en sí es fácil una vez que se comprenden los datos.

Desde 2014, el consorcio de Datos Críticos del MIT organiza maratones de datos (hackatones de datos) en todo el mundo. En estos encuentros, médicos, enfermeras, otros profesionales sanitarios y científicos de datos se reúnen para analizar bases de datos y analizar la salud y la enfermedad en el contexto local. Libros de texto y artículos de revistas científicas presentan enfermedades basándose en observaciones y ensayos clínicos que involucran a un grupo demográfico reducido, generalmente de países con recursos para la investigación. 

Nuestro principal objetivo ahora, lo que queremos enseñarles, es el pensamiento crítico. Y el ingrediente principal del pensamiento crítico es unir a personas de diferentes orígenes.

No se puede enseñar pensamiento crítico en una sala llena de directores ejecutivos o médicos. Simplemente no hay un ambiente propicio. Cuando organizamos maratones de datos, ni siquiera tenemos que enseñarles a desarrollar pensamiento crítico. En cuanto se reúne la combinación adecuada de personas —y no solo de diferentes orígenes, sino de diferentes generaciones—, ni siquiera hay que decirles cómo pensar críticamente. Simplemente sucede. El ambiente es propicio para ese tipo de pensamiento. Por lo tanto, ahora les decimos a nuestros participantes y estudiantes: por favor, no empiecen a construir ningún modelo a menos que comprendan realmente cómo se obtuvieron los datos, qué pacientes se incorporaron a la base de datos, qué dispositivos se utilizaron para las mediciones y si esos dispositivos son consistentemente precisos en todos los individuos.

Cuando organizamos eventos en todo el mundo, los animamos a buscar conjuntos de datos locales para que sean relevantes. Existe resistencia porque saben que descubrirán la calidad de sus conjuntos de datos. Les decimos que no hay problema. Así es como se soluciona. Si no se sabe la calidad de sus datos, se seguirán recopilando de forma deficiente y serán inútiles. Hay que reconocer que no se acertará a la primera, y eso está perfectamente bien. MIMIC (la base de datos de información médica marcada para cuidados intensivos, creada en el Centro Médico Beth Israel Deaconess) tardó una década en tener un esquema adecuado, y solo tenemos un esquema adecuado porque nos decían lo deficiente que era MIMIC.

Puede que no tengamos las respuestas a todas estas preguntas, pero podemos despertar en las personas la conciencia de que existen muchos problemas con los datos. Siempre me emociona leer las entradas de blog de quienes asistieron a un datatón y dicen que su mundo ha cambiado. Ahora están más entusiasmados con este campo porque comprenden su inmenso potencial, pero también el enorme riesgo de daño si no lo hacen correctamente. MIT News. A. T. Traducido al español

Artículos relacionados

Scroll al inicio