Los investigadores descubren que la información no clínica en los mensajes de los pacientes (como errores tipográficos, espacios en blanco adicionales y lenguaje exagerado) reduce la precisión de un modelo de IA.
Un modelo de lenguaje amplio (LLM) implementado para realizar recomendaciones de tratamientos puede verse obstaculizado por información no clínica en los mensajes de los pacientes, como errores tipográficos, espacios en blanco adicionales, marcadores de género faltantes o el uso de un lenguaje incierto, dramático e informal, según un estudio de investigadores del MIT.
Descubrieron que realizar cambios estilísticos o gramaticales en los mensajes aumenta la probabilidad de que un LLM recomiende que un paciente autogestione su condición de salud informada en lugar de asistir a una cita, incluso cuando ese paciente debería buscar atención médica.
Su análisis también reveló que estas variaciones no clínicas en el texto, que imitan cómo se comunican las personas realmente, tienen más probabilidades de cambiar las recomendaciones de tratamiento de un modelo para pacientes femeninas, lo que resulta en un mayor porcentaje de mujeres a las que se les aconsejó erróneamente no buscar atención médica, según los médicos humanos.
Este trabajo “es una prueba contundente de que los modelos deben ser auditados antes de su uso en el ámbito sanitario, un ámbito en el que ya se utilizan”, afirma Marzyeh Ghassemi, profesora asociada del Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT, miembro del Instituto de Ciencias de la Ingeniería Médica y del Laboratorio de Sistemas de Información y Decisión, y autora principal del estudio.
Estos hallazgos indican que los LLM incorporan información no clínica para la toma de decisiones clínicas de maneras previamente desconocidas. Esto pone de manifiesto la necesidad de realizar estudios más rigurosos sobre los LLM antes de implementarlos en aplicaciones de alto riesgo, como la formulación de recomendaciones de tratamiento, afirman los investigadores.
“Estos modelos suelen entrenarse y probarse con preguntas de exámenes médicos, pero luego se utilizan en tareas muy diferentes, como evaluar la gravedad de un caso clínico. Aún hay mucho que desconocemos sobre los LLM”, añade Abinitha Gourabathina, estudiante de posgrado de Ingeniería Eléctrica y Ciencias de la Computación (EECS) y autora principal del estudio.
A ellos se unen en el documento que será presentado en la Conferencia ACM sobre Equidad, Responsabilidad y Transparencia, por la estudiante de posgrado Eileen Pan y el posdoctorado Walter Gerych.
Mensajes contradictorios
Se están utilizando modelos de lenguaje de gran tamaño como GPT-4 de OpenAI para redactar notas clínicas y clasificar mensajes de pacientes en centros de atención médica de todo el mundo, en un esfuerzo por agilizar algunas tareas para ayudar a los médicos sobrecargados.
Un creciente cuerpo de trabajos ha explorado las capacidades de razonamiento clínico de los LLM, especialmente desde un punto de vista de imparcialidad, pero pocos estudios han evaluado cómo la información no clínica afecta el juicio de un modelo.
Interesada en el impacto del género en el razonamiento LLM, Gourabathina realizó experimentos en los que intercambió las claves de género en las notas de los pacientes. Le sorprendió que los errores de formato en las indicaciones, como los espacios en blanco adicionales, provocaran cambios significativos en las respuestas LLM.
Para explorar este problema, los investigadores diseñaron un estudio en el que alteraron los datos de entrada del modelo intercambiando o eliminando marcadores de género, agregando lenguaje colorido o incierto o insertando espacios adicionales y errores tipográficos en los mensajes de los pacientes.
Cada perturbación fue diseñada para imitar un texto que podría escribir alguien de una población de pacientes vulnerables, basándose en una investigación psicosocial sobre cómo las personas se comunican con los médicos.
Por ejemplo, los espacios adicionales y los errores tipográficos simulan la escritura de pacientes con dominio limitado del inglés o con menor aptitud tecnológica, y la adición de lenguaje incierto representa a pacientes con ansiedad por la salud.
Los conjuntos de datos médicos con los que se entrenan estos modelos suelen estar depurados y estructurados, y no reflejan de forma muy realista la población de pacientes. Queríamos comprobar cómo estos cambios tan realistas en el texto podrían influir en los casos de uso posteriores, afirma Gourabathina.
Utilizaron un LLM para crear copias alteradas de miles de registros de pacientes, garantizando al mismo tiempo la mínima modificación del texto y la conservación de todos los datos clínicos, como la medicación y el diagnóstico previo. Posteriormente, evaluaron cuatro LLM, incluyendo el modelo comercial GPT-4 de gran tamaño y un LLM más pequeño, diseñado específicamente para entornos médicos.
A cada LLM se le plantearon tres preguntas basadas en las notas del paciente: ¿debe el paciente manejar su enfermedad en casa?, ¿debe acudir a una visita clínica?, y ¿se le debe asignar un recurso médico, como una prueba de laboratorio?
Los investigadores compararon las recomendaciones del LLM con respuestas clínicas reales.
Recomendaciones inconsistentes
Observaron inconsistencias en las recomendaciones de tratamiento y un desacuerdo significativo entre los LLM al recibir datos alterados. En general, los LLM mostraron un aumento del 7 al 9 % en las sugerencias de autocuidado para los nueve tipos de mensajes modificados para los pacientes.
Esto significa que los LLM eran más propensos a recomendar que los pacientes no buscaran atención médica cuando los mensajes contenían errores tipográficos o pronombres de género neutro, por ejemplo. El uso de lenguaje rimbombante, como jerga o expresiones dramáticas, tuvo el mayor impacto.
También descubrieron que los modelos cometían alrededor de un 7 por ciento más de errores en el caso de las pacientes femeninas y eran más propensos a recomendar que las pacientes femeninas se autogestionaran en casa, incluso cuando los investigadores eliminaron todas las señales de género del contexto clínico.
Muchos de los peores resultados, como los pacientes a quienes se les dice que se automediquen cuando tienen una condición médica grave, probablemente no se capturarían en pruebas que se centran en la precisión clínica general de los modelos.
En la investigación, solemos analizar las estadísticas agregadas, pero hay muchos aspectos que se pierden en la traducción. Necesitamos analizar la dirección en la que se producen estos errores: no recomendar las visitas cuando se debería es mucho más perjudicial que hacer lo contrario, afirma Gourabathina.
Las inconsistencias causadas por el lenguaje no clínico se vuelven aún más pronunciadas en entornos conversacionales donde un LLM interactúa con un paciente, lo que es un caso de uso común para los chatbots que interactúan con los pacientes.
Pero en trabajos de seguimiento , los investigadores descubrieron que estos mismos cambios en los mensajes de los pacientes no afectan la precisión de los médicos humanos.
En nuestro trabajo de seguimiento, que estamos revisando, descubrimos además que los modelos de lenguaje extensos son vulnerables a los cambios, algo que no ocurre con los médicos clínicos. Esto quizás no sea sorprendente: los modelos de lenguaje extensos no se diseñaron para priorizar la atención médica del paciente. Los modelos de lenguaje extensos son, en promedio, lo suficientemente flexibles y eficientes como para que consideremos que este es un buen caso de uso. Sin embargo, no queremos optimizar un sistema de atención médica que solo funciona bien para pacientes de grupos específicos.
Los investigadores quieren ampliar este trabajo diseñando perturbaciones del lenguaje natural que capturen a otras poblaciones vulnerables e imiten mejor los mensajes reales. También quieren explorar cómo los LLM infieren el género a partir de textos clínicos. MIT News. A. Z. Traducido al español