Según una nueva investigación, los médicos podrían beneficiarse de la ayuda de un LLM cuando se enfrentan a una encrucijada clínica.
Los chatbots basados en inteligencia artificial están mejorando mucho el diagnóstico de algunas enfermedades, pero ¿cómo funcionan cuando las preguntas son menos claras? Por ejemplo, ¿cuánto tiempo antes de una cirugía debe un paciente dejar de tomar anticoagulantes recetados? ¿Debe cambiar el protocolo de tratamiento de un paciente si ha tenido reacciones adversas a medicamentos similares en el pasado? Este tipo de preguntas no tienen una respuesta correcta o incorrecta en los libros de texto: los médicos deben usar su criterio.
Jonathan H. Chen , MD, PhD, profesor adjunto de medicina, y un equipo de investigadores están explorando si los chatbots, un tipo de modelo de lenguaje grande, o LLM, pueden responder eficazmente a preguntas tan matizadas, y si los médicos apoyados por chatbots tienen un mejor desempeño.
Las respuestas son sí y sí. El equipo de investigación probó el rendimiento de un chatbot al enfrentarse a una variedad de encrucijadas clínicas. Un chatbot por sí solo superó a los médicos que solo podían acceder a una búsqueda en Internet y a referencias médicas, pero armados con su propio LLM, los médicos, de múltiples regiones e instituciones de Estados Unidos, siguieron el ritmo de los chatbots.
“Durante años he dicho que, cuando se combinan, la combinación de un ser humano y una computadora va a tener mejores resultados que cualquiera de las dos por separado”, dijo Chen. “Creo que este estudio nos desafía a pensar en eso de manera más crítica y a preguntarnos: ‘¿En qué es buena una computadora? ¿En qué es buena una persona?’. Tal vez debamos repensar dónde usamos y combinamos esas habilidades y para qué tareas reclutamos a la IA”.
El 5 de febrero, en Nature Medicine se publicó un estudio que detalla estos resultados . Chen y Adam Rodman, MD, profesor adjunto de la Universidad de Harvard, son coautores principales. Los investigadores posdoctorales Ethan Goh , MD, y Robert Gallo, MD, son coautores principales.
Impulsado por chatbots
En octubre de 2024, el equipo realizó un estudio , publicado en JAMA Network Open , que probó el desempeño del chatbot al diagnosticar enfermedades y descubrió que su precisión era mayor que la de los médicos, incluso si usaban un chatbot. El artículo actual profundiza en el lado más blando de la medicina, evaluando el desempeño del chatbot y del médico en preguntas que entran en una categoría llamada «razonamiento de gestión clínica».
Goh explica la diferencia de esta manera: imagina que estás usando una aplicación de mapas en tu teléfono para guiarte a un destino determinado. Usar un LLM para diagnosticar una enfermedad es como usar el mapa para señalar la ubicación correcta. La forma de llegar allí es la parte del razonamiento de gestión: ¿tomas carreteras secundarias porque hay tráfico? ¿Mantienes el rumbo, parachoques con parachoques? ¿O esperas y esperas a que las carreteras se despejen?
En un contexto médico, estas decisiones pueden volverse complicadas. Supongamos que un médico descubre por casualidad que un paciente hospitalizado tiene una masa considerable en la parte superior del pulmón. ¿Cuáles serían los siguientes pasos? El médico (o el chatbot) debería reconocer que un nódulo grande en el lóbulo superior del pulmón tiene estadísticamente una alta probabilidad de propagarse por todo el cuerpo. El médico podría tomar inmediatamente una biopsia de la masa, programar el procedimiento para una fecha posterior o solicitar imágenes para intentar obtener más información.
Determinar qué método es el más adecuado para el paciente depende de una serie de detalles, empezando por las preferencias conocidas del paciente. ¿Es reticente a someterse a un procedimiento invasivo? ¿El historial del paciente muestra una falta de seguimiento de las citas? ¿Es fiable el sistema de salud del hospital a la hora de organizar las citas de seguimiento? ¿Y las derivaciones? Este tipo de factores contextuales son cruciales a tener en cuenta, dijo Chen.
El equipo diseñó un ensayo para estudiar el rendimiento del razonamiento de gestión clínica en tres grupos: el chatbot solo, 46 médicos con soporte de chatbot y 46 médicos con acceso solo a búsquedas en Internet y referencias médicas. Seleccionaron cinco casos de pacientes anonimizados y se los entregaron al chatbot y a los médicos, quienes proporcionaron una respuesta escrita que detallaba lo que harían en cada caso, por qué y qué consideraron al tomar la decisión.
Además, los investigadores recurrieron a un grupo de médicos certificados para crear una rúbrica que calificara un juicio o decisión médica como apropiada. Las decisiones fueron luego calificadas en función de la rúbrica.
Para sorpresa del equipo, el chatbot superó a los médicos que solo tenían acceso a Internet y referencias médicas, ya que marcaron más elementos de la rúbrica que los médicos. Sin embargo, los médicos que fueron emparejados con un chatbot obtuvieron el mismo rendimiento que el chatbot solo.
¿Un futuro de médicos chatbot?
Lo que exactamente impulsó la colaboración entre médicos y chatbots es un tema de debate. ¿El uso del LLM obliga a los médicos a pensar más en el caso? ¿O el LLM proporciona una orientación en la que los médicos no habrían pensado por sí solos? Es una dirección futura de exploración, dijo Chen.
Los resultados positivos de los chatbots y de los médicos asociados a ellos plantean una pregunta cada vez más popular: ¿Están los médicos con IA en camino?
“Tal vez sea un punto a favor de la IA”, dijo Chen. Pero en lugar de reemplazar a los médicos, los resultados sugieren que los médicos podrían querer recibir la ayuda de un chatbot. “Esto no significa que los pacientes deban saltarse al médico y acudir directamente a los chatbots. No lo hagan”, dijo. “Hay mucha información buena, pero también hay información mala. La habilidad que todos debemos desarrollar es discernir lo que es creíble y lo que no es correcto. Eso es más importante ahora que nunca”.
Para más información
Investigadores del VA Palo Alto Health Care System, el Beth Israel Deaconess Medical Center, la Universidad de Harvard, la Universidad de Minnesota, la Universidad de Virginia, Microsoft y Kaiser contribuyeron a este trabajo.
El estudio fue financiado por la Fundación Gordon y Betty Moore, el Centro de Investigación de Excelencia Clínica de Stanford y la Beca Avanzada en Informática Médica del VA.
El Departamento de Medicina de Stanford también apoyó el trabajo.
Esta historia fue publicada originalmente por Stanford Medicine.
Stanford Report. Traducido al español