La innovación en dispositivos médicos sigue acelerándose, y la FDA autoriza un número récord de ellos cada año.
Cuando estos dispositivos nuevos o actualizados se presentan a los médicos y pacientes, estos necesitan capacitación para usarlos de manera correcta y segura.
Una vez que los dispositivos médicos están en uso, los médicos o los pacientes pueden necesitar ayuda para solucionar problemas. Los dispositivos médicos suelen ir acompañados de manuales de instrucciones de uso (IFU) extensos y técnicamente complejos, que describen el uso correcto del dispositivo. Puede resultar difícil encontrar la información correcta rápidamente y la capacitación sobre un dispositivo nuevo es una tarea que requiere mucho tiempo. Los representantes de los dispositivos médicos suelen ofrecer capacitación de soporte, pero es posible que no estén presentes para responder todas las preguntas en tiempo real. Estos problemas pueden provocar demoras en el uso de los dispositivos médicos y la adopción de tecnologías más nuevas y, en algunos casos, dar lugar a un uso incorrecto.
Uso de IA generativa para solucionar problemas en dispositivos médicos
La generación aumentada por recuperación (RAG) utiliza modelos de aprendizaje profundo, incluidos los modelos de lenguaje extenso (LLM), para una búsqueda y recuperación eficiente de información mediante lenguaje natural. Con RAG, los usuarios pueden recibir instrucciones fáciles de entender para preguntas específicas en un corpus de texto extenso, como en una IFU. Los modelos de IA de voz, como el reconocimiento automático de voz (ASR) y los modelos de texto a voz (TTS), permiten a los usuarios comunicarse con estos flujos de trabajo de IA generativa avanzados utilizando su voz, lo que es importante en entornos estériles como el quirófano.
Los microservicios de inferencia NVIDIA NIM son contenedores optimizados para GPU y de alto rendimiento para estos modelos que brindan el menor costo total de propiedad y la mejor optimización de inferencia para los modelos más recientes. Al integrar RAG y la inteligencia artificial de voz con la eficiencia y la simplicidad de implementar microservicios NIM, las empresas que desarrollan dispositivos médicos avanzados pueden brindarles a los médicos respuestas precisas y sin intervención manual en tiempo real.
Figura 1. Interfaz de usuario del chatbot del asistente de capacitación de dispositivos médicos
Un asistente de capacitación en dispositivos médicos creado con microservicios NIM
En este tutorial, creamos una secuencia de comandos RAG con capacidades de voz opcionales para responder preguntas sobre un dispositivo médico utilizando sus instrucciones de uso. El código utilizado está disponible en GitHub .
Usamos los siguientes microservicios NIM en nuestra canalización RAG. Tiene la flexibilidad de cambiar los componentes de la canalización a otros microservicios NIM para diferentes modelos:
- Llama3 70B Instruct (meta/llama3-70b-instruct): un modelo de lenguaje grande que genera la respuesta a la pregunta del usuario basándose en el texto recuperado.
- NV-EmbedQA-e5-v5 (nvidia/nv-embedqa-e5-v5): un modelo de integración que integra los fragmentos de texto de la IFU y las consultas del usuario.
- NV-RerankQA-Mistral-4b-v3 (nvidia/nv-rerankqa/mistral-4b-v3): un modelo de reclasificación que reclasifica los fragmentos de texto recuperados para el paso de generación de texto por parte del LLM.
- RIVA ASR : un modelo de reconocimiento automático de voz que transcribe la consulta de voz del usuario en texto para el modelo.
- RIVA TTS : El modelo de texto a voz que genera el audio de la respuesta del LLM.
RAG consta de dos pasos: ingesta de documentos, recuperación y generación de respuestas. Estos pasos y los microservicios NIM asociados se pueden encontrar en el diagrama de arquitectura de referencia de la Figura 2.
Uso de NVIDIA NIM
Puede acceder a los microservicios NIM registrándose para obtener créditos API gratuitos en el Catálogo de API en build.nvidia.com o implementándolos en su propia infraestructura computacional.
En este tutorial, utilizamos los puntos finales del catálogo de API. Puede encontrar más información sobre el uso de microservicios de NIM, cómo encontrar su clave de API y otros requisitos previos en GitHub .
Siga estos pasos para crear un pipeline RAG con voz opcional para responder preguntas sobre dispositivos médicos utilizando sus instrucciones de uso.
- Construya e inicie los contenedores.
Vea los archivos de Docker Compose que hemos creado para iniciar los contenedores con los microservicios NIM y la base de datos Vector. Puede acceder a las instrucciones y al código detallados en GitHub. - Ingerir el manual del dispositivo
Navegue en su navegador para cargar sus IFU en la pestaña “Base de conocimientos” como se muestra en la Figura 3.
- Recupere y genere respuestas
Vaya a la pestaña “Conversar” para comenzar la conversación con la IFU (Figura 1). Asegúrese de hacer clic en “Usar base de conocimiento” para usar la IFU como un recurso de conocimiento.
Para usar el habla para conversar, haga clic en el micrófono junto al área de entrada de texto y el modelo RIVA ASR transcribirá su pregunta. Para recibir el habla como salida, haga clic en “Habilitar salida TTS”. Puede encontrar más información sobre el uso y la solución de problemas de la interfaz de usuario en la documentación de GitHub . - Evaluar en un conjunto de datos personalizado
Evalúe el rendimiento de la canalización RAG utilizando un conjunto de datos personalizado de preguntas y métricas RAGAS automatizadas. Las métricas RAGAS evalúan el rendimiento tanto del recuperador como del generador y son un método común para evaluar las canalizaciones RAG de manera automatizada. Las instrucciones sobre cómo usar el script de evaluación se encuentran en GitHub .
Empezando
Para comenzar con este flujo de trabajo, visite el repositorio de GitHub GenerativeAIExamples , que contiene todo el código utilizado en este tutorial, así como una extensa documentación.
Para obtener más información sobre los microservicios NIM, puede obtener más información en la documentación oficial de NIM y hacer preguntas en nuestro Foro para desarrolladores de NIM de NVIDIA .
Recursos relacionados
- Sesión de GTC: Mejorar la experiencia humana digital con microservicios en la nube acelerados por IA generativa
- Contenedores NGC: MAISI NIM
- Contenedores NGC: Operador NVIDIA NIM
- Contenedores NGC: NV-CLIP
- SDK: marco de cómputo unificado
- Seminario web: Implemente inteligencia artificial de nivel de producción a gran escala con NVIDIA AI Enterprise
NVIDIA Blog. K. L., J. L. y K. S. Traducido al español