Este documento detalla el uso de RAG para diseñar una solución de preguntas y respuestas para bases de conocimiento de comunicación inalámbrica y una solución de evaluación que la acompaña.
1 Desarrollo de LLM
En 2005, el uso de grandes modelos n-gram en la traducción automática marcó el comienzo de los modelos de grandes idiomas (LLM). En 2017, se introdujo la estructura de red Transformer, que redefinió el procesamiento del lenguaje natural (PNL) al incorporar un mecanismo de atención que mejoró significativamente el rendimiento del modelo en múltiples tareas. La introducción de las Representaciones de Codificadores Bidireccionales de los modelos Transformers (BERT) en 2018 y 2019 avanzó aún más el desarrollo de modelos de lenguaje pre-entrenados (PLM). BERT utiliza efectivamente la información de contexto tanto de la izquierda como de la derecha a través de un codificador bidireccional, logrando un rendimiento de vanguardia (SOTA) en múltiples tareas de PNL. RoBERta, una edición avanzada de BERT, mejora aún más el rendimiento del modelo ajustando el tamaño de los hiperparámetros y los datos de entrenamiento.
El lanzamiento de GPT-3 en 2020 marcó un hito importante en el desarrollo de LLM. GPT-3 mejora la generalización de un LLM y las capacidades de aprendizaje de pocos disparos simplemente aumentando el tamaño del modelo. Además, GPT-3 sobresale en la generación de texto, produciendo muestras de artículos de noticias que son indistinguibles de las obras humanas.
En los últimos años, los LLM se han utilizado cada vez más para tareas multimodales, como las tareas híbridas de texto + de imagen, además de las tareas convencionales de procesamiento de texto. Con el rápido avance de la tecnología, los LLM enfrentan nuevos desafíos e intereses de investigación en términos de adaptarse al conocimiento en constante cambio en las aplicaciones del mundo real a través de actualizaciones de conocimiento.
La evolución de los LLM implica innovación algorítmica y arquitectónica, así como investigación avanzada sobre capacitación, evaluación y aplicación de modelos, transición de modelos estadísticos simples a modelos complejos de redes neuronales y grandes modelos preentrenados. Se espera que los LLM avancen hacia una mayor explicabilidad, una mayor eficiencia y una integración y procesamiento óptimos de múltiples tipos de datos.
2 Tecnologías LLM esenciales en la Gestión del Conocimiento
Los LLM han demostrado un gran potencial en el campo de la gestión del conocimiento debido a sus capacidades avanzadas. Sin embargo, también se enfrentan a varios desafíos importantes. Primero, están capacitados utilizando datos de propósito general de Internet para maximizar la accesibilidad y la aplicabilidad. Esta falta de datos profesionales en el proceso de capacitación conduce a un rendimiento de LLM subóptimo en los campos profesionales. En segundo lugar, los LLM a menudo generan respuestas aparentemente convincentes pero inexactas, conocidas como alucinaciones.
Para abordar estos desafíos, la industria ha desarrollado dos soluciones comunes: afinar y recuperar la generación aumentada (RAG).
2.1 Ajuste Fino
El ajuste fino es una tecnología de aprendizaje automático que implica el uso de un pequeño volumen de datos específicos de la tarea para volver a capacitar a un LLM pre-entrenado para un escenario de aplicación nuevo o específico. Este proceso implica agregar una o más capas de salida al modelo preentrenado y usar un conjunto de datos diseñado para que la tarea vuelva a entrenar el modelo, lo que le permite comprender y ejecutar mejor la tarea específica. El ajuste fino aprovecha el conocimiento general aprendido por el modelo pre-entrenado como punto de partida, eliminando la necesidad de entrenar un modelo desde cero, lo que puede ser computacionalmente costoso y lento. BERT es un excelente ejemplo de ajuste fino. Primero está preentrenado en una gran cantidad de datos de texto y luego se ajusta para tareas específicas de PNL, lo que resulta en mejoras significativas en el rendimiento.
2.2 TRAPO
RAG es un enfoque innovador que combina la memoria parametrizada pre-entrenada, como los LLM, con la memoria no parametrizada, como los índices vectoriales densos de Wikipedia. Recupera dinámicamente información de recursos de conocimiento externos en tareas de generación de lenguaje, mejorando la precisión, diversidad y factualidad del contenido generado. Un modelo RAG típico incluye un LLM como memoria parametrizada y un retriever que accede a memoria no parametrizada, como índices vectoriales densos.
2.3 Ventajas y Desventajas de RAG y Fine-Tuning
Comparamos el RAG y el ajuste de seis dimensiones: datos dinámicos, conocimiento externo, personalización de modelos, reducción de alucinaciones, transparencia y experiencia técnica.
Tabla 1 Ventajas y desventajas del RAG y el ajuste fino

Debido a que RAG demuestra un rendimiento superior en cinco dimensiones, utilizamos RAG en LLM para mejorar el rendimiento de la gestión del conocimiento de comunicación inalámbrica.
3 Solución
3.1 Diseño de Soluciones de Preguntas y Respuestas para Bases de Conocimiento de Comunicación Inalámbrica
La solución comprende dos partes: construcción fuera de línea de bases de conocimiento de comunicación inalámbrica y preguntas y respuestas en línea (Q&A).
3.1.1 Construcción Offline de Bases de Conocimiento de Comunicación Inalámbrica
La Figura 1 ilustra el proceso de construcción fuera de línea de bases de conocimiento de comunicación inalámbrica. Inicialmente, los usuarios cargan diferentes tipos de documentos, como archivos de código y protocolos 3GPP. Estos documentos cargados se someten a análisis, limpieza y corte y se envían al LLM para generar pares de preguntas y respuestas para cada corte, lo cual es opcional. Los índices vectoriales y los índices de palabras clave se crean para los pares de preguntas y respuestas y los datos de corte sin procesar, y se almacenan en una base de datos vectorial y una base de datos común, respectivamente. La creación de índices vectoriales implica un modelo de incrustación.
3.1.2 Preguntas y respuestas en línea
La Figura 1 también ilustra el proceso de preguntas y respuestas en línea. Un usuario introduce una pregunta, y el LLM reconoce la intención del usuario, que es opcional. Según la intención, el LLM selecciona bases de datos de conocimiento de comunicación inalámbrica relevantes o un proceso de manejo. Luego, se realiza la recuperación híbrida para recordar los primeros segmentos de conocimiento K que son más
Figura 1 Diagrama del uso de LLM en la gestión del conocimiento de la comunicación inalámbrica
relevante para la pregunta de las bases de datos seleccionadas. Estos segmentos de conocimiento se clasifican utilizando un modelo de re-clasificación basado en la pregunta para obtener los segmentos de conocimiento N más relevantes. Los segmentos de conocimiento de preguntas y N se organizan de acuerdo con una plantilla de solicitud y se envían al LLM. El LLM proporciona una respuesta basada en los segmentos de entrada y conocimiento relevantes que se encuentran en las bases de datos de conocimiento de comunicación inalámbrica.
3.1.2.1 Recuperación Híbrida
La recuperación híbrida implica la recuperación semántica y la recuperación de palabras clave. En la recuperación semántica, se utiliza un modelo de incrustación para vectorizar la pregunta del usuario, hacer coincidir los vectores de la pregunta con los de la base de datos vectorial y recordar K segmentos de conocimiento con semántica similar. La recuperación de palabras clave implica buscar información de bases de datos basadas en palabras clave.
La recuperación semántica admite texto con semántica compleja y tiene las siguientes ventajas:
- Comprensión multilingüe: El contenido en inglés se puede recuperar en función de la información china.
- Comprensión multimodal: La información se puede recuperar para varios tipos de entrada, como texto, imagen, audio y video.
- Tolerancia avanzada a fallas: Los errores ortográficos y las descripciones ambiguas son aceptables.
A pesar de estas ventajas, la recuperación semántica puede ofrecer un rendimiento subóptimo en ciertos escenarios, por ejemplo:
- Buscando una persona o elemento por su nombre. Por ejemplo, el resultado de recuperación semántica de la entrada «Huawei Mate 60» puede incluir información sobre Mate 50.
- Buscando una abreviatura o frase corta, por ejemplo, «LLM».
En estos escenarios, el enfoque convencional de búsqueda de palabras clave ofrece las siguientes ventajas:
- Coincidencia exacta: Los nombres de productos y nombres de personas se pueden combinar con precisión.
- Búsqueda eficiente de palabras cortas: La información se puede buscar rápidamente en función de algunas palabras clave. Sin embargo, el rendimiento de la recuperación de vectores no es satisfactorio en el caso de solo unas pocas palabras clave.
- Capaz de hacer coincidir palabras que se usan con menos frecuencia: Tales palabras a menudo transmiten información más significativa. Por ejemplo, en la frase «¿Quieres tomar una taza de café conmigo?», las palabras «tener» y «café» ofrecen más información que las palabras «hacer», «usted», o «con».
La recuperación híbrida integra las ventajas únicas de la recuperación vectorial y la recuperación de palabras clave para buscar la información más relevante, que es un objetivo importante en todos los escenarios de búsqueda de texto.
3.1.2.2 Ranking
La recuperación híbrida integra múltiples tecnologías de recuperación para mejorar la tasa de recuperación de los resultados de búsqueda. Utiliza una política de normalización de datos para procesar de manera eficiente los resultados de diferentes tecnologías de recuperación. La política convierte los datos en un paradigma o distribución estándar, que puede ser rápidamente comparado, analizado y procesado por el LLM. Un ingrediente crucial para el proceso de conversión es un sistema de puntuación — un modelo de re-rank.
Un modelo de re-clasificación reorganiza el resultado de recuperación midiendo la relevancia entre los documentos en la lista de documentos candidatos y la semántica de la consulta del usuario. La relevancia se evalúa en función de la puntuación de relevancia de cada documento candidato. Todos los elementos se clasifican en orden descendente de la puntuación.
Esta técnica también se puede implementar después de la recuperación de palabras clave en un sistema de recuperación no híbrido para mejorar significativamente la tasa de recuperación. Un modelo de re-clasificación también puede beneficiar a las bases de datos vectoriales, que a menudo intercambian la precisión de recuperación por la eficiencia computacional, lo que lleva a incertidumbres en el resultado de la recuperación. Tales incertidumbres pueden alterar el orden de clasificación (orden descendente por relevancia), lo que significa que los segmentos K superiores en el resultado de recuperación original pueden no ser los más relevantes. En este escenario, se puede usar un modelo de re-clasificación para reorganizar el resultado de recuperación.
Reranking no es una tecnología de recuperación, sino una mejora de los sistemas de recuperación. Con su simplicidad y baja complejidad, integra correlaciones semánticas en los sistemas de búsqueda sin requerir ningún cambio importante en la infraestructura.
3.2 Modelo de Evaluación Combinada
Como se muestra en la Figura 1, utilizamos tres tipos de modelos en nuestro diseño: LLM, modelo de incrustación y modelo de re-clasificación. Los modelos de código abierto se implementaron localmente y se utilizaron documentos locales para construir bases de conocimiento de comunicación inalámbrica.
3.2.1 Selección de Modelo
3.2.1.1 LLM
Seleccionamos Llama-3-70b-Instruct, Command R+ y Qwen1.5-110B-Chat de la tabla de clasificación de LLM «LMSYS Chatbot Arena». Estos modelos son compatibles tanto con Chino como con Inglés.
3.2.1.2 Modelo de Incrustación
La recuperación es un indicador importante para seleccionar un modelo de incrustación, de acuerdo con la tabla de clasificación del modelo de incrustación «Massive Text Embedding Benchmark (MTEB) Leaderboard».
Seleccionamos 360Zhinao-search, stella-mrl-large-zh-v3.5- 1792d, PEG y bce-embedding-base_v1 para Chinese y SFR-Embedding-Mistral, gte-large-en-v1.5, GritLM-7B y bce-embedding-base_v1 para English.
3.2.1.3 Modelo de Rerank
Seleccionamos bge-reranker-v2-gemma y bce-reranker-base_v1 haciendo referencia a. Estos modelos son compatibles con el Chino y el Inglés.
3.2.1.4 Modelo Combinación
Para seleccionar una combinación óptima de modelos Chino e Inglés, evaluamos los modelos seleccionados en términos de Chino e Inglés: tres LLM candidatos, cuatro modelos de incorporación de candidatos y dos modelos de clasificación de candidatos para cada idioma. Los candidatos formaron 24 combinaciones posibles para cada idioma. Utilizamos vLLM para ejecutar el LLM y Xinference para ejecutar los modelos de incrustación y re-clasificación.
3.2.2 Método de Evaluación
Creamos un conjunto de datos chino zh_refine.json y un conjunto de datos en inglés en_refine.json basado en el proyecto de código abierto RGB. La figura 2 muestra el formato de datos.
Figura 2 Formato de conjunto de datos sin procesar
id indica el ID de datos, la consulta indica la pregunta correspondiente a los datos, la respuesta indica la respuesta, positivo indica el texto relevante para la pregunta y negativo indica texto irrelevante para la pregunta (interferencia). Los textos positivos y negativos de 300 registros de datos chinos se almacenan en el mismo archivo, que el modelo de incrustación envía a la base de datos vectorial para crear una base de conocimiento china. Utilizamos el mismo enfoque para crear una base de conocimiento en inglés. La base de datos vectorial se crea en base a la base de datos vectorial de código abierto Chroma.
El marco de evaluación es Ragas, que requiere el formato de datos en la Figura 3.
Figura 3 Formato de datos requerido por Ragas
la pregunta indica la pregunta, y ground_truths indica la respuesta correcta. Los valores de estos campos se pueden obtener de zh_refine.json o en_refine.json. El LLM genera los valores de respuesta y contextos de acuerdo con la plantilla de solicitud que diseñamos, como se muestra en la Figura 4.
Figura 4 Plantilla rápida
Evaluamos los conjuntos de datos creados y las combinaciones de modelos Chino e Inglés.
3.2.3 Resultados de la Evaluación
Los indicadores de evaluación son fidelidad, respond_relevancy, context_precision y context_recall. Para obtener detalles sobre cada indicador, consulte.
3.2.3.1 Combinaciones de Modelos Chinos
La puntuación total de cada una de las 24 combinaciones de modelos chinos es igual a la suma de las puntuaciones de fidelidad, respuesta_ relevancia, contexto_precisión y contexto_recall.
En la Figura 5, la coordenada horizontal indica el nombre de cada combinación de modelos, en el formato de zh_x _y _z . x indica el LLM (0: Comando R+, 1: Llama-3-70b-Instruct, 2: Qwen1.5-110B-Chat). y indica el modelo de incrustación (0: stella-mrl-large-zh-v3.5-1792d, 1: bce-embedding-base_v1, 2: 360Zhinao-search, 3: PEG). z indica el modelo de re-rank (0: bce-reranker-base_v1, 1: bge-reranker-v2-gemma).

La combinación óptima de modelos chinos implementada para escenarios chinos es Command R+, stella-mrl-large-zh-v3.5- 1792d y bge-reranker-v2-gemma.
3.2.3.2 Combinaciones de Modelos en Inglés
La puntuación total de cada una de las 24 combinaciones de modelos en inglés es igual a la suma de las puntuaciones de fidelidad, repliegue_ relevancia, context_precision y context_recall.
En la Figura 6, la coordenada horizontal indica el nombre de cada combinación de modelos, en el formato de en_x _y _z . x indica el LLM (0: Comando R+, 1: Llama-3-70b-Instruct, 2: Qwen1.5-110B-Chat). y indica el modelo de incrustación (0: SFR-Embedding-Mistral, 1: bce-embedding-base_v1, 2: gte-large-en-v1.5, 3: GritLM-7B. z indica el modelo de re-rank (0: bce-reranker-base_v1, 1: bge-reranker-v2-gemma).
La combinación óptima de modelos en inglés implementada para escenarios en inglés es Llama-3-70b-Instruct, SFR-Embedding- Mistral y bce-reranker-base_v1.
3.3 Resultados de la implementación
Utilizamos Dify como el marco de la capa inferior para implementar la solución Q&A para bases de conocimiento de comunicación inalámbrica. Empleamos las combinaciones de modelos óptimos seleccionados para crear bases de conocimiento de comunicaciones inalámbricas basadas en documentos de Huawei. Los procesos RAG están integrados en flujos de trabajo, que forman el software de aplicación LLM.
Figura 7 Implementación de la solución Q&A para bases de conocimiento de comunicación inalámbrica
El clasificador de preguntas es responsable del reconocimiento de intenciones. Si la pregunta se refiere a 5G, el software de aplicación LLM realiza RAG hasta que se genera una respuesta. Si la pregunta no está relacionada con las comunicaciones inalámbricas, el software se niega cortésmente a responder.
3.3.1 Preguntas Relacionadas con las Comunicaciones Inalámbricas
En la Figura 8, el usuario hace una pregunta acerca de las comunicaciones inalámbricas. El software de aplicación LLM realiza RAG para generar una respuesta y proporcionar documentos de referencia.
3.3.2 Preguntas no relacionadas con las Comunicaciones Inalámbricas
En la Figura 9, el software de aplicación LLM se niega cortésmente a responder cualquier pregunta no relacionada con las comunicaciones inalámbricas.
Figura 8 Pregunta relacionada con las comunicaciones inalámbricas respondida por la aplicación LLM
Figura 9 Pregunta no relacionada respondida por la aplicación LLM
4 Perspectivas
Aunque la integración de RAG con LLM y bases de datos reduce significativamente las alucinaciones en el contenido generado, RAG todavía enfrenta muchos desafíos. Esta sección describe estos desafíos y los futuros intereses de investigación de RAG.
- Procesamiento de datos multimodal
- Numerosos componentes RAG e hiperparámetros
- Integración con las bases de conocimiento y los motores de búsqueda de las empresas
- Falta de atributos de tiempo
- Ajuste fino del modelo de incrustación y el modelo de re-clasificación basado en datos en áreas profesionales
5 Conclusión
En los últimos años, el desarrollo de LLM ha llevado a una innovación significativa en el campo de la gestión del conocimiento. En este documento, hemos esbozado los desafíos y esquemas técnicos involucrados en la gestión del conocimiento, incluido el ajuste fino y RAG. Utilizamos la tecnología RAG para crear una solución de gestión del conocimiento. Evaluamos diferentes modelos LLM, modelos de incrustación y modelos de re-clasificación para seleccionar las combinaciones óptimas para implementar una aplicación LLM que logre Q&A para bases de conocimiento de comunicación inalámbrica a través de muchas herramientas de código abierto. Nuestras combinaciones de modelos lograron reducciones significativas en las alucinaciones a través de la integración basada en RAG con bases de datos. Sin embargo, la tecnología RAG aún enfrenta desafíos en aplicaciones del mundo real, como el procesamiento de datos multimodales, la selección de hiperparámetros complejose integración de bases de conocimiento empresarial con motores de búsqueda.
Nuestro trabajo demuestra el potencial de la tecnología RAG en la gestión del conocimiento de la comunicación inalámbrica y sienta las bases para mejorar el rendimiento de las aplicaciones LLM en este campo. Huawei News. Traducido al español