Los grandes modelos de lenguaje (LLM) no paran de crecer, sembrando dudas respecto a sus costes, consumo energético, etc. ¿Vamos hacia una nueva era de modelos de lenguaje pequeños (SLM)?
Los grandes modelos de lenguaje (LLM) comenzaron a popularizarse a raíz del lanzamiento de ChatGPT de OpenAI.
De repente, todo el mundo descubrió que la inteligencia artificial (IA) no era sólo una tecnología presente en las tripas de sus móviles, altavoces inteligentes, recomendadores de servicios de streaming de vídeo y música o de ecommerce, etc., sino que cualquier podía hacer uso de ella.
Esa IA generativa es posible gracias a los LLM que hay tras ella, alimentados por ingentes cantidades de datos. “Por ejemplo, Llama 3, de Meta, ya va por unos 400.000 millones de parámetros. Y van a crecer todavía más, porque se piensa que así pueden aparecer capacidades emergentes que ayudarán a mejorar la IA general”, indica Enrique Lizaso, CEO y cofundador de Multiverse Computing.
Esto permite que la IA cada vez sea capaz de hacer más cosas. Pero esta evolución comporta importantes desafíos. “Los LLM de IA se han convertido en herramientas poderosas y transformadoras en prácticamente todos los campos. Sin embargo, como tecnología emergente, presentan algunos retos interesantes”, afirma David Hurtado, jefe de Innovación de Microsoft.
Costes desorbitados
El primer escollo es el elevado coste de entrenamiento de estos modelos. “En primer lugar, el entrenamiento de estos modelos requiere una gran inversión en recursos computacionales y datos, lo que puede ser costoso y complejo. El trabajo aquí se está centrando en hacer más eficientes los modelos para reducir los costes y consumo de recursos”, expone.
“Los costes asociados a la adquisición, entrenamiento y puesta a punto de los LLM pueden ser astronómicos, ya que el entrenamiento de algunos de los principales modelos puede llegar a costar casi 200 millones de dólares, cifra que es prohibitiva para muchas empresas. A esta cifra debemos sumarle la adaptación a los requisitos o datos específicos de cada organización, así como la contratación de profesionales cualificados que puedan ejecutar el proyecto”, especifica Jan Wildeboer, EMEA evangelist de Red Hat.
Además, los costes no paran de crecer. Lizaso señala que se prevé que la próxima generación de LLM alcance un coste próximo a los 1.000 millones de dólares.
Esto da lugar a rondas de financiación como la que ha cerrado Elon Musk para xAI, en la que ha logrado captar 6.000 millones de dólares.
Consumo energético desaforado
También hay que tener en cuenta el enorme consumo energético de los data centers que mueven estos LLM, con las repercusiones que tiene esto tanto en los costes operativos como en su impacto medioambiental.
“Los LLM necesitan ser reentrenados completamente cada vez que se va a añadir información, lo que supone también un alto coste de energía”, recalca el responsable de Red Hat.
“En algunos países, como en Irlanda, el consumo de los data centers se ha desmadrado. Se ha visto que podrían llegar a suponer el 30% del consumo total de electricidad. Esto está haciendo que se desarrolle legislación que obliga al consumo de energía verde. Hay una presión legislativa y gubernamental para ajustar los consumos energéticos”, expone el CEO de Multiverse Computing.
Las grandes empresas del sector están tomando cartas en el asunto, tal y como ya hemos contado en alguna ocasión. “Reconocemos el impacto energético de estos modelos y estamos comprometidos con su desarrollo y operación sostenibles. Por ello, invertimos en investigación para medir y reducir el uso de energía y la huella de carbono de la IA”, comenta el Innovation lead de Microsoft.
Otros factores
Esos son los principales desafíos a los que se enfrentan los desarrolladores de LLM, pero no son los únicos. “Otro reto interesante es la precisión de los modelos. En determinados contextos muy específicos o técnicos, un LLM puede no ser suficientemente preciso. Y no siempre se mejora con un modelo más grande. Actualmente, estamos invirtiendo muchos recursos en mejorar los procesos de entrenamiento para hacer los modelos más precisos y menos proclives a la alucinación”, detalla Hurtado.
Wildeboer también hace hincapié en las dudas en torno a la transparencia de los LLM, que es uno de los grandes retos de la IA para los próximos años. “Se asemejan a una caja negra impenetrable. Su entrenamiento con miles de millones de datos sin procesar dificulta rastrear el origen de sus respuestas y la lógica detrás de ellas. Esta opacidad genera dudas sobre su fiabilidad, dificulta la explicación de sus decisiones y plantea serias preocupaciones sobre la equidad y la posible perpetuación de prejuicios en áreas sensibles como la justicia o la medicina”.
En una línea similar, el responsable de Microsoft pone el acento en el reto que supone la responsabilidad. “En Microsoft tenemos una metodología muy estricta de RAI (de las siglas en inglés de Responsible AI), guiada por pilares clave como la equidad, fiabilidad, seguridad, privacidad, inclusión, transparencia y responsabilidad. Estos valores se aterrizan en guías y procedimientos para todos los empleados”, subraya.
Alternativas a los LLM
Pese a ello, parece poco probable que nos acerquemos al fin de la era de los LLM. Aunque las empresas tecnológicas son conscientes de dichos desafíos y saben que dificultan la implantación de esta tecnología en las empresas y el desarrollo de casos de uso, por lo que están dando respuestas.
“Las opciones para resolver los retos de los LLM van en dos vías, en paralelo. Por un lado, mejorar consistentemente la eficiencia de los grandes modelos, para que sean cada vez más pequeños y baratos. La segunda es el uso de los modelos de lenguaje pequeños (Small Language Models, SLM)”, afirma Hurtado.
“Los SLM son una solución tremendamente prometedora, dado que utilizan una fracción de los recursos computacionales y consumo energético de los LLM, pero con un rendimiento similar en determinadas tareas”, explica.
“Ambas vías, creación de SLM y mejora de los LLM, van en paralelo y son complementarias. Todo apunta a que el futuro estará compuesto por una combinación de ambos”, añade.
Así lo cree también Lizaso. “Los grandes creadores de modelos, como Meta, OpenAI o Anthropic, han visto esta tendencia. Además de sacar modelos grandes, también lanzan uno intermedio y otros más pequeño”, comenta.
¿Qué están haciendo las tecnológicas?
Siguiendo esta tendencia, Microsoft ha desarrollado Phi-3, “una familia de modelos de lenguaje pequeño que reimagina lo que es posible con este tipo de modelos”, declara Hurtado.
“Phi-3 ha sido diseñado para ser muy eficiente y adaptable, y ofrece un rendimiento excepcional. Phi-3-mini, con 3.800 millones de parámetros, ha demostrado ser muy eficaz en tareas de generación y comprensión de lenguaje, superando a modelos de mayor tamaño. Este modelo es ideal para aplicaciones que requieren respuestas rápidas y precisas en ámbitos concretos, como chatbots de atención al cliente, sistemas de recomendación y asistentes virtuales”, expone.
“Además, Phi-3 ha sido optimizado para funcionar en una amplia gama de dispositivos, desde servidores en la nube hasta dispositivos móviles. Por ejemplo, cuenta con capacidad para operar en un iPhone 15 con un procesador A16 Bionic, logrando una gran fluidez. Esto abre nuevas posibilidades para aplicaciones móviles que requieren procesamiento de lenguaje natural sin depender de la conectividad constante a la nube”, argumenta.
“Otra ventaja clave es la flexibilidad de implementación. Phi-3 puede ser desplegado en la nube, en el edge o en dispositivos locales, lo que permite a las organizaciones elegir la mejor opción según sus necesidades específicas. Esta flexibilidad es especialmente valiosa en entornos donde la privacidad de los datos y la latencia son críticas, como en aplicaciones de salud y finanzas”, agrega.
Finalmente, anota que esta familia de modelos destaca por su capacidad de personalización. “Se ofrecen como modelos abiertos que pueden ser ajustados y afinados con datos específicos del dominio, para mejorar su precisión y relevancia en contextos particulares. Esto permite a las organizaciones adaptar Phi-3 a sus necesidades específicas sin necesidad de grandes inversiones”.
Otra alternativa a los LLM es el enfoque de la IA de Enjambre, basado en el uso de muchos modelos pequeños, entrenados para tareas específicas. “Este enfoque innovador apuesta por la colaboración entre múltiples modelos pequeños, cada uno especializado en una tarea específica. Estos modelos, ya sean desarrollados por la empresa o adquiridos a terceros, se integran en un meta-nivel que actúa como un director de orquesta, coordinando y combinando sus capacidades. De esta manera, se crea una IA modular y versátil, capaz de abordar una gama más amplia de desafíos con mayor precisión y eficiencia”, aclara el responsable de Red Hat.
“Al recibir una consulta, el meta-nivel selecciona estratégicamente qué modelo o combinación de modelos está mejor equipado para proporcionar la respuesta más precisa y relevante. Nosotros vemos que estos modelos más pequeños son más ágiles y flexibles, y que tienen más posibilidades de cumplir con las expectativas de las empresas y con las regulaciones”, valora.
Además, señala que su compañía ha lanzado Red Hat Enterprise Linux AI (RHEL AI), “plataforma de modelos fundacionales que permite a los usuarios desarrollar, probar y ejecutar de manera eficiente modelos de IA generativa para potenciar las aplicaciones empresariales”.
“En RHEL AI unimos a Granite, que es la familia de LLM, con licencia de código abierto, y las herramientas de alineación de modelos InstructLab, basadas en la metodología de Alineación a gran escala para chatbots (LAB). Todo ello, lo hemos empaquetado como una imagen RHEL optimizada y lista para arrancar para despliegues en servidores individuales en la nube híbrida”, especifica.
Y con la vista puesta en el futuro, considera que “los modelos de IA más pequeños, eficientes y creados a medida formarán una mezcla sustancial del stack de TI empresarial, junto con las aplicaciones nativas de la nube”. “Esta infraestructura permitirá a las empresas tener acceso a la IA y desarrollar aplicaciones que se ajusten a las necesidades de sus negocios”, vaticina.
Por su parte, Lizaso explica que Multiverse Computing está apostando por otra solución. “Estos modelos se pueden comprimir muchísimo, siempre y cuando lo hagas de una manera inteligente, sabiendo qué estás eliminando. Nosotros cogemos un modelo grande y lo comprimimos hasta donde se pueda, sin perder capacidades. Como es más pequeño, tiene los costes de un modelo pequeño. Da a las empresas las prestaciones del modelo grande, pero al precio de los pequeños”, recalca.
Asegura que su tecnología es capaz de llevar esta compresión hasta el 70%, con una pérdida de precisión de entre el 2% y 4%. No obstante, en caso de utilizarse para su aplicación en procedimientos internos de una empresa, puede hacerse un ‘sanado’ mediante un reentrenamiento corto muy específico. Asimismo, la utilización de bases de datos propias de la compañía hace que estos modelos sean muy precisos en el ámbito en el que se han de desenvolver.
Múltiples ventajas frente a los LLM…
El responsable de Microsoft indica que los SLM presentan dos ventajas frente a los LLM. “La primera y más destacable es su menor coste de entrenamiento y operación. Esto permite dos cosas. Por un lado, es más accesible para cualquier organización crear o modificar su propio modelo de lenguaje. La creación de un SLM no requiere los recursos de económicos y de computación que tiene un LLM. Por otro lado, un SLM es más fácil de utilizar e integrar en las herramientas comunes de la empresa. Los SLM suponen la democratización en la creación y uso de los modelos de lenguaje. La segunda ventaja es respecto a la ejecución fuera de la nube. Un SLM se puede ejecutar en un teléfono móvil o en un ordenador común. Esto elimina dependencias de comunicaciones y reduce enormemente los costes de uso”, puntualiza.
En esta misma línea, el CEO de Multiverse Computing explica que la gran ventaja de sus soluciones es que permiten disfrutar de los mismos beneficios que aportan los LLM en todo tipo de devices, como teléfonos móviles, televisores, etc., pero también en otros elementos, como en coches, por ejemplo, ya que pueden funcionar sin un hardware muy potente y, sobre todo, sin conexión a internet.
Como muestra, indica que estos modelos comprimidos pueden utilizarse para manejar diversas funciones de un vehículo, sin necesidad de botones o pantallas táctiles, usando la voz, abaratando los costes de producción al prescindir de estos elementos. Pero para ello es fundamentar contar con modelos que no requieran conexión con la nube. “El modelo no se te puede quedar colgado porque entras en un túnel”, advierte.
De igual modo, estas soluciones tienen aplicación en el ámbito militar, donde no se puede depender de una conexión a internet, tanto por posibles problemas de conectividad como por seguridad.
Asimismo, la seguridad de un modelo no conectado a internet también es muy importante en entornos como el de la salud, donde hay que salvaguardar a toda costa la privacidad de información confidencial y muy delicada.
Además, Wildeboer reseña que estos modelos más pequeños “no se mantienen estáticos después de su entrenamiento inicial”. “Pueden aprender y actualizarse continuamente con nuevos datos, sin necesidad de un reentrenamiento completo y costoso. Esta flexibilidad se traduce en tiempos de entrenamiento significativamente más rápidos”. Igualmente, anota que “se trata de modelos que promueven la transparencia, trazabilidad y confiabilidad, características muy relevantes para la Unión Europea, que es pionera en la regulación tecnológica”.
Además, insiste en que “la simplicidad de los modelos pequeños democratiza el acceso a la IA”. Asimismo, destaca que “su facilidad de entrenamiento, optimización y despliegue permite a las empresas, incluso con recursos limitados, experimentar y desarrollar soluciones a medida, superando la barrera de la escasez de especialistas en IA y la complejidad asociada a los grandes modelos lingüísticos”.
…Y algunos inconvenientes
Pese a estas ventajas frente a los LLM, los SLM también presentan una serie de inconvenientes.
“Aunque los SLM son eficientes y muy adaptables, los LLM siguen siendo superiores en ciertas áreas. Se ha logrado que los modelos pequeños igualen a los grandes en determinadas tareas muy específicas, pero los LLM tienen una mayor capacidad de procesamiento y comprensión del lenguaje, lo que los hace más adecuados para tareas complejas que requieren un razonamiento profundo y/o tratamiento de medianos/grandes volúmenes de datos. En este sentido, en los entornos que requieran tareas complejas o gran nivel de precisión, los LLM seguirán siendo la solución”, pronostica Hurtado.
“Por otro lado, una solución fuera de la nube, desplegada en un dispositivo, requerirá actualizaciones periódicas. Ésta es una de las ventajas de la nube, la actualización automática e invisible al usuario. Y dada la velocidad a la que está avanzando la IA en estos tiempos, las actualizaciones son constantes”, reconoce.
Y el responsable de Red Hat opina que su aceptación también podría suponer un problema. “¿Explorarán esta oportunidad suficientes personas, empresas y proyectos? Creemos que las ventajas son convincentes y ya estamos viendo una sólida tracción en algunas áreas importantes. La clave es hacer crecer este movimiento”, concluye. NetMedia. Internacional. España. D. R.