Los grandes modelos de lenguaje (LLM) no paran de crecer, sembrando dudas respecto a sus costes, consumo energético, etc. ¿Vamos hacia una nueva era de modelos de lenguaje pequeños (SLM)? Los grandes modelos de lenguaje (LLM) comenzaron a popularizarse a raíz del lanzamiento de ChatGPT de OpenAI. De repente, todo el mundo descubrió que la inteligencia artificial (IA) no era sólo una tecnología presente en las tripas de sus móviles, altavoces inteligentes, recomendadores de servicios de streaming de vídeo y música o de ecommerce, etc., sino que cualquier podía hacer uso de ella. Esa IA generativa es posible gracias a los LLM que hay tras ella, alimentados por ingentes cantidades de datos. “Por ejemplo, Llama 3, de Meta, ya va por unos 400.000 millones de parámetros. Y van a crecer todavía más, porque se piensa que así pueden aparecer capacidades emergentes que ayudarán a mejorar la IA general”, indica Enrique Lizaso, CEO y cofundador de Multiverse Computing. Esto permite que la IA cada vez sea capaz de hacer más cosas. Pero esta evolución comporta importantes desafíos. “Los LLM de IA se han convertido en herramientas poderosas y transformadoras en prácticamente todos los campos. Sin embargo, como tecnología emergente, presentan algunos retos interesantes”, afirma David Hurtado, jefe de Innovación de Microsoft. Costes desorbitados El primer escollo es el elevado coste de entrenamiento de estos modelos. “En primer lugar, el entrenamiento de estos modelos requiere una gran inversión en recursos computacionales y datos, lo que puede ser costoso y complejo. El trabajo aquí se está centrando en hacer más eficientes los modelos para reducir los costes y consumo de recursos”, expone. “Los costes asociados a la adquisición, entrenamiento y puesta a punto de los LLM pueden ser astronómicos, ya que el entrenamiento de algunos de los principales modelos puede llegar a costar casi 200 millones de dólares, cifra que es prohibitiva para muchas empresas. A esta cifra debemos sumarle la adaptación a los requisitos o datos específicos de cada organización, así como la contratación de profesionales cualificados que puedan ejecutar el proyecto”, especifica Jan Wildeboer, EMEA evangelist de Red Hat. Además, los costes no paran de crecer. Lizaso señala que se prevé que la próxima generación de LLM alcance un coste próximo a los 1.000 millones de dólares. Esto da lugar a rondas de financiación como la que ha cerrado Elon Musk para xAI, en la que ha logrado captar 6.000 millones de dólares. Consumo energético desaforado También hay que tener en cuenta el enorme consumo energético de los data centers que mueven estos LLM, con las repercusiones que tiene esto tanto en los costes operativos como en su impacto medioambiental. “Los LLM necesitan ser reentrenados completamente cada vez que se va a añadir información, lo que supone también un alto coste de energía”, recalca el responsable de Red Hat. “En algunos países, como en Irlanda, el consumo de los data centers se ha desmadrado. Se ha visto que podrían llegar a suponer el 30% del consumo total de electricidad. Esto está haciendo que se desarrolle legislación que obliga al consumo de energía verde. Hay una presión legislativa y gubernamental para ajustar los consumos energéticos”, expone el CEO de Multiverse Computing. Las grandes empresas del sector están tomando cartas en el asunto, tal y como ya hemos contado en alguna ocasión. “Reconocemos el impacto energético de estos modelos y estamos comprometidos con su desarrollo y operación sostenibles. Por ello, invertimos en investigación para medir y reducir el uso de energía y la huella de carbono de la IA”, comenta el Innovation lead de Microsoft. Otros factores Esos son los principales desafíos a los que se enfrentan los desarrolladores de LLM, pero no son los únicos. “Otro reto interesante es la precisión de los modelos. En determinados contextos muy específicos o técnicos, un LLM puede no ser suficientemente preciso. Y no siempre se mejora con un modelo más grande. Actualmente, estamos invirtiendo muchos recursos en mejorar los procesos de entrenamiento para hacer los modelos más precisos y menos proclives a la alucinación”, detalla Hurtado. Wildeboer también hace hincapié en las dudas en torno a la transparencia de los LLM, que es uno de los grandes retos de la IA para los próximos años. “Se asemejan a una caja negra impenetrable. Su entrenamiento con miles de millones de datos sin procesar dificulta rastrear el origen de sus respuestas y la lógica detrás de ellas. Esta opacidad genera dudas sobre su fiabilidad, dificulta la explicación de sus decisiones y plantea serias preocupaciones sobre la equidad y la posible perpetuación de prejuicios en áreas sensibles como la justicia o la medicina”. En una línea similar, el responsable de Microsoft pone el acento en el reto que supone la responsabilidad. “En Microsoft tenemos una metodología muy estricta de RAI (de las siglas en inglés de Responsible AI), guiada por pilares clave como la equidad, fiabilidad, seguridad, privacidad, inclusión, transparencia y responsabilidad. Estos valores se aterrizan en guías y procedimientos para todos los empleados”, subraya. Alternativas a los LLM Pese a ello, parece poco probable que nos acerquemos al fin de la era de los LLM. Aunque las empresas tecnológicas son conscientes de dichos desafíos y saben que dificultan la implantación de esta tecnología en las empresas y el desarrollo de casos de uso, por lo que están dando respuestas. “Las opciones para resolver los retos de los LLM van en dos vías, en paralelo. Por un lado, mejorar consistentemente la eficiencia de los grandes modelos, para que sean cada vez más pequeños y baratos. La segunda es el uso de los modelos de lenguaje pequeños (Small Language Models, SLM)”, afirma Hurtado. “Los SLM son una solución tremendamente prometedora, dado que utilizan una fracción de los recursos computacionales y consumo energético de los LLM, pero con un rendimiento similar en determinadas tareas”, explica. “Ambas vías, creación de SLM y mejora de los LLM, van en paralelo y son complementarias. Todo apunta a que el futuro estará compuesto por una combinación de ambos”, añade. Así lo cree también Lizaso. “Los grandes creadores de modelos, como Meta, OpenAI o Anthropic, han visto esta tendencia. Además de sacar modelos grandes, también lanzan uno intermedio y otros más pequeño”, comenta.