El Portal de las Tecnologías para la Innovación

Cómo escalar un asistente de codificación de IA creado con Llama a cientos de miles de usuarios

El asistente de codificación con inteligencia artificial de Codeium ya es apreciado por cientos de miles de usuarios activos diarios, y la empresa tiene la misión de ayudar a los desarrolladores y organizaciones a soñar en grande con Codeium.

Si bien Codeium tiene muchas modalidades, su función de chat y comandos en sus extensiones de entorno de desarrollo integrado (IDE) aprovecha Llama para sus ofertas gratuitas y premium.

Los complementos IDE de Codeium tienen esta función para que los desarrolladores puedan conversar con una IA que reconoce el código y que puede abordar una amplia gama de casos de uso, incluida la documentación, las explicaciones y las pruebas unitarias. Codeium Chat puede generar funciones y aplicaciones completas y, para los desarrolladores que se sumergen en una base de código extranjera, puede explicar todo lo necesario con solo presionar un botón. Los desarrolladores también pueden chatear con el asistente para corregir un error, agregar una nueva función, refactorizar, traducir código existente o mejorar los elementos visuales. Codeium Command puede modificar el código directamente, aprovechando Llama para tomar rápidamente el contexto y escribir código para mostrar las diferencias entre líneas.

“En todas las organizaciones, escribir código es un gran obstáculo. Nuestro objetivo es ayudar a reducir los cuellos de botella en los casos de uso tanto personales como comerciales con los desarrolladores”, afirma Jeff Wang, director de negocios de Codeium. “Hemos ampliado los modelos de Llama a cientos de miles de usuarios. Además de la eficiencia de la codificación, otro gran beneficio es la reducción del tiempo de incorporación de los empleados como resultado de tener estas herramientas. Hemos tenido clientes que han tardado de tres a seis meses a tres a seis semanas en incorporar a nuevos ingenieros”.

Si bien Codeium había entrenado sus propios modelos de chat y autocompletado para los clientes, la empresa descubrió que ofrecer un modelo Llama 3.1 perfeccionado le brindaba una nueva opción de código abierto para una familia de modelos grandes de propósito general que podía controlar. Emplea múltiples variantes de instrucciones de Llama 3.1 (70B y 405B) y descubrió que funcionaban mejor en las tareas de cero disparos que interesaban al equipo y mostraban una ligera ventaja como base para el ajuste.

Integrando Llama

Codeium Chat and Command se integra en el entorno de desarrollo integrado del usuario para ofrecer estos modelos. Indexa la base de código completa para ofrecer respuestas que tienen en cuenta el contexto a través de un enfoque de razonamiento sofisticado que incorpora generación y reclasificación aumentadas por recuperación. Más adelante, Codeium lanzaría «Riptide», que utiliza un mecanismo de recuperación aún más sofisticado.

El modelo básico de Codeium Chat para usuarios gratuitos se basa en Llama 3.1 70B y, en un nivel pago, los usuarios tienen opciones de chat como Llama 3.1 405B ilimitado. Si bien Codeium implementa sus propios modelos para empresas, los clientes pueden alojarlos ellos mismos y tienen la opción de elegir estos modelos o conectarse a otros ecosistemas para el chat alojado por ellos mismos de Codeium. Para los usuarios de SaaS, los modelos de Llama ofrecen un costo de propiedad mucho menor que ejecutar una API con modelos de código cerrado.

“Hemos proporcionado con éxito modelos de Llama a miles de ingenieros utilizando una única GPU, incluso junto con otros modelos”, afirma Wang. “En nuestras implementaciones empresariales, un H100 puede dar soporte a hasta mil ingenieros, incluidos nuestros propios modelos de autocompletado en la misma instancia”.

Las conversaciones con los socios indican que la capacidad de Codeium para ofrecer Llama a gran escala es una ventaja competitiva, gracias a varias optimizaciones que el equipo ha implementado en el hardware, así como en los procesos de contexto e inferencia en todos los modelos. Los modelos de Llama para las tareas de edición de Codeium son un 90 % más rentables, tienen una latencia tres veces menor y son más precisos que cualquier modelo comparable.

Codeium Chat evolucionaría más tarde a Cascade con su nuevo IDE.

Windsurf y cascada

A fines de noviembre de 2024, Codeium lanzó Windsurf , el primer IDE verdaderamente agente y uno de los primeros productos agentes de acceso general. Cascade, el agente dentro de Windsurf, puede realizar razonamientos de varios pasos, realizar ediciones de varios archivos y, en general, tomar medidas en nombre del desarrollador. “Al aprovechar también las capacidades de conocimiento contextual profundo existentes de Codeium, Windsurf no solo puede crear aplicaciones de cero a uno, sino también realizar ediciones complejas de varios archivos en bases de código de producción, todo lo suficientemente rápido como para mantener al humano en el circuito y en estado de flujo”, dice Anshul Ramachandran, del equipo fundador. “Para lograr la latencia y la calidad que deseábamos, afinamos varios modelos basados ​​en Llama para varias tareas. Eso se convirtió en una experiencia mágica de la que todos, desde aquellos sin experiencia en codificación hasta desarrolladores experimentados, pudieron beneficiarse”.

Windsurf ha crecido hasta alcanzar cientos de miles de usuarios activos diarios en tan solo los primeros meses, lo que ha contribuido a marcar el comienzo de la era de la inteligencia artificial (IA).

Mirando hacia el futuro

El uso de un modelo de código abierto ha resultado crucial para Codeium. Muchas tareas exigen una combinación de alta calidad y baja latencia, lo que hace que sea esencial gestionar todo el conjunto de ajustes y entrega del modelo. La comunidad de código abierto ha contribuido a diferentes aspectos del conjunto de ajustes y entrega de Codeium, y la estandarización de los modelos de arquitectura de Llama ha impulsado este progreso.

“Llama ofrece un excelente modelo de generación de código listo para usar, con mucho potencial y flexibilidad para realizar ajustes adicionales”, afirma Ramachandran. “Siempre intentamos avanzar hacia donde avanza la industria y esperamos que Llama pueda seguir cerrando brechas a medida que el ecosistema de Llama sigue creciendo y tratamos de crear nuevos productos”. Meta Blog. Traducido al español

Artículos relacionados

Scroll al inicio