IBM está contribuyendo con 3 proyectos de código abierto—Docling, Data Prep Kit y BeeAI— al Fundación Linux.
Este movimiento señala no solo el crecimiento potencial de estos proyectos, sino también a los IBM compromiso continuo a la IA de código abierto.
“Continuamos nuestra larga historia de contribuir con proyectos de código abierto para garantizar que sean fáciles de consumir y que sea fácil para otros—no solo para nosotros—contribuir,” dice Brad Topol, Ingeniero Distinguido de IBM y Director de Open Technologies, en una entrevista. Topol también preside la Junta de Gobierno de la LF AI & Data Foundation, un grupo alojado bajo la Fundación Linux centrado en el avance de la innovación de código abierto a través de la inteligencia artificial y las tecnologías de datos.
Cada proyecto se centra en una parte esencial de la pila de desarrollo de IA. A medida que la industria madura, la innovación impulsada por la comunidad de desarrolladores más amplia en estas áreas es clave para preparar la empresa de IA.
Docando, que se lanzó y de código abierto hace un año, aborda un límite que muchos modelos de cimientos tienen para uso empresarial. Si bien los modelos han sido entrenados en cada fragmento de información disponible públicamente, gran parte de los datos valiosos para las empresas se encuentran en documentos que no son accesibles en línea: PDF, informes anuales, cubiertas de diapositivas.
Docling agiliza el proceso de convertir documentos no estructurados en archivos JSON y Markdown que son fáciles para modelos de idiomas grandes (LLM) y otros modelos de fundación para digerir.
Desde su lanzamiento, Docling ha ganado tracción, ganando más de 23,000 estrellas en GitHub. Cuando se combina con generación aumentada por recuperación (RAG) técnicas, Docling mejora las salidas LLM. “Docling puede hacer que los LLM respondan mucho mejor y mucho más específicos a sus necesidades,” dice Topol. Además de ganar tracción en la comunidad de código abierto, Docling ayuda a impulsar Red Hat® Enterprise Linux® AI, donde permite el control consciente del contexto y admite la nueva tubería de ingestión de datos de las plataformas.
Por supuesto, otro paso crítico en la implementación de IA es la preparación de datos. IBM Kit de Preparación de Datos, que fue lanzado en 2024, también ha ganó popularidad: ayuda a limpiar, transformar y enriquecer datos no estructurados para casos de pre-entrenamiento, ajuste fino y uso de RAG.
Data— no estructurado, como bases de datos, páginas web y archivos de audio que son más complejos de analizar y extraer información—, representa el 90% de todos los datos generados por la empresa según para IDC, los LLM pueden analizar grandes cantidades de datos no estructurados y extraer información relevante para generar y probar nuevas ideas de productos o servicios, por ejemplo, en horas en lugar de meses.
Data Prep Kit está diseñado para simplificar la preparación de datos para aplicaciones LLM—actualmente enfocado en modelos de código y lenguaje—soporte de pre-entrenamiento, ajuste fino y casos de uso RAG. Construido sobre marcos de procesamiento distribuidos familiares como Spark y Ray, brinda a los desarrolladores la flexibilidad de crear módulos personalizados que se escalan fácilmente, ya sea que se ejecuten en una computadora portátil o en todo un centro de datos.
“Solíamos decir, basura adentro, basura afuera. Definitivamente quieres que entren buenos datos, dice” Topol. “Este no es un proyecto glamoroso en comparación con algunas de las otras partes del ciclo de vida de LLM, pero es increíblemente crítico, increíblemente valioso y un imprescindible.” Data Prep Kit está comenzando a impulsar las ofertas de IBM y ahora se encuentra en IBM in TechPreview de IBM Data Integration for Unstructured Data.
Finalmente, a medida que los agentes están ganando tracción, IBM lanzó BeeAI. BeeAI puede ser utilizado por los desarrolladores para descubrir, ejecutar y componer agentes de IA desde cualquier marco, incluidos CrewAI, LangGraph y AutoGen. El proyecto incluye el Protocolo de Comunicación del Agente, que potencia la capacidad de descubrimiento e interoperabilidad del agente, y el marco BeeAI, su marco nativo para agentes de construcción en Python o TypeScript, optimizado para modelos de código abierto.
“Hay otros marcos para agentes de construcción,” dice Topol. “Pero lo bueno de BeeAI es que proporciona una plataforma donde también puede conectar agentes de esas otras tecnologías. BeeAI no solo trabaja con sus propios agentes.”
Al contribuir con estos proyectos a la Fundación Linux, IBM tiene como objetivo ampliar su alcance y atraer nuevos contribuyentes y usuarios. “Los proyectos están en un lugar maravilloso donde las personas pueden invertir sus recursos. Hace una gran diferencia,” dice Topol. “Es como una póliza de seguro. El gobierno abierto también hace que las personas se sientan mejor que si contribuyen, con el tiempo, van a ganar sus rayas a través de lo que llamamos meritocracia y ganar un papel más influyente en el proyecto. También pueden sentirse seguros de que el proyecto no hará ningún cambio drástico de licencia de código abierto que pueda impedir drásticamente el uso futuro del proyecto.”
Señalando a Kubernetes—, un sistema de orquestación de contenedores de código abierto desarrollado originalmente por Google y luego donado a la Cloud Native Computing Foundation—Topol señala cómo su adopción aumentó después de convertirse en parte de un modelo de gobierno abierto, convirtiéndolo finalmente en un estándar de la industria.
Tiene ambiciones audaces para estos proyectos.
“Un proyecto de código abierto con un ecosistema poderoso es, francamente, imparable,”, dice.
Obtenga más información sobre proyectos como Docling, Data Prep Kit y BeeAI en el Conferencia IBM TechXchange 6-9 de octubre de 2025, en Orlando, FL. Los expertos, incluidos los comprometidos y colaboradores del proyecto, estarán en el sitio para presentaciones, aprendizaje práctico y oportunidades de creación de redes, con más de 30 proyectos de código abierto exhibidos. La inscripción se abre el 4 de abril. IBM News. A. N. Traducido al español