Los modelos de IA “abiertos” tienen mucho que ofrecer. La práctica de compartir el código fuente con el público estimula la innovación y democratiza la IA como herramienta.
O al menos eso es lo que dice la historia. Un nuevo análisis en Nature le da un giro a la narrativa: la mayoría de los modelos de IA supuestamente “abiertos”, como Llama 3 de Meta, no lo son.
En lugar de alentar o beneficiar a las pequeñas empresas emergentes, la “retórica de la apertura se utiliza con frecuencia de maneras que… exacerban la concentración de poder” en las grandes empresas tecnológicas, escribieron David Widder en la Universidad de Cornell, Meredith Whittaker en la Signal Foundation y Sarah West en el AI Now Institute .
¿Por qué preocuparse? Debatir sobre la apertura de la IA parece puramente académico, pero con el creciente uso de ChatGPT y otros modelos de lenguaje de gran tamaño, los responsables de las políticas se están esforzando por ponerse al día. ¿Se pueden permitir los modelos en las escuelas o las empresas? ¿Qué pautas deberían establecerse para protegerse contra el uso indebido?
Y quizás lo más importante es que la mayoría de los modelos de IA están controlados por Google, Meta y otros gigantes tecnológicos, que tienen la infraestructura y los medios financieros para desarrollar o licenciar la tecnología y, a su vez, guiar la evolución de la IA para satisfacer sus incentivos financieros.
Los legisladores de todo el mundo han tomado nota. Este año, la Unión Europea adoptó la Ley de IA , la primera legislación integral del mundo para garantizar que los sistemas de IA utilizados sean “seguros, transparentes, no discriminatorios y respetuosos con el medio ambiente”. En septiembre, había más de 120 proyectos de ley sobre IA en el Congreso, que abogaban por la privacidad, la rendición de cuentas y la transparencia.
En teoría, los modelos de IA abiertos pueden satisfacer esas necesidades, pero “cuando se formulan políticas, las definiciones importan”, escribió el equipo.
En el nuevo análisis, desglosaron el concepto de “apertura” en los modelos de IA a lo largo de todo el ciclo de desarrollo y señalaron cómo el término puede usarse incorrectamente.
¿Qué es, en definitiva, la «apertura»?
El término “código abierto” es casi tan antiguo como el software mismo.
A principios de siglo, pequeños grupos de rebeldes informáticos publicaron un código para software libre que cualquiera podía descargar y utilizar desafiando el control corporativo. Tenían una visión: el software de código abierto, como los procesadores de textos de libre acceso similares al de Microsoft, podía nivelar el campo de juego para los más pequeños y permitir el acceso a la tecnología a quienes no podían permitirse el lujo de adquirirla. El código también se convirtió en un patio de recreo, donde los entusiastas ingenieros de software trasteaban con el código para descubrir fallos que necesitaban ser corregidos, lo que daba como resultado un software más utilizable y seguro.
Con la IA, la historia es diferente. Los modelos de lenguaje de gran tamaño se construyen con numerosas capas de “neuronas” artificiales interconectadas. Al igual que sus contrapartes biológicas, la estructura de esas conexiones influye en gran medida en el desempeño de un modelo en una tarea específica.
Los modelos se entrenan buscando en Internet texto, imágenes y, cada vez más, vídeos. A medida que estos datos de entrenamiento fluyen a través de sus redes neuronales, ajustan las fortalezas de las conexiones de sus neuronas artificiales (denominadas «pesos») para que generen los resultados deseados. La mayoría de los sistemas son evaluados por personas para juzgar la precisión y la calidad de los resultados.
¿El problema? Comprender los procesos internos de estos sistemas no es sencillo. A diferencia del software tradicional, compartir solo los pesos y el código de un modelo de IA, sin los datos de entrenamiento subyacentes, dificulta que otras personas detecten posibles errores o amenazas a la seguridad.
Esto significa que conceptos anteriores del software de código abierto se están aplicando de “formas inadecuadas para los sistemas de IA”, escribió el equipo, lo que genera confusión sobre el término.
Lavado abierto
Los modelos actuales de IA “abiertos” abarcan un rango de apertura, pero en general tienen tres características principales.
Una de ellas es la transparencia, o la cantidad de detalles que publica su creador sobre la configuración de un modelo de IA. La serie Pythia de Eleuther AI , por ejemplo, permite a cualquiera descargar el código fuente, los datos de entrenamiento subyacentes y la documentación completa. También licencian el modelo de IA para una amplia reutilización, cumpliendo con la definición de «código abierto» de la Open Source Initiative , una organización sin fines de lucro que ha definido el término a medida que ha evolucionado durante casi tres décadas. Por el contrario, Llama 3 de Meta, aunque se describe como abierto, solo permite a las personas desarrollar su IA a través de una API (una especie de interfaz que permite que diferentes programas se comuniquen, sin compartir el código subyacente) o descargar solo los pesos del modelo para modificarlo, pero con restricciones en su uso.
“Se trata de un ‘ lavado abierto ’ de sistemas que se entienden mejor como cerrados”, escribieron los autores.
Una segunda característica es la reutilización, en el sentido de que los datos y detalles de un modelo de IA con licencia abierta pueden ser utilizados por otras personas (aunque a menudo solo a través de un servicio en la nube; hablaremos más sobre esto más adelante). La tercera característica, la extensibilidad, permite a las personas ajustar los modelos existentes a sus necesidades específicas.
“[Esta] es una característica clave defendida particularmente por actores corporativos que invierten en IA abierta”, escribió el equipo. Hay una razón: entrenar modelos de IA requiere una enorme potencia informática y recursos, a menudo solo disponibles para grandes empresas tecnológicas. Llama 3, por ejemplo, se entrenó con 15 billones de tokens , una unidad para procesar datos, como palabras o caracteres. Estos puntos de estrangulamiento dificultan que las empresas emergentes creen sistemas de IA desde cero. En cambio, a menudo vuelven a entrenar sistemas “abiertos” para adaptarlos a una nueva tarea o ejecutarlos de manera más eficiente. El modelo AI Alpaca de Stanford , basado en Llama, por ejemplo, ganó interés por el hecho de que podía ejecutarse en una computadora portátil.
No cabe duda de que muchas personas y empresas se han beneficiado de los modelos de IA abiertos , pero para los autores, también pueden ser un obstáculo para la democratización de la IA.
El lado oscuro
Los autores señalan que muchos sistemas de IA abiertos a gran escala se entrenan en servidores en la nube. El Instituto de Innovación Tecnológica de los Emiratos Árabes Unidos desarrolló Falcon 40B y lo entrenó en los servidores AWS de Amazon. La IA de MosaicML está “vinculada a Azure de Microsoft ”. Incluso OpenAI se ha asociado con Microsoft para ofrecer sus nuevos modelos de IA a un precio.
Si bien la computación en la nube es sumamente útil, limita quiénes pueden ejecutar modelos de IA a un puñado de grandes empresas y sus servidores. Alpaca, de Stanford, finalmente cerró parcialmente debido a la falta de recursos financieros.
El secreto en torno a los datos de entrenamiento es otro motivo de preocupación. “Muchos modelos de IA a gran escala descritos como abiertos no proporcionan ni siquiera información básica sobre los datos subyacentes utilizados para entrenar el sistema”, escribieron los autores.
Los modelos de lenguaje de gran tamaño procesan enormes cantidades de datos extraídos de Internet, algunos de los cuales están sujetos a derechos de autor, lo que da lugar a una serie de demandas judiciales en curso . Cuando los conjuntos de datos no están disponibles fácilmente, o cuando son increíblemente grandes, es difícil verificar el rendimiento informado por el modelo o si los conjuntos de datos «blanquean la propiedad intelectual de otros», según los autores.
El problema se agrava cuando se crean marcos de trabajo, a menudo desarrollados por grandes empresas tecnológicas, para minimizar el tiempo que lleva “reinventar la rueda”. Estos fragmentos de código, flujos de trabajo y herramientas de evaluación preescritos ayudan a los desarrolladores a desarrollar rápidamente un sistema de IA. Sin embargo, la mayoría de los ajustes no cambian el modelo en sí. En otras palabras, cualquier problema o sesgo potencial que exista dentro de los modelos también podría propagarse a las aplicaciones posteriores.
Un ecosistema de IA
Para los autores, desarrollar una IA más abierta no consiste en evaluar un modelo a la vez, sino en tener en cuenta todo el ecosistema.
La mayoría de los debates sobre la apertura de la IA pasan por alto el panorama general. A medida que la IA avanza, “es poco probable que la búsqueda de la apertura por sí sola produzca muchos beneficios”, escribió el equipo. En cambio, al elaborar políticas de IA abierta se debe tener en cuenta todo el ciclo de desarrollo de la IA (desde la configuración, el entrenamiento y el funcionamiento de los sistemas de IA hasta sus usos prácticos y los incentivos financieros).
“Poner nuestras esperanzas en una IA “abierta” de forma aislada no nos llevará a ese mundo”, escribió el equipo. SingularityHub. F. de S. Traducido al español