El Portal de las Tecnologías para la Innovación

Vana está permitiendo a los usuarios poseer una parte de los modelos de IA entrenados en sus datos

Más de 1 millón de personas están contribuyendo con sus datos a la red descentralizada de Vanaana, que comenzó como un proyecto de clase MIT.

En febrero de 2024, Reddit llegó a un acuerdo de $60 millones con Google para permitir que el gigante de las búsquedas usara datos en la plataforma para entrenar sus modelos de inteligencia artificial. Notablemente ausentes de las discusiones estaban los usuarios de Reddit, cuyos datos se vendían.

El acuerdo reflejaba la realidad de la Internet moderna: Las grandes compañías tecnológicas poseen prácticamente todos nuestros datos en línea y deciden qué hacer con esos datos. Como era de esperar, muchas plataformas monetizan sus datos, y la forma de más rápido crecimiento de lograrlo hoy en día es venderlos a las compañías de IA, que son en sí mismas compañías tecnológicas masivas que usan los datos para entrenar modelos cada vez más potentes.

La plataforma descentralizada Vana, que comenzó como un proyecto de clase en el MIT, tiene la misión de devolver el poder a los usuarios. La compañía ha creado una red totalmente propiedad del usuario que permite a las personas cargar sus datos y gobernar cómo se usan. Los desarrolladores de IA pueden presentar a los usuarios ideas para nuevos modelos, y si los usuarios aceptan contribuir con sus datos para la capacitación, obtienen una propiedad proporcional en los modelos.

La idea es dar a todos una participación en los sistemas de IA que darán forma cada vez más a nuestra sociedad y al mismo tiempo desbloquearán nuevos grupos de datos para avanzar en la tecnología.

“Estos datos son necesarios para crear mejores sistemas de IA,” dice la cofundadora de Vana Anna Kazlauskas ’19. “Weiosve creó un sistema descentralizado para obtener mejores datos — que se encuentra dentro de las grandes compañías tecnológicas de hoy — mientras que todavía permite a los usuarios retener la propiedad final.”

De la economía a la cadena de bloques

Muchos estudiantes de secundaria tienen fotos de estrellas del pop o atletas en las paredes de sus habitaciones. Kazlauskas tenía una foto del antiguo Estados Unidos. La secretaria del Tesoro, Janet Yellen.

Kazlauskas llegó al MIT segura de que se convertiría en economista, pero terminó siendo una de las cinco estudiantes que se unieron al club MIT Bitcoin en 2015, y esa experiencia la llevó al mundo de las blockchains y las criptomonedas.

Desde su dormitorio en MacGregor House, comenzó a extraer la criptomoneda Ethereum. Incluso ocasionalmente recorría contenedores de basura del campus en busca de chips de computadora descartados.

“Me interesó todo lo relacionado con la informática y las redes,” Kazlauskas dice. “Eso involucró, desde una perspectiva de blockchain, sistemas distribuidos y cómo pueden cambiar el poder económico a individuos, así como inteligencia artificial y econometría

Kazlauskas conoció a Art Abal, que entonces asistía a la Universidad de Harvard, en la antigua clase de Media Lab Emergent Ventures, y la pareja decidió trabajar en nuevas formas de obtener datos para entrenar sistemas de IA.

“Nuestra pregunta era: ¿Cómo podría tener una gran cantidad de personas que contribuyen a estos sistemas de IA utilizando más de una red distribuida?” Kazlauskas recuerda.

Kazlauskas y Abal estaban tratando de abordar el status quo, donde la mayoría de los modelos se entrenan raspando datos públicos en Internet. Las grandes empresas de tecnología a menudo también compran grandes conjuntos de datos de otras empresas.

El enfoque founder’ evolucionó a lo largo de los años y fue informado por la experiencia de Kazlauskas’ trabajando en la compañía financiera de blockchain Celo después de la graduación. Pero Kazlauskas acredita su tiempo en el MIT con ayudarla a pensar en estos problemas, y el instructor de Emergent Ventures, Ramesh Raskar, todavía ayuda a Vana a pensar en las preguntas de investigación de IA en la actualidad.

“Fue genial tener una oportunidad abierta para construir, hackear y explorar,” Kazlauskas dice. “Creo que el espíritu en el MIT es realmente importante. Se trata solo de construir cosas, ver lo que funciona y continuar iterando.”

Hoy en día, Vana aprovecha una ley poco conocida que permite a los usuarios de la mayoría de las grandes plataformas tecnológicas exportar sus datos directamente. Los usuarios pueden cargar esa información en billeteras digitales cifradas en Vana y desembolsarla para entrenar a los modelos como mejor les parezca.

Los ingenieros de IA pueden sugerir ideas para nuevos modelos de código abierto, y las personas pueden agrupar sus datos para ayudar a entrenar el modelo. En el mundo blockchain, los grupos de datos se llaman DAO de datos, que significa organización autónoma descentralizada. Los datos también se pueden utilizar para crear modelos y agentes de IA personalizados.

En Vana, los datos se utilizan de una manera que preserva la privacidad del usuario porque el sistema no expone la información identificable. Una vez que se crea el modelo, los usuarios mantienen la propiedad de modo que cada vez que se utiliza, son recompensados proporcionalmente en función de cuánto sus datos ayudaron a entrenarlo.

“Desde la perspectiva de los desarrolladores, ahora puedes construir estas aplicaciones de salud hiperpersonalizadas que tienen en cuenta exactamente lo que comiste, cómo dormiste, cómo haces ejercicio, dice ” Kazlauskas. “Esas aplicaciones no son posibles hoy debido a esos jardines amurallados de las grandes compañías tecnológicas.”

IA de crowdsourcing y propiedad del usuario

El año pasado, un ingeniero de aprendizaje automático propuso usar los datos de usuario de Vana para entrenar un modelo de IA que podría generar publicaciones de Reddit. Más de 140,000 usuarios de Vana contribuyeron con sus datos de Reddit, que contenían publicaciones, comentarios, mensajes y más. Los usuarios decidieron los términos en los que se podía usar el modelo, y mantuvieron la propiedad del modelo después de su creación.

Vana has enabled similar initiatives with user-contributed data from the social media platform X; sleep data from sources like Oura rings; and more. There are also collaborations that combine data pools to create broader AI applications.

“Let’s say users have Spotify data, Reddit data, and fashion data,” Kazlauskas explains. “Usually, Spotify isn’t going to collaborate with those types of companies, and there’s actually regulation against that. But users can do it if they grant access, so these cross-platform datasets can be used to create really powerful models.”

Vana has over 1 million users and over 20 live data DAOs. More than 300 additional data pools have been proposed by users on Vana’s system, and Kazlauskas says many will go into production this year.

“Creo que hay muchas promesas en modelos de IA generalizados, medicina personalizada y nuevas aplicaciones para el consumidor, porque es difícil combinar todos esos datos u obtener acceso a ellos en primer lugar, dice ” Kazlauskas.

Los grupos de datos están permitiendo que grupos de usuarios logren algo con lo que incluso las compañías tecnológicas más poderosas luchan hoy.

“Hoy, las grandes compañías tecnológicas han construido estos fosos de datos, por lo que los mejores conjuntos de datos no están disponibles para nadie,” dice Kazlauskas. “Es un problema de acción colectiva, donde mis datos por sí solos no son tan valiosos, pero un grupo de datos con decenas de miles o millones de personas es realmente valioso. Vana permite construir esas piscinas. Es un ganar-ganar: Los usuarios se benefician del aumento de la IA porque son dueños de los modelos. Entonces no terminarás en un escenario en el que no tendrás una sola compañía que controle un modelo de IA todopoderoso. Obtienes mejor tecnología, pero todos se benefician.” MIT News. Z.W. Traducido al español

Artículos relacionados

Scroll al inicio