Si quieres ver qué viene en el futuro de la IA, solo tienes que seguir los datos. ChatGPT y DALL-E se entrenaron con grandes cantidades de datos de Internet.
La IA generativa está haciendo avances en la biotecnología y la robótica gracias a conjuntos de datos existentes o recién creados. Una forma de mirar hacia el futuro es preguntarnos: ¿qué conjuntos de datos colosales todavía están listos para ser utilizados?
Recientemente, surgió una nueva pista.
En una publicación de blog , la compañía de juegos Niantic dijo que está entrenando una nueva IA con millones de imágenes del mundo real recopiladas por jugadores de Pokémon Go y en su aplicación Scaniverse. Inspirados por los grandes modelos de lenguaje que impulsan a los chatbots , llaman a su algoritmo un «gran modelo geoespacial» y esperan que sea tan fluido en el mundo físico como lo es ChatGPT en el mundo del lenguaje.
Siga los datos
Este momento de la IA está definido por algoritmos que generan lenguaje, imágenes y, cada vez más, vídeos. Con DALL-E y ChatGPT de OpenAI, cualquiera puede usar lenguaje cotidiano para que un ordenador cree imágenes fotorrealistas o explique física cuántica. Ahora, el algoritmo Sora de la empresa está aplicando un enfoque similar a la generación de vídeos. Otros compiten con OpenAI, entre ellos Google , Meta y Anthropic .
La idea fundamental que dio origen a estos modelos es que la rápida digitalización de las últimas décadas no solo sirve para entretener e informar a los humanos, sino que también es un alimento para la inteligencia artificial. Pocos habrían visto Internet de esta manera en su surgimiento, pero en retrospectiva, la humanidad ha estado ocupada reuniendo un enorme conjunto de datos educativos de lenguaje, imágenes, códigos y videos. Para bien o para mal (hay varias demandas por violación de derechos de autor en curso), las empresas de inteligencia artificial extrajeron todos esos datos para entrenar modelos de inteligencia artificial potentes.
Ahora que saben que la receta básica funciona bien, las empresas y los investigadores están buscando más ingredientes.
En el campo de la biotecnología, los laboratorios están entrenando a la IA en conjuntos de estructuras moleculares construidas a lo largo de décadas y utilizándolas para modelar y generar proteínas, ADN, ARN y otras biomoléculas para acelerar la investigación y el descubrimiento de fármacos . Otros están probando grandes modelos de IA en automóviles autónomos y robots humanoides y de almacén , tanto como una mejor manera de decirles a los robots qué hacer, pero también para enseñarles cómo navegar y moverse por el mundo.
Por supuesto, para los robots, la fluidez en el mundo físico es crucial. Así como el lenguaje es infinitamente complejo, también lo son las situaciones a las que un robot puede enfrentarse. Los cerebros de los robots codificados a mano nunca pueden dar cuenta de toda la variación. Es por eso que los investigadores ahora están construyendo grandes conjuntos de datos pensando en los robots . Pero no se acercan ni de lejos a la escala de Internet, donde miles de millones de humanos han estado trabajando en paralelo durante mucho tiempo.
¿Podría existir una Internet para el mundo físico? Niantic cree que sí. Se llama Pokémon Go, pero el exitoso juego es solo un ejemplo. Las empresas tecnológicas llevan años creando mapas digitales del mundo . Ahora, parece probable que esos mapas encuentren su camino hacia la inteligencia artificial.
Entrenadores Pokémon
Lanzado en 2016, Pokémon Go fue una sensación de realidad aumentada.
En el juego, los jugadores rastrean personajes digitales (o Pokémon) que se han colocado por todo el mundo. Al usar sus teléfonos como una especie de portal, los jugadores ven personajes superpuestos en una ubicación física (por ejemplo, sentados en un banco del parque o paseando por una sala de cine). Una oferta más reciente, Pokémon Playground, permite a los usuarios insertar personajes en ubicaciones para otros jugadores. Todo esto es posible gracias a los detallados mapas digitales de la empresa.
El sistema de posicionamiento visual (VPS) de Niantic puede determinar la posición de un teléfono con una precisión de centímetros a partir de una única imagen de una ubicación. En parte, el VPS crea mapas 3D de ubicaciones de forma clásica, pero el sistema también se basa en una red de algoritmos de aprendizaje automático (uno o más por ubicación) entrenados a partir de años de imágenes y escaneos de jugadores tomados en varios ángulos, momentos del día y estaciones del año y marcados con una posición en el mundo.
“Como parte del Sistema de Posicionamiento Visual (VPS) de Niantic, hemos entrenado más de 50 millones de redes neuronales, con más de 150 billones de parámetros, lo que permite la operación en más de un millón de ubicaciones”, escribió la compañía en su reciente publicación de blog .
Ahora, Niantic quiere ir más allá.
En lugar de millones de redes neuronales individuales, quieren utilizar datos de Pokémon Go y Scaniverse para entrenar un único modelo de base. Mientras que los modelos individuales están limitados por las imágenes que se les han proporcionado, el nuevo modelo se generalizaría a todos ellos. Si se le presenta el frente de una iglesia, por ejemplo, se basaría en todas las iglesias y ángulos que ha visto (frontal, lateral, posterior) para visualizar partes de la iglesia que no se le han mostrado.
Esto es un poco como lo que hacemos los humanos cuando nos desplazamos por el mundo. Puede que no seamos capaces de ver lo que hay detrás de una esquina, pero podemos adivinar lo que hay allí (puede ser un pasillo, el lateral de un edificio o una habitación) y planificar en función de nuestro punto de vista y nuestra experiencia.
Niantic escribe que un modelo geoespacial de gran tamaño le permitiría mejorar las experiencias de realidad aumentada, pero también cree que un modelo de este tipo podría impulsar otras aplicaciones, incluidas la robótica y los sistemas autónomos.
Ponerse físico
Niantic cree que está en una posición única porque cuenta con una comunidad comprometida que contribuye con un millón de nuevos escaneos por semana. Además, esos escaneos se realizan desde el punto de vista de los peatones, a diferencia de lo que ocurre en Google Maps o en los autos autónomos. No se equivocan.
Si tomamos Internet como ejemplo, los conjuntos de datos nuevos más poderosos podrían ser recopilados por millones, o incluso miles de millones, de humanos trabajando en conjunto.
Al mismo tiempo, Pokémon Go no es una plataforma completa. Aunque las ubicaciones abarcan continentes, son escasas en cualquier lugar y regiones enteras están completamente a oscuras. Además, otras empresas, quizás la más notable, Google, llevan mucho tiempo cartografiando el mundo. Pero, a diferencia de Internet, estos conjuntos de datos son privados y están fragmentados.
No está claro si eso importa (es decir, si se necesita un conjunto de datos del tamaño de Internet para crear una IA generalizada que sea tan fluida en el mundo físico como los LLM lo son en el verbal).
Pero es posible que un conjunto de datos más completo del mundo físico surja de algo como Pokémon Go, solo que en tamaño supergrande. Esto ya ha comenzado con los teléfonos inteligentes, que tienen sensores para tomar imágenes, videos y escaneos 3D. Además de las aplicaciones de realidad aumentada, los usuarios están cada vez más incentivados a usar estos sensores con IA, como tomar una foto de una heladera y preguntarle a un chatbot qué cocinar para la cena. Nuevos dispositivos, como las gafas de realidad aumentada, podrían expandir este tipo de uso, lo que generaría una bonanza de datos para el mundo físico.
Por supuesto, la recopilación de datos en línea ya es controvertida y la privacidad es un gran problema. Extender esos problemas al mundo real no es ideal.
Después de que 404 Media publicara un artículo sobre el tema , Niantic agregó una nota : “Esta función de escaneo es completamente opcional: las personas deben visitar una ubicación pública específica y hacer clic para escanear. Esto le permite a Niantic ofrecer nuevos tipos de experiencias de realidad aumentada para que las personas disfruten. Simplemente caminar jugando nuestros juegos no entrena un modelo de IA”. Sin embargo, otras empresas pueden no ser tan transparentes sobre la recopilación y el uso de datos.
Tampoco es seguro que los nuevos algoritmos inspirados en grandes modelos lingüísticos sean sencillos. El MIT, por ejemplo, ha creado recientemente una nueva arquitectura destinada específicamente a la robótica. “En el ámbito del lenguaje, los datos son simplemente frases”, dijo a TechCrunch Lirui Wang, autor principal de un artículo que describe el trabajo . “En robótica, dada toda la heterogeneidad de los datos, si queremos realizar un preentrenamiento de una manera similar, necesitamos una arquitectura diferente”.
De todas formas, es probable que los investigadores y las empresas sigan explorando áreas en las que la IA similar a la del LLM pueda ser aplicable . Y tal vez, a medida que madure cada nueva incorporación, será un poco como agregar una región cerebral: si las unimos, obtenemos máquinas que piensan, hablan, escriben y se mueven por el mundo con la misma facilidad que nosotros. SingularityHub. Traducido al español