El Portal de las Tecnologías para la Innovación

Ayudando al almacenamiento de datos a mantenerse al día con la revolución de la IA

Fuente:

Los sistemas de almacenamiento de Cloudian, cofundada por un ex alumno del MIT, están ayudando a las empresas a alimentar modelos y agentes de IA ávidos de datos a escala.

La inteligencia artificial está cambiando la forma en que las empresas almacenan y acceden a sus datos. Esto se debe a que los sistemas tradicionales de almacenamiento de datos se diseñaron para procesar comandos simples de unos pocos usuarios a la vez, mientras que hoy en día, los sistemas de IA con millones de agentes necesitan acceder y procesar continuamente grandes cantidades de datos en paralelo. Los sistemas tradicionales de almacenamiento de datos ahora presentan niveles de complejidad, lo que ralentiza los sistemas de IA, ya que los datos deben pasar por múltiples niveles antes de llegar a las unidades de procesamiento gráfico (GPU), que son las neuronas de la IA.

Cloudian, cofundada por Michael Tso (promoción de 1993), SM (promoción de 1993) e Hiroshi Ohta, ayuda al almacenamiento a adaptarse a la revolución de la IA. La compañía ha desarrollado un sistema de almacenamiento escalable para empresas que facilita la fluidez de datos entre el almacenamiento y los modelos de IA. El sistema reduce la complejidad aplicando computación paralela al almacenamiento de datos, consolidando las funciones y los datos de IA en una única plataforma de procesamiento paralelo que almacena, recupera y procesa conjuntos de datos escalables, con transferencias directas de alta velocidad entre el almacenamiento, las GPU y las CPU.

La plataforma integrada de almacenamiento y computación de Cloudian simplifica el proceso de creación de herramientas de IA a escala comercial y brinda a las empresas una base de almacenamiento que puede mantenerse al día con el auge de la IA.

“Una de las cosas que la gente pasa por alto sobre la IA es que todo gira en torno a los datos”, afirma Tso. “No se puede lograr una mejora del 10 % en el rendimiento de la IA con un 10 % más de datos, ni siquiera con 10 veces más; se necesitan 1000 veces más datos. Poder almacenar esos datos de forma fácil de gestionar y de tal manera que se puedan integrar cálculos para ejecutar operaciones mientras se reciben los datos sin moverlos: ese es el futuro de esta industria”.

Del MIT a la industria

Como estudiante de grado en el MIT en la década de 1990, el profesor William Dally introdujo a Tso a la computación paralela, un tipo de computación en el que muchos cálculos se realizan simultáneamente. Tso también trabajó en computación paralela con el profesor asociado Greg Papadopoulos.

“Fue una época increíble porque la mayoría de las escuelas tenían un proyecto de supercomputación en marcha; el MIT tenía cuatro”, recuerda Tso.

Como estudiante de posgrado, Tso trabajó con el científico investigador principal del MIT, David Clark, un pionero de la informática que contribuyó a la arquitectura inicial de Internet, en particular al protocolo de control de transmisión (TCP) que envía datos entre sistemas.

“Como estudiante de posgrado en el MIT, trabajé en operaciones de redes desconectadas e intermitentes para sistemas distribuidos a gran escala”, dice Tso. “Es curioso: 30 años después, eso es lo que sigo haciendo hoy”.

Tras graduarse, Tso trabajó en el Laboratorio de Arquitectura de Intel, donde inventó los algoritmos de sincronización de datos utilizados por Blackberry. También creó especificaciones para Nokia que impulsaron la industria de la descarga de tonos de llamada. Posteriormente, se unió a Inktomi, una startup cofundada por Eric Brewer (SM ’92, PhD ’94), pionera en tecnologías de búsqueda y distribución de contenido web.

En 2001, Tso fundó Gemini Mobile Technologies junto con Joseph Norton (promoción del 93), SM (promoción del 93) y otros. La compañía desarrolló los sistemas de mensajería móvil más grandes del mundo para gestionar el crecimiento masivo de datos de los teléfonos con cámara. Posteriormente, a finales de la década de 2000, la computación en la nube se convirtió en una potente herramienta para que las empresas alquilaran servidores virtuales a medida que expandían sus operaciones. Tso se dio cuenta de que la cantidad de datos recopilados crecía mucho más rápido que la velocidad de las redes, por lo que decidió reestructurar la empresa.

“Los datos se crean en muchos lugares diferentes, y esos datos tienen su propia gravedad: moverlos costará dinero y tiempo”, explica Tso. “Eso significa que el resultado final es una nube distribuida que llega a los dispositivos y servidores en el borde. Hay que llevar la nube a los datos, no los datos a la nube”.

Tso lanzó oficialmente Cloudian desde Gemini Mobile Technologies en 2012, con un nuevo énfasis en ayudar a los clientes con almacenamiento de datos escalable, distribuido y compatible con la nube.

«Lo que no vimos cuando iniciamos la empresa fue que la IA iba a ser el caso de uso definitivo para los datos en el borde», afirma Tso.

Aunque la investigación de Tso en el MIT comenzó hace más de dos décadas, ve fuertes conexiones entre lo que hizo y la industria actual.

“Es como si toda mi vida se repitiera, porque David Clark y yo lidiábamos con redes desconectadas y conectadas intermitentemente, que forman parte de todos los casos de uso en el borde hoy en día, y el profesor Dally trabajaba en interconexiones muy rápidas y escalables”, dice Tso, señalando que Dally ahora es vicepresidente sénior y científico jefe de NVIDIA, empresa líder en IA. “Ahora, al observar la arquitectura moderna de chips de NVIDIA y su forma de comunicarse entre chips, el trabajo de Dally está presente en todas partes. Con el profesor Papadopoulos, trabajé en acelerar software de aplicaciones con hardware de computación paralela sin tener que reescribir las aplicaciones, y ese es precisamente el problema que intentamos resolver con NVIDIA. Casualmente, todo lo que hacía en el MIT se está repitiendo”.

Actualmente, la plataforma de Cloudian utiliza una arquitectura de almacenamiento de objetos donde todo tipo de datos (documentos, vídeos, datos de sensores) se almacenan como un único objeto con metadatos. El almacenamiento de objetos puede gestionar conjuntos de datos masivos en una estructura de archivo plano, lo que lo hace ideal para datos no estructurados y sistemas de IA. Sin embargo, tradicionalmente no ha podido enviar datos directamente a los modelos de IA sin copiarlos primero en la memoria de un ordenador, lo que genera latencia y cuellos de botella en el consumo de energía para las empresas.

En julio, Cloudian anunció la ampliación de su sistema de almacenamiento de objetos con una base de datos vectorial que almacena datos de forma que los modelos de IA puedan utilizarlos inmediatamente. A medida que se procesan los datos, Cloudian los procesa en tiempo real para impulsar herramientas de IA como motores de recomendación, búsquedas y asistentes de IA. Cloudian también anunció una colaboración con NVIDIA que permite que su sistema de almacenamiento funcione directamente con las GPU de la empresa de IA. Cloudian afirma que el nuevo sistema permite operaciones de IA aún más rápidas y reduce los costes de computación.

“NVIDIA nos contactó hace aproximadamente un año y medio porque las GPU solo son útiles con datos que las mantienen ocupadas”, dice Tso. “Ahora que la gente se está dando cuenta de que es más fácil trasladar la IA a los datos que mover grandes conjuntos de datos. Nuestros sistemas de almacenamiento integran muchas funciones de IA, lo que nos permite preprocesar y posprocesar datos para IA cerca de donde los recopilamos y almacenamos”.

Almacenamiento basado en IA

Cloudian está ayudando a aproximadamente 1.000 empresas de todo el mundo a obtener más valor de sus datos, incluidos grandes fabricantes, proveedores de servicios financieros, organizaciones de atención médica y agencias gubernamentales.

La plataforma de almacenamiento de Cloudian ayuda, por ejemplo, a un importante fabricante de automóviles a usar IA para determinar cuándo es necesario realizar el mantenimiento de cada uno de sus robots de fabricación. Cloudian también colabora con la Biblioteca Nacional de Medicina para almacenar artículos de investigación y patentes, y con la Base de Datos Nacional del Cáncer para almacenar secuencias de ADN tumoral: conjuntos de datos completos que los modelos de IA podrían procesar para ayudar a la investigación, desarrollar nuevos tratamientos o obtener nuevos conocimientos.

“Las GPU han sido un facilitador increíble”, afirma Tso. “La Ley de Moore duplica la cantidad de cómputo cada dos años, pero las GPU pueden paralelizar las operaciones en chips, lo que permite interconectarlas y romper con la Ley de Moore. Esta escala está impulsando la IA a nuevos niveles de inteligencia, pero la única manera de que las GPU trabajen arduamente es alimentarlas con datos a la misma velocidad que computan, y la única manera de lograrlo es eliminar todas las capas entre ellas y los datos”.

MIT News. Z. W. Traducido al español

Artículos relacionados

Huawei

Huawei presenta su visión de sinergia submarino-terrestre y orquestación óptica-inteligente

Huawei presentó su visión de sinergia submarino-terrestre y orquestación óptica-inteligente. En su debut en Submarine Networks World 2025, el principal evento de comunicaciones submarinas en Singapur, la compañía presentó una solución innovadora y productos estrella diseñados para facilitar la integración y la sinergia eficiente entre las redes submarinas y terrestres.

Continuar leyendo...
Nintendo

¡Despega con Mario en dos aventuras que desafían la gravedad!

¿Listo para explorar los confines del espacio? Super Mario Galaxy™ y Super Mario Galaxy 2 son dos aventuras icónicas de Mario, conocidas por sus plataformas desenfrenadas, sorpresas cósmicas y una banda sonora orquestada y envolvente. (Ah, y un dato curioso: ¡Super Mario Galaxy también fue la primera aparición de Rosalina y los Lumas!)

Continuar leyendo...
Scroll al inicio