El Portal de las Tecnologías para la Innovación

DeepSeek se globaliza, la IA se vuelve local

Fuente:

Cuando se lanzó DeepSeek-R1 el 20 de enero , este potente y rentable modelo de razonamiento de IA cautivó tanto a Silicon Valley como a Wall Street. ¿Por qué? Podía razonar tan bien como los mejores modelos de empresas como OpenAI y Anthropic, pero, según se informa, consumía mucho menos recursos y su entrenamiento y uso costaban mucho menos. Solo el mes pasado, el modelo se descargó más de   
800.000 veces en Hugging Face .

“Fue una llamada de atención”, recordó Larry Li , fundador y socio director de la firma de inversión AMINO Capital, con sede en Palo Alto, en una entrevista reciente con IBM Think . Las nuevas tecnologías suelen ser objeto de ingeniería inversa, dijo. “Pero nadie esperaba que se pudiera hacer tan bien”.

“Se trataba simplemente de cambiar la narrativa de que Estados Unidos es el único lugar en el mundo donde se puede innovar”, dijo Matthieu Soulé , director de C.Lab de Cathay Innovation, un fondo que invierte en innovación en IA en la UE y Asia, incluida China.

Muchos predijeron que el éxito de DeepSeek revolucionaría la industria y la carrera global de la IA en general. Seis meses después, quisimos comprobarlo: ¿realmente sucedió?

Hablamos con algunos de los mismos expertos que entrevistamos en las horas posteriores al lanzamiento de DeepSeek-R1 , así como con varios otros expertos para obtener una imagen holística.

¿Qué cambió después de DeepSeek-R1?

En los días posteriores al lanzamiento de DeepSeek-R1, muchos expresaron su preocupación sobre si la empresa había calculado y reportado con precisión los costos totales (no solo el entrenamiento del modelo casi final) y qué componentes habían utilizado de qué empresas. En otras palabras, ¿habían logrado algo realmente revolucionario o se trataba de un progreso más gradual?

Algunos, como Kaoutar El Maghraoui, Científica Principal de Investigación de IBM, creen que la verdadera innovación podría haber sido lo que ella llama «eficiencia arquitectónica» o la combinación de técnicas que incluyen «la combinación de expertos, una estrategia de aprendizaje por refuerzo, el diseño de código hardware-software y otros trucos de optimización. Se trata principalmente de una implementación inteligente y eficaz de técnicas ya existentes», afirmó en una entrevista reciente en IBM Think .

Aun así, expertos de todo el sector coinciden en que DeepSeek-R1 transformó el panorama global de la IA de varias maneras clave. Por un lado, muchos daban por sentado que las empresas estadounidenses de IA tenían una ventaja casi imposible de recuperar. DeepSeek desmintió esa suposición al reducir las barreras para que desarrolladores y pequeñas empresas accedieran a las herramientas necesarias para desarrollar sus propios LLM.

“Los desarrolladores y usuarios ahora tienen acceso al mismo tipo de capacidades que o1 de OpenAI por una fracción del costo”, señaló Abraham Daniels, gerente sénior de productos técnicos de IBM, en una entrevista.

El hecho de que DeepSeek abriera sus modelos contribuyó significativamente a aumentar la accesibilidad . «Hemos observado un repunte del interés en el código abierto desde DeepSeek y su contribución a la AI Alliance», afirmó Anthony Annunziata, director de Estrategia Abierta de IA en IBM y la AI Alliance. La AI Alliance es una red internacional de empresas y organizaciones que trabajan para crear una IA abierta y segura, fundada por IBM y Meta.

“En toda Europa, en Vietnam, India y Japón, hay empresas regionales de inteligencia artificial que quieren asegurarse de mantener el control soberano de su inteligencia artificial, de poder moldearla como quieran para que se ajuste a sus necesidades culturales, sociales y económicas, que son diferentes a las de Estados Unidos y otros lugares”, afirmó Annunziata.

Proteger la investigación nacional en IA es una prioridad. «Existe un verdadero impulso a la soberanía digital, donde los gobiernos intentan descubrir cómo evitar la influencia extranjera en IA», afirmó El Maghroui.

La creación de programas de maestría en derecho (LLM) basados en idiomas locales motiva a muchos emprendedores. «La IA se encamina hacia una dirección en la que, como servicio público, cada país o región busca tener su propio modelo lingüístico para, al menos, influir en el comportamiento», afirmó Li.

Japón, por ejemplo, promulgó recientemente la Ley de Promoción de la IA para apoyar notablemente la promoción de esta tecnología. A finales de junio, la Alianza de IA lanzó una nueva etapa en Japón para centrarse en dos áreas de gran interés para los emprendedores locales: la soberanía de la IA y la IA en la fabricación. El lenguaje desempeña un papel fundamental en el control de los sistemas de IA, por lo que, a finales de 2024, por ejemplo, un grupo de más de 1500 investigadores del mundo académico y la industria se unió para desarrollar modelos lingüísticos japoneses sólidos y abiertos.

Muchos modelos y emprendedores de IA locales también priorizan los intereses económicos locales. En el caso de Japón, muchas de las empresas que se unieron a la Alianza de IA, como Mitsubishi Electric y Panasonic, están desarrollando modelos de IA orientados a aplicaciones industriales y de manufactura, un segmento particularmente importante de la economía japonesa.

Boletín de la industria

Las últimas noticias tecnológicas, respaldadas por conocimientos de expertos.

Manténgase al día con las tendencias más importantes e interesantes del sector en IA, automatización, datos y más con el boletín Think. Consulte la  Declaración de Privacidad de IBM .

  • Correo electrónico comercial

Suscribir

Por otro lado, también existe un creciente interés por los modelos locales, afirmó Daisuke Okanohara, director de tecnología y cofundador de  Preferred Networks , empresa japonesa de hardware y software que desarrolla software avanzado mediante aprendizaje profundo e IA. En mayo, Preferred Networks lanzó su segunda versión de PLaMo, un modelo compacto que puede ejecutarse localmente y está entrenado en japonés e inglés.

«Su rendimiento no es tan competitivo como el de los modelos de vanguardia en general, pero destaca en ciertas tareas específicas», declaró Okanohara durante una entrevista con IBM Think. «En casos de uso con modelos pequeños, como modelos con entre ocho y treinta mil millones de parámetros, supera a CLANG, GPT-4o mini y modelos similares en varias tareas en japonés».

Vietnam también ha experimentado un auge en la actividad de LLM empresarial, y la Alianza de IA abrió una sucursal allí en junio de este año. Además de desarrollar un modelo de idioma vietnamita, los emprendedores se centran en el uso de modelos de IA para desarrollar nuevos tipos de chips que impulsen la IA, afirmó Annunziata.

Otra razón por la que DeepSeek inspiró a tantos emprendedores locales fue que varios países prohibieron o restringieron el uso de DeepSeek-R1, alegando problemas de seguridad y privacidad. Italia, Australia, Corea del Sur y Canadá prohibieron DeepSeek, y también se restringió en varios estados de EE. UU., especialmente en sitios web gubernamentales. Esto tuvo un interesante efecto dominó: motivó a los emprendedores locales a usar herramientas de código abierto para crear modelos más seguros que pudieran utilizarse en sus zonas geográficas específicas.

La nueva empresa tecnológica del emprendedor tecnológico y VC Kai-Fu Lee,  01.AI , busca explorar el mercado B2B de la IA empresarial, un sector notoriamente complejo en China, donde la mitad de las empresas son estatales y las grandes empresas privadas pueden verse sometidas a la influencia gubernamental a medida que escalan. Lee lanzó previamente Rhymes AI, una empresa que lanzó varios productos el otoño pasado, incluyendo un  motor de búsqueda  y  Allegro , un modelo de generación de video de código abierto.

“Lo vemos con un enfoque pragmático: los modelos son realmente buenos. Sin embargo, aún no son fáciles de usar para muchas empresas, y ese es el problema que intentamos abordar”, declaró Anita Huang, cofundadora de 01.AI, en una entrevista con IBM Think. “Creemos que la pieza que falta, especialmente para el mercado empresarial chino, es esa capa de middleware que se convierte en el modelo de lenguaje de Windows o de gran tamaño”. Actualmente, su plataforma empresarial utiliza modelos como DeepSeek y Qwen de Alibaba.

Lo que DeepSeek-R1 no cambió

Inmediatamente después de DeepSeek, muchos predijeron que había allanado el camino para el dominio del razonamiento en cadena de pensamiento . Sin embargo, desde entonces, la industria ha evolucionado. Nuevas investigaciones han demostrado que los modelos de razonamiento requieren muchos recursos y son innecesarios para muchas tareas cuando se busca la utilidad de estos modelos.

Quizás el área de mayor expectativa fue la adopción empresarial de DeepSeek, dados sus bajos costos de licencia (se obtuvo la licencia permisiva del MIT).

“En realidad, la adopción empresarial sigue siendo muy limitada, principalmente debido a la falta de garantías de privacidad de datos, falta de cumplimiento, gobernanza y seguridad”, afirmó El Maghraoui.

La mayoría de las empresas, al menos en Estados Unidos, se quedaron con proveedores que ofrecían soluciones gestionadas o auditables.

Así pues, si bien es positivo que «la gente vea que las innovaciones surgen de lugares inesperados», afirmó Annunziata, la industria de la IA en general y el mercado en general no han cambiado como algunos predijeron. En cambio, «las empresas de código abierto han redoblado sus esfuerzos en el código abierto, y las grandes empresas propietarias se centran en la adquisición de talento, aún más en la adquisición o debilitamiento de la competencia, y están invirtiendo cada vez más dinero en sus modelos».

En última instancia, el mayor legado de DeepSeek puede ser el de defender la creación de modelos pequeños y adecuados para su propósito, afirmó Daniels.

“DeepSeek abrió el camino a la IA y convirtió a los modelos de lenguaje pequeños en el nuevo campo de batalla”, afirmó. “Los modelos de lenguaje pequeños y altamente capaces se podían entrenar con mayor eficiencia que los modelos más grandes y podían abordar mejor los casos de uso empresariales”.

Los agentes de IA (sistemas de IA autónomos capaces de razonar, planificar y ejecutar tareas) se han extendido enormemente en las empresas en 2025 y constituyen uno de esos casos de uso. Los modelos más pequeños suelen ser más adecuados para los sistemas de IA agénticos porque son más eficientes, requieren menos recursos y pueden adaptarse a tareas específicas.

Como lo expresó el destacado ingeniero de IBM, Chris Hay, en un episodio reciente de Mixture of Experts : “Cuando quieres ejecutar agentes, quieres que tus modelos sean pequeños, rápidos y ágiles”.

IBM Blog. A. McC. y A. N. Traducido al español

Artículos relacionados

Huawei

Huawei presenta su visión de sinergia submarino-terrestre y orquestación óptica-inteligente

Huawei presentó su visión de sinergia submarino-terrestre y orquestación óptica-inteligente. En su debut en Submarine Networks World 2025, el principal evento de comunicaciones submarinas en Singapur, la compañía presentó una solución innovadora y productos estrella diseñados para facilitar la integración y la sinergia eficiente entre las redes submarinas y terrestres.

Continuar leyendo...
Nintendo

¡Despega con Mario en dos aventuras que desafían la gravedad!

¿Listo para explorar los confines del espacio? Super Mario Galaxy™ y Super Mario Galaxy 2 son dos aventuras icónicas de Mario, conocidas por sus plataformas desenfrenadas, sorpresas cósmicas y una banda sonora orquestada y envolvente. (Ah, y un dato curioso: ¡Super Mario Galaxy también fue la primera aparición de Rosalina y los Lumas!)

Continuar leyendo...
Scroll al inicio