El Portal de las Tecnologías para la Innovación

¿Qué tan disruptivo es DeepSeek? La facultad de Stanford HAI discute el nuevo modelo de los chinos

Los expertos valoran las implicaciones del modelo de código abierto de DeepSeekka y su impacto en la tecnología, la geopolítica, las artes y más.

En las últimas semanas, la aparición de DeepSeek de China –, un modelo de lenguaje de código abierto poderoso y rentable –, ha provocado un discurso considerable entre académicos e investigadores de la industria. En el Instituto Stanford para la IA centrada en el ser humano (HAI), los profesores están examinando no solo los avances técnicos de las modelaciones, sino también las implicaciones más amplias para la academia, la industria y la sociedad a nivel mundial.

Un elemento central de la conversación es cómo DeepSeek ha desafiado las nociones preconcebidas con respecto al capital y los recursos computacionales necesarios para avances serios en IA. La capacidad de ingeniería inteligente e innovación algorítmica demostrada por DeepSeek puede capacitar a las organizaciones con menos recursos para competir en proyectos significativos. Esta ingeniosa ingeniería, combinada con los pesos de código abierto y un documento técnico detallado, fomenta un entorno de innovación que ha impulsado los avances técnicos durante décadas.

Si bien el modelo de peso abierto y el documento técnico detallado son un paso adelante para la comunidad de código abierto, DeepSeek es notablemente opaco en lo que respecta a la protección de la privacidad, el suministro de datos y los derechos de autor, lo que aumenta las preocupaciones sobre el impacto de la IA en las artes, la regulación y la seguridad nacional. El hecho de que DeepSeek fuera lanzado por una organización china enfatiza la necesidad de pensar estratégicamente sobre medidas regulatorias e implicaciones geopolíticas dentro de un ecosistema global de IA donde no todos los actores tienen las mismas normas y donde mecanismos como los controles de exportación no tienen el mismo impacto.

DeepSeek ha reavivado las discusiones sobre código abierto, responsabilidad legal, cambios de poder geopolíticos, preocupaciones de privacidad y más. En esta colección de perspectivas, los becarios senior de Stanford HAI ofrecen una discusión multidisciplinaria de lo que DeepSeek significa para el campo de la inteligencia artificial y la sociedad en general.

Russ AltmanKenneth Fong Profesor y Profesor de Bioingeniería, de Genética, de Medicina, de Ciencia de Datos Biomédicos, Stanford HAI Senior Fellow, y Profesor, por cortesía, de Ciencias de la Computación

En HAI somos académicos, y hay elementos del desarrollo de DeepSeek que proporcionan lecciones y oportunidades importantes para la comunidad académica.

En primer lugar, el compromiso con el código abierto (abrazado por Meta y también adoptado por DeepSeek) parece trascender los límites geopolíticos – DeepSeek y Llama (de Meta) brindan una oportunidad para que los académicos inspeccionen, evalúen, evalúen y mejoren los métodos existentes, desde una perspectiva independiente. El movimiento “closed source” ahora tiene algunos desafíos para justificar el enfoque –, por supuesto, sigue habiendo preocupaciones legítimas (por ejemplo, malos actores que usan modelos de código abierto para hacer cosas malas), pero incluso estos son posiblemente mejor combatidos con acceso abierto a las herramientas que estos actores usan para que la gente en la academia, la industria y el gobierno puede colaborar e innovar en formas de mitigar sus riesgos.

En segundo lugar, la demostración de que la ingeniería inteligente y la innovación algorítmica pueden reducir los requisitos de capital para los sistemas de IA serios significa que los esfuerzos menos capitalizados en la academia (y en otros lugares) pueden competir y contribuir en algunos tipos de construcción de sistemas. Muchos de nosotros pensamos que tendríamos que esperar hasta la próxima generación de hardware de IA económico para democratizar la IA – este puede ser el caso. Pero incluso antes de eso, tenemos la demostración inesperada de que las innovaciones de software también pueden ser fuentes importantes de eficiencia y costo reducido. En conjunto, ahora podemos imaginar sistemas de IA del mundo real no triviales y relevantes construidos por organizaciones con recursos más modestos.

En tercer lugar, el progreso de DeepSeek junto con los avances en los sistemas de IA basados en agentes hace que sea más fácil imaginar la creación generalizada de agentes de IA especializados que se mezclan y combinan para crear sistemas de IA capaces. El monolítico “general AI” todavía puede ser de interés académico, pero será más rentable y mejor ingeniería (por ejemplo, modular) crear sistemas hechos de componentes que se pueden construir, probar, mantener e implementar antes de fusionarse. Un modelo de agentes de IA que cooperan entre sí (y con humanos) replica la idea de “equipos humanos” que resuelven problemas. A veces los problemas son resueltos por un solo genio monolítico, pero esta no suele ser la apuesta correcta. Por lo tanto, DeepSeek ayuda a restablecer el equilibrio al validar el intercambio de ideas de código abierto (los datos son otra cuestión, es cierto), lo que demuestra el poder de la innovación algorítmica continuay permitir la creación económica de agentes de IA que puedan mezclarse y combinarse económicamente para producir sistemas de IA útiles y robustos. Por supuesto, las preguntas permanecen:

  • ¿Cómo podemos democratizar el acceso a grandes cantidades de datos necesarios para construir modelos, respetando los derechos de autor y otra propiedad intelectual?
  • ¿Cómo construimos modelos especializados cuando el volumen de datos para algunas disciplinas especializadas no es lo suficientemente grande?
  • ¿Cómo evaluamos un sistema que utiliza más de un agente de IA para garantizar que funcione correctamente? Incluso si los agentes individuales son validados, ¿significa eso que son validados en combinación?

Choi YejinDieter Schwarz Foundation HAI Professor, Professor of Computer Science, y Stanford HAI Senior Fellow

Choi Yejin

El éxito del modelo R1 de DeepSeek muestra que cuando hay una “prueba de existencia de una solution” (como lo demuestra OpenAIays o1), se convierte simplemente en cuestión de tiempo antes de que otros encuentren la solución también. La decisión de DeepSeekk de compartir la receta detallada del entrenamiento R1 y los modelos de peso abierto de diferentes tamaños tiene profundas implicaciones, ya que esto probablemente aumentará la velocidad del progreso aún más, estamos a punto de presenciar una proliferación de nuevos esfuerzos de código abierto que replican y mejoran R1. Este cambio indica que la era de la escala de fuerza bruta está llegando a su fin, dando paso a una nueva fase centrada en las innovaciones algorítmicas para continuar escalando a través de la síntesis de datos, nuevos marcos de aprendizaje y nuevos algoritmos de inferencia.

Sin embargo, una pregunta importante que enfrentamos en este momento es cómo aprovechar estos poderosos sistemas de inteligencia artificial para beneficiar a la humanidad en general. El hecho de que un modelo sobresalga en los puntos de referencia matemáticos no se traduce inmediatamente en soluciones para los desafíos difíciles con los que lucha la humanidad, incluida la escalada de tensiones políticas, desastres naturales o la propagación persistente de información errónea. Esta desconexión entre las capacidades técnicas y el impacto social práctico sigue siendo uno de los desafíos más apremiantes del campo.

Michele ElamWilliam Robertson Coe Profesor en Humanidades, Stanford HAI Senior Fellow, Bass University Fellow en Educación de Pregrado

En medio de todos los apretones de manos y bragas retorcidas de los Estados Unidos sobre la reciente caída china del chatbot de IA DeepSeek aparentemente (salvajemente) menos costoso, menos hambriento de cómputo y menos insultante para el medio ambiente, hasta la fecha pocos han considerado lo que esto significa para el impacto de AI en las artes. De hecho, lo que DeepSeek significa para la literatura, las artes escénicas, la cultura visual, etc., puede parecer completamente irrelevante frente a lo que pueden parecer ansiedades de orden mucho más alto con respecto a la seguridad nacional, la devaluación económica de los EE. Industria de IA, y los beneficios o no del código abierto para la innovación.

Pero, en realidad, DeepSeek ofrece una opacidad total cuando se trata de protección de la privacidad, abastecimiento y raspado de datos, y los debates sobre NIL y derechos de autor tienen un impacto descomunal en las artes. En realidad, “opacity” es un término generoso: DeepSeek es una respuesta de “canat-even-be-bothered” a estas preocupaciones. No importa las huelgas SAG-AFTRA en la industria creativa, las demandas en curso de The New York Times y muchas otras.

En muchos sentidos, el hecho de que DeepSeek pueda salirse con la suya con su enfoque descarado de hombros es nuestra culpa. La popularidad misma de su chatbot es un reflejo amplificado de – y capitalización de – consumidores estadounidenses’ propia tendencia creciente a hacer la vista gorda a estos problemas, una tendencia agresivamente alentada por una industria cuyos modelos de negocio intencionalmente vuelven nuestra atención de tales desagradables en nombre del retorno de la inversión.

Al igual que TikTok, DeepSeek aprovecha el escalofrío de nuestra aculturación en los últimos años para regalar nuestros derechos de privacidad con cada clic de los términos de contrato cada vez más oscuros en nuestros dispositivos (generalmente en nombre de ese maravilloso eufemismo de marketing, “personalization”).

Podría decirse que, como muchos ya han señalado, el consumo omnívoro de datos privados y confidenciales de DeepSeekkks explota el fracaso nacional de tener alguna regulación de IA, a diferencia del Reino Unido y la UE, y pone al país en riesgo de muchas maneras debido a nuestro mantra de que “regulación impide la innovación

Pero en lo que se refiere a las artes, estaríamos bien servidos para prestar atención a la forma en que DeepSeek controla las claves de nuestra imaginación a través de su censura preventiva, su alineación con las ideologías nacionalistas, nuestro consentimiento inconsciente o irreflexivo a su modelado algorítmico de la realidad – es decir, su capacidad para dar forma a cómo vemos y actuamos en el mundo. Stanford ha adaptado actualmente, a través del programa Microsoft Microsoft Azure, una versión “safer” de DeepSeek con la que experimentar y advierte a la comunidad que no use las versiones comerciales debido a preocupaciones de seguridad. Pero, independientemente, el lanzamiento de DeepSeek destaca los riesgos y recompensas de esta capacidad descomunal de los tecnológicos para influir en nuestra experiencia de la realidad en particular – lo que incluso llegamos a pensar como realidad.Como señalaron los primeros debates entre Platón y Aristóteles sobre el influyente poder cívico del teatro y la poesía, ese es también precisamente el poder de las artes.

Mykel KochenderProfesor Asociado de Aeronáutica y Astronáutica en la Universidad de Stanford, Stanford HAI Senior Fellow

La IA se utiliza cada vez más para respaldar escenarios críticos para la seguridad o de alto riesgo, que van desde vehículos automatizados hasta soporte de decisiones clínicas. Sin embargo, conciliar la falta de explicabilidad en los sistemas de IA actuales con los estándares de ingeniería de seguridad en aplicaciones de alto riesgo sigue siendo un desafío. Un aspecto particularmente convincente de DeepSeek R1 es su aparente transparencia en el razonamiento al responder a consultas complejas. El nivel de detalle que proporciona puede facilitar la auditoría y ayudar a fomentar la confianza en lo que genera. Este razonamiento transparente en el momento en que se hace una pregunta de un modelo de lenguaje se conoce como explicabilidad de tiempo de interferencia. Si bien la explicabilidad del tiempo de inferencia en los modelos de lenguaje todavía está en su infancia y requerirá un desarrollo significativo para alcanzar la madurezlos pequeños pasos que vemos hoy pueden ayudar a conducir a futuros sistemas que ayuden de manera segura y confiable a los humanos.

Otra barrera para aplicar los avances recientes en inteligencia artificial a muchas aplicaciones son las enormes cantidades de datos y cómputo requeridos. DeepSeek demuestra que todavía existe un enorme potencial para desarrollar nuevos métodos que reduzcan la dependencia tanto de grandes conjuntos de datos como de grandes recursos computacionales. Espero que la academia – en colaboración con la industria – pueda ayudar a acelerar estas innovaciones. Al crear algoritmos más eficientes, podemos hacer que los modelos de lenguaje sean más accesibles en los dispositivos de borde, eliminando la necesidad de una conexión continua a la infraestructura de alto costo. Con la tremenda cantidad de conocimiento de sentido común que se puede integrar en estos modelos de lenguaje, podemos desarrollar aplicaciones que sean más inteligentes, más útiles y más resistentes –, especialmente importante cuando hay más en juego.

James Landay
Profesor de Ciencias de la Computación y Anand Rajaraman y Venky Harinarayan Profesor en la Escuela de Ingeniería de la Universidad de Stanford, Stanford HAI Co-Director

Foto de perfil de James Landay en Stanford.

James Landay

DeepSeek es algo bueno para el campo. Están publicando su trabajo. Su modelo se lanza con pesos abiertos, lo que significa que otros pueden modificarlo y ejecutarlo en sus propios servidores. Están reduciendo los costos de la IA. Todo esto es bueno para hacer avanzar la investigación y la aplicación de la IA. Una de las mayores críticas de la IA ha sido los impactos en la sostenibilidad de la capacitación de grandes modelos de cimientos y el servicio de las consultas/inferencias de estos modelos. DeepSeek ha mostrado muchas optimizaciones útiles que reducen los costos en términos de cálculo en ambos lados de la ecuación de sostenibilidad de la IA. Esto es bueno para el campo, ya que cualquier otra compañía o investigador puede usar las mismas optimizaciones (ambos están documentados en un informe técnico y el código es de código abierto).

La práctica de compartir innovaciones a través de informes técnicos y código abierto continúa la tradición de la investigación abierta que ha sido esencial para impulsar la informática durante los últimos 40 años. Como campo de investigación, deberíamos dar la bienvenida a este tipo de trabajo. Ayudará a que todos funcionen mejor. Si bien muchas compañías de Estados Unidos se han inclinado hacia modelos y preguntas propietarias, especialmente en torno a la privacidad y seguridad de los datos, el enfoque abierto de DeepSeekk fomenta un compromiso más amplio que beneficia a la comunidad global de IA, fomentando la iteración, el progreso y la innovación.

Liang Percy
Profesor Asociado de Ciencias de la Computación en la Universidad de Stanford, Director del Centro de Investigación sobre Modelos de Fundación (CRFM), Stanford HAI Senior Fellow

DeepSeek R1 mostró que la IA avanzada estará ampliamente disponible para todos y será difícil de controlar, y también que no hay fronteras nacionales. También muestra que el ingenio y la ingeniería son importantes, además de tener grandes cantidades de cómputo. Para la academia, la disponibilidad de modelos de peso abierto más fuertes es una bendición porque permite la reproducibilidad, la privacidad y el estudio de las partes internas de la IA avanzada.

Christopher Manning
El Thomas M. Profesor Siebel en Aprendizaje Automático en los Departamentos de Lingüística y Ciencias de la Computación de la Universidad de Stanford, y Director Asociado de Stanford HAI

La gente trató esto como una especie de sorpresa fuera del azul, pero realmente no era nada si estabas siguiendo activamente la IA de código abierto. DeepSeek ha estado lanzando públicamente modelos abiertos y trabajos detallados de investigación técnica durante más de un año. El costo de la capacitación DeepSeek V3 salió en diciembre de 2024; un lanzamiento de R1-Lite-Preview salió en noviembre de 2024.

Es un estado de cosas triste para lo que ha sido durante mucho tiempo un país abierto que avanza en ciencia e ingeniería abiertas que la mejor manera de aprender sobre los detalles del diseño e ingeniería modernos de LLM es leer los informes técnicos exhaustivos de las empresas chinasChristopher Manning

Este lanzamiento subraya que las llamadas compañías de IA “frontier” de los Estados Unidos no tienen un gran foso técnico. Ahora hay muchos excelentes modelos chinos de grandes idiomas (LLM). A lo sumo, estas compañías tienen seis meses por delante, y tal vez solo OpenAI está por delante. Es un triste estado de cosas para lo que ha sido durante mucho tiempo un país abierto que avanza en ciencia e ingeniería abiertas que la mejor manera de aprender sobre los detalles del diseño e ingeniería modernos de LLM es leer los informes técnicos exhaustivos de las empresas chinas.

DeepSeek ha realizado una ingeniería de datos muy buena, minimizando el flujo de datos y permitiendo una capacitación eficiente y estable en fp8. Tienen algunos avances técnicos modestos, utilizando una forma distintiva de atención latente de múltiples cabezas, un gran número de expertos en una mezcla de expertos y su propia forma simple y eficiente de aprendizaje por refuerzo (RL), que va en contra del pensamiento de algunas personas al preferir recompensas basadas en reglas. Pero no hay nada totalmente de la próxima generación aquí. DeepSeek utiliza métodos y modelos similares a los demás, y Deepseek-R1 es un gran avance para ponerse al día para proporcionar algo similar en calidad a OpenAI o1. No es un nuevo avance en las capacidades.

Sin embargo, la versión DeepSeek-R1 avanza notablemente la frontera de los LLM de código abierto y sugiere la imposibilidad de que Estados Unidos pueda contener el desarrollo de potentes LLM de código abierto. También puede significar que más compañías de Estados Unidos comenzarán a usar LLM chinos dentro de sus propios productos, mientras que hasta ahora generalmente los han evitado prefiriendo usar modelos Metaaks Llama u otros de Databricks, etc.

Julián Nyarko
Profesor de Derecho en la Facultad de Derecho de Stanford, Director Asociado de Stanford HAI

Los LLM son una “tecnología de propósito general” utilizada en muchos campos. Algunas empresas crean estos modelos, mientras que otras los utilizan para fines específicos. Un debate clave en este momento es quién debería ser responsable del comportamiento dañino del modelo – los desarrolladores que construyen los modelos o las organizaciones que los usan. En este contexto, los nuevos modelos de DeepSeekka, desarrollados por una startup china, destacan cómo la naturaleza global del desarrollo de la IA podría complicar las respuestas regulatorias, especialmente cuando diferentes países tienen normas legales y entendimientos culturales distintos. Si bien los controles de exportación se han considerado como una herramienta importante para garantizar que las principales implementaciones de IA se adhieran a nuestras leyes y sistemas de valor, el éxito de DeepSeek subraya las limitaciones de tales medidas cuando las naciones competidoras pueden desarrollar y lanzar modelos de vanguardia (algo) de forma independiente.La naturaleza de código abierto de las versiones de DeepDeekka complica aún más la cuestión de la responsabilidad legal. Con los modelos disponibles gratuitamente para su modificación e implementación, la idea de que los desarrolladores de modelos pueden y abordarán efectivamente los riesgos planteados por sus modelos podría volverse cada vez más poco realista. En cambio, el enfoque regulatorio puede necesitar cambiar hacia las consecuencias posteriores del uso del modelo –, lo que podría asignar más responsabilidad a quienes implementan los modelos. el enfoque regulatorio puede necesitar cambiar hacia las consecuencias posteriores del uso del modelo –, lo que podría asignar más responsabilidad a quienes implementan los modelos. el enfoque regulatorio puede necesitar cambiar hacia las consecuencias posteriores del uso del modelo –, lo que podría asignar más responsabilidad a quienes implementan los modelos.

Amy Zegart
Morris Arnold y Nona Jean Cox Senior Fellow en la Hoover Institution, Senior Fellow en el Freeman Spogli Institute for International Studies, en Stanford HAI, y Professor, por cortesía, de Political Science

Las últimas semanas de DeepSeek deep freak se han centrado en chips y fosos. ¿Cuánto almacenó, contrabandeó o innovó DeepSeek en torno a los controles de exportación de los Estados Unidos? ¿Cuántos y qué tipo de chips se necesitan para que los investigadores innoven en la frontera ahora, a la luz de los avances de DeepSeekka? ¿Los hiperescaladores de Estados Unidos como OpenAI terminaron gastando miles de millones construyendo fosos competitivos o una línea Maginot que simplemente daba la ilusión de seguridad? Todas estas son preguntas importantes, y las respuestas llevarán tiempo.

Casi todos los 200 ingenieros que escribieron el innovador artículo R1 el mes pasado fueron educados en universidades chinas, y aproximadamente la mitad han estudiado y trabajado en ningún otro lugar. Esto debería ser una bandera roja para los formuladores de políticas de los Estados Unidos.”Amy Zegart

Sin embargo, tres serias implicaciones geopolíticas ya son evidentes. Primero, DeepSeek tuvo éxito con talento local. Casi todos los 200 ingenieros que escribieron el innovador artículo R1 el mes pasado fueron educados en universidades chinas, y aproximadamente la mitad han estudiado y trabajado en ningún otro lugar. Esto debería ser una bandera roja para los formuladores de políticas de los Estados Unidos. En la era tecnológica, el talento es una fuente importante de poder nacional. El mantra “los Estados Unidos atrae a los mejores talentos del mundo” se pronuncia con frecuencia, pero es cada vez más incorrecto. El aumento de los niveles educativos y las mejoras dramáticas en las instituciones de educación superior en China y en otras partes del mundo están rediseñando el mapa del poder del conocimiento. Mientras tanto, la educación K-12 de los Estados Unidos está en ruinas, con los jóvenes de 15 años de Estados Unidos anotando un triste 34o en matemáticas durante la última prueba internacional – detrás de Eslovenia y Vietnam.

En segundo lugar, DeepSeek no copió a las empresas de los Estados Unidos. Copió universidades de Estados Unidos. La startup contrató a ingenieros jóvenes, no a manos experimentadas de la industria, y les dio libertad y recursos para hacer “ciencia loca” dirigida a un descubrimiento a largo plazo por sí mismo, no al desarrollo de productos para el próximo trimestre. La comercialización es una parte esencial de la innovación. Pero los avances a menudo comienzan con una investigación fundamental que no tiene un producto o beneficio previsible en mente. Este tipo de investigación fundamental es el alma de las universidades, y ha respaldado el liderazgo en innovación de los Estados Unidos durante décadas – dando lugar a todo, desde satélites cúbicos hasta vacunas COVID-19. Sin embargo, hoy en día, China está invirtiendo seis veces más rápido en investigación fundamental que el gobierno de los Estados Unidos y, si las tendencias actuales continúan, China invertirá más que los Estados Unidos dentro de una década.Este es un campo de batalla de innovación crucial a largo plazo, y Estados Unidos lo está cediendo.

En tercer lugar, el anuncio de DeepSeekka afectó a los mercados de Estados Unidos, lo que llevó a una disminución del 3% en el compuesto NASDAQ y una disminución del 17% en las acciones de NVIDIA, borrando $600 mil millones en valor. Fue la mayor pérdida de un solo día de una empresa en la historia de Estados Unidos y una cifra tan masiva que equivale al 65% del presupuesto anual de defensa de Estados Unidos. Esta consecuencia involuntaria hoy podría ser la consecuencia prevista del mañana. Imagine que un adversario anuncia deliberadamente un avance tecnológico real o fraudulento para castigar a una empresa específica o sacudir los mercados de capitales de otra nación. Esta arma económica de la zona gris podría ser precisamente dirigida o masiva. Podría ser difícil, quizás imposible, atribuirlo como una actividad deliberada. Y funciona mejor si viene sin previo aviso.

¿Minudable? La última década ha visto el aumento de la impresionante actividad de la zona gris en otros dominios, desde Rusia “pequeños hombres verdes” marchando hacia Crimea sin uniformes que afirman ser unidades locales de autodefensa ucranianas a operaciones de influencia cibernéticas realizadas por Rusia, China, Irán y otras naciones para inflamar la opinión pública y dar forma a las elecciones en todo el mundo.

DeepSeek simplemente lanzó nuevos avances de IA; reveló los contornos de una era geopolítica floreciente que tiene nuevas fuentes de poder nacional y nuevos campos de batalla. Stanford Report News. Traducido al español

Artículos relacionados

Scroll al inicio