El Portal de las Tecnologías para la Innovación

Alibaba lanza un desafío «abierto» al modelo de razonamiento o1 de OpenAI

Ha llegado a la escena un nuevo modelo de IA denominado «razonable», QwQ-32B-Preview. 

Es uno de los pocos que rivaliza con el o1 de OpenAI y es el primero que se puede descargar con una licencia permisiva.

Desarrollado por el equipo Qwen de Alibaba, QwQ-32B-Preview contiene 32,5 mil millones de parámetros y puede considerar indicaciones de hasta ~32,000 palabras de longitud; tiene un mejor desempeño en ciertos puntos de referencia que o1-preview y o1-mini, los dos modelos de razonamiento que OpenAI ha lanzado hasta ahora. (Los parámetros corresponden aproximadamente a las habilidades de resolución de problemas de un modelo, y los modelos con más parámetros generalmente tienen un mejor desempeño que aquellos con menos parámetros. OpenAI no revela el recuento de parámetros de sus modelos).

Según las pruebas de Alibaba, QwQ-32B-Preview supera al modelo o1-preview de OpenAI en las pruebas AIME y MATH. AIME utiliza otros modelos de IA para evaluar el rendimiento de un modelo, mientras que MATH es una colección de problemas de palabras.

QwQ-32B-Preview puede resolver problemas de lógica y responder a preguntas matemáticas bastante complejas gracias a sus capacidades de “razonamiento”. Pero no es perfecto. Alibaba señala en una publicación de blog que el modelo puede cambiar de idioma inesperadamente, quedarse atascado en bucles y tener un rendimiento inferior en tareas que requieren “razonamiento de sentido común”.

Vista previa de Alibaba QwQ-32B
Créditos de la imagen: Alibaba

A diferencia de la mayoría de las IA, QwQ-32B-Preview y otros modelos de razonamiento verifican los hechos de manera eficaz. Esto les ayuda a evitar algunos de los  problemas  que normalmente enfrentan los modelos, con la desventaja de que suelen tardar más en llegar a las soluciones. De manera similar a o1, QwQ-32B-Preview razona a través de tareas, planificando con anticipación y realizando una serie de acciones que ayudan al modelo a obtener respuestas.

QwQ-32B-Preview, que se puede ejecutar y descargar desde la plataforma de desarrollo de IA Hugging Face, parece ser similar al modelo de razonamiento DeepSeek publicado recientemente en el sentido de que no se desentiende de ciertos temas políticos. Alibaba y DeepSeek, al ser empresas chinas, están sujetas a  evaluaciones comparativas  por parte del regulador de Internet de China para garantizar que las respuestas de sus modelos «incorporen valores socialistas fundamentales».  Muchos  sistemas de IA chinos se niegan a responder a temas que podrían provocar la ira de los reguladores, como la especulación sobre el régimen de Xi Jinping .

Vista previa de Alibaba QwQ-32B
Créditos de la imagen: Alibaba

Cuando se le preguntó si Taiwán es parte de China, QwQ-32B-Preview respondió que sí (y que también es “inalienable”), una perspectiva que no coincide con la de la mayoría del mundo, pero que coincide con la del partido gobernante de China. Mientras tanto, las preguntas sobre la Plaza de Tiananmen no obtuvieron respuesta.

QwQ-32B-Preview está disponible “abiertamente” bajo una licencia Apache 2.0, lo que significa que se puede utilizar para aplicaciones comerciales. Pero solo se han publicado ciertos componentes del modelo, lo que hace imposible replicar QwQ-32B-Preview o obtener mucha información sobre el funcionamiento interno del sistema. La “apertura” de los modelos de IA no es una cuestión resuelta, pero existe un continuo general que va desde los más cerrados (solo acceso a la API) hasta los más abiertos (modelo, ponderaciones, datos divulgados) y este se encuentra en algún punto intermedio.

La creciente atención que se presta a los modelos de razonamiento se produce en un momento en que se está poniendo en tela de juicio la viabilidad de las “leyes de escala”, teorías que se han mantenido durante mucho tiempo según las cuales si se añaden más datos y más potencia de cálculo a un modelo, sus capacidades se incrementarán de forma continua. Una  oleada  de artículos de prensa sugieren que los modelos de los principales laboratorios de inteligencia artificial, como OpenAI, Google y Anthropic, no están mejorando tan drásticamente como antes.

Esto ha llevado a una lucha por nuevos enfoques, arquitecturas y técnicas de desarrollo de IA, uno de los cuales es el cómputo en tiempo de prueba . También conocido como cómputo de inferencia, el cómputo en tiempo de prueba esencialmente brinda a los modelos tiempo de procesamiento adicional para completar tareas y sustenta modelos como o1 y QwQ-32B-Preview.

Además de OpenAI y otras empresas chinas, otros grandes laboratorios apuestan a que la computación en tiempo de prueba es el futuro. Según un informe reciente de The Information, Google ha ampliado a unas 200 personas un equipo interno centrado en modelos de razonamiento y ha añadido una importante capacidad de procesamiento a la iniciativa. TechCrunch. K. W. Traducido al español

Artículos relacionados

Scroll al inicio