Se reconoce ampliamente que escalar continuamente tanto el tamaño de los datos como el tamaño del modelo puede generar mejoras significativas en la inteligencia del modelo.
Sin embargo, la comunidad de investigación e industria tiene una experiencia limitada en escalar eficazmente modelos extremadamente grandes, ya sean modelos densos o de mezcla de expertos (MoE). Muchos detalles críticos con respecto a este proceso de escalado solo se revelaron con el reciente lanzamiento de DeepSeek V3. Al mismo tiempo, estamos desarrollando Qwen2.5-Max, un modelo MoE a gran escala que ha sido entrenado previamente en más de 20 billones de tokens y entrenado posteriormente con metodologías seleccionadas de ajuste fino supervisado (SFT) y aprendizaje de refuerzo a partir de retroalimentación humana (RLHF). Hoy, estamos emocionados de compartir los resultados de rendimiento de Qwen2.5-Max y anunciar la disponibilidad de su API a través de Alibaba Cloud. ¡También lo invitamos a explorar Qwen2.5-Max en Qwen Chat !
Actuación
Evaluamos Qwen2.5-Max junto con los modelos líderes, ya sean propietarios o de peso abierto, en una variedad de puntos de referencia que son de gran interés para la comunidad. Estos incluyen MMLU-Pro, que prueba el conocimiento a través de problemas de nivel universitario, LiveCodeBench, que evalúa las capacidades de codificación, LiveBench, que prueba de manera integral las capacidades generales, y Arena-Hard, que se aproxima a las preferencias humanas. Nuestros hallazgos incluyen los puntajes de rendimiento tanto para los modelos básicos como para los modelos instructivos.
Comenzamos comparando directamente el rendimiento de los modelos de instrucciones, que pueden servir para aplicaciones posteriores, como chat y codificación. Presentamos los resultados de rendimiento de Qwen2.5-Max junto con los modelos de última generación líderes, incluidos DeepSeek V3, GPT-4o y Claude-3.5-Sonnet.
Qwen2.5-Max supera a DeepSeek V3 en pruebas de referencia como Arena-Hard, LiveBench, LiveCodeBench y GPQA-Diamond, al tiempo que demuestra resultados competitivos en otras evaluaciones, incluida MMLU-Pro.
Al comparar los modelos base, no podemos acceder a los modelos propietarios como GPT-4o y Claude-3.5-Sonnet. Por lo tanto, evaluamos Qwen2.5-Max contra DeepSeek V3, un modelo MoE de peso abierto líder, Llama-3.1-405B, el modelo denso de peso abierto más grande, y Qwen2.5-72B, que también se encuentra entre los mejores modelos densos de peso abierto. Los resultados de esta comparación se presentan a continuación.
Nuestros modelos base han demostrado ventajas significativas en la mayoría de los puntos de referencia y somos optimistas de que los avances en las técnicas posteriores al entrenamiento elevarán la próxima versión de Qwen2.5-Max a nuevas alturas.
Utilice Qwen2.5-Max
Ahora Qwen2.5-Max está disponible en Qwen Chat, y puedes chatear directamente con el modelo, o jugar con artefactos, buscar, etc.
La API de Qwen2.5-Max (cuyo nombre de modelo es qwen-max-2025-01-25
) está disponible. Primero puede registrar una cuenta de Alibaba Cloud y activar el servicio Alibaba Cloud Model Studio, y luego navegar a la consola y crear una clave API.
Dado que las API de Qwen son compatibles con OpenAI-API, podemos seguir directamente la práctica habitual de usar las API de OpenAI. A continuación, se muestra un ejemplo de uso de Qwen2.5-Max en Python:
from openai import OpenAI
import os
client = OpenAI(
api_key=os.getenv("API_KEY"),
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
model="qwen-max-2025-01-25",
messages=[
{'role': 'system', 'content': 'You are a helpful assistant.'},
{'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'}
]
)
print(completion.choices[0].message)
Trabajo futuro
La ampliación de los datos y del tamaño de los modelos no solo muestra avances en la inteligencia de los modelos, sino que también refleja nuestro compromiso inquebrantable con la investigación pionera. Nos dedicamos a mejorar las capacidades de pensamiento y razonamiento de los grandes modelos lingüísticos mediante la aplicación innovadora del aprendizaje por refuerzo a escala. Este esfuerzo promete permitir que nuestros modelos trasciendan la inteligencia humana, desbloqueando el potencial para explorar territorios inexplorados de conocimiento y comprensión.
Qwen Team. Qwen2.5 technical report. Traducido al español