MLCommons, un consorcio de ingeniería de IA basado en una filosofía de colaboración abierta, publicó recientemente los resultados de su conjunto de pruebas de rendimiento MLPerf Storage v2.0. En esta ronda de pruebas, el Instituto Jinan de Tecnología de Supercomputación (JNIST) y Huawei colaboraron para obtener resultados notables, con el almacenamiento de la serie OceanStor A ocupando el primer puesto mundial en múltiples métricas de rendimiento, incluyendo el rendimiento por sistema de almacenamiento, por unidad de rack y por cliente.
MLPerf Storage es el referente de referencia de la industria para medir el rendimiento del almacenamiento de IA, reconocido por su estricta estandarización y comparabilidad entre proveedores. Las pruebas de este año incluyeron a 26 proveedores principales.
Para el entrenamiento de modelos, la suite de benchmarks de almacenamiento MLPerf incluye la carga de trabajo 3D U-Net, centrada en el uso de la GPU y las capacidades de escalamiento horizontal. Evalúa la capacidad de los sistemas de almacenamiento para satisfacer las demandas de potencia de procesamiento de clústeres de IA a gran escala. Una novedad de esta versión es el modo de puntos de control, la primera prueba estándar del sector para evaluar el rendimiento de los puntos de control durante el entrenamiento de modelos de IA a gran escala. Abarca escenarios como el entrenamiento reanudable y el archivado de modelos. Estas pruebas ofrecen una valiosa guía para la selección del almacenamiento.
El almacenamiento Huawei OceanStor Serie A establece un nuevo récord mundial en rendimiento de entrenamiento de modelos, alcanzando los 698 GiB/s
En la prueba de entrenamiento 3D U-Net con uso intensivo de ancho de banda, los sistemas de almacenamiento de la serie Huawei OceanStor A ocuparon el primer lugar a nivel mundial en rendimiento en tres categorías, al tiempo que mantuvieron una utilización de la GPU por encima del 90 %.
- Un sistema OceanStor A800 de doble nodo de 8 U mantuvo un ancho de banda estable de 698 GiB/s, cumpliendo con los requisitos de entrenamiento en 255 GPU H100.
Caso de prueba 3D U-Net: N.° 1 en rendimiento por sistema de almacenamiento
- De manera similar, un sistema OceanStor A600 de doble nodo 2 U cumplió con los requisitos de entrenamiento en 76 GPU H100, con un ancho de banda de 108 GiB/s por unidad de rack y 104 GiB/s por cliente.
Caso de prueba 3D U-Net: N.° 1 en rendimiento por unidad de rack y por cliente
El almacenamiento de la serie OceanStor A ofrece un rendimiento de puntos de control 6,7 veces superior al del segundo mejor rendimiento
En la prueba de puntos de control, el almacenamiento de la serie Huawei OceanStor A ocupó el primer lugar en rendimiento en los escenarios de un solo cliente con ocho GPU simuladas.
- Llama3_8b: ancho de banda de lectura de 40,2 GiB/s y ancho de banda de escritura de 20,5 GiB/s.
- Llama3_70b: 68,8 GiB/s de ancho de banda de lectura y 62,4 GiB/s de ancho de banda de escritura, 6,7 veces más que el segundo puesto.
Caso de prueba de puntos de control: N.° 1 en rendimiento por cliente
El almacenamiento Huawei OceanStor Serie A acelera la adopción de grandes modelos de IA con innovaciones sucesivas
Diseñado específicamente para satisfacer la creciente demanda de potencia de procesamiento, el almacenamiento Huawei OceanStor serie A utiliza las últimas innovaciones tecnológicas para garantizar un rendimiento que se adapte al crecimiento de clientes y nodos. Ofrece un ancho de banda de clúster estable de cientos de TB, acceso optimizado a datos para entrenamiento a gran escala y aceleración integral del entrenamiento y la inferencia.
El almacenamiento OceanStor serie A ofrece alta escalabilidad (hasta capacidad de nivel EB), satisfaciendo así las necesidades de almacenamiento de datos masivos. En cuanto a la resiliencia de los datos, alcanza una fiabilidad del 99,999 % gracias a la innovación arquitectónica. El almacenamiento OceanStor serie A también crea un nuevo paradigma de datos con un conjunto de recursos de caché de clave-valor (KV) de nivel PB, lo que reduce el tiempo hasta el primer token (TTFT) hasta un 90 %, garantizando la precisión de la inferencia y multiplicando por más de diez el rendimiento de la inferencia en escenarios de secuencias largas. Además, el almacenamiento OceanStor serie A incorpora una base de conocimiento de recuperación-generación aumentada (RAG) y admite la recuperación multimodo de escalares, vectores, tensores y grafos, lo que reduce significativamente la barrera de entrada para el uso de grandes modelos de IA.
De cara al futuro, Huawei seguirá innovando en el almacenamiento de la serie OceanStor A, diseñado para computación de alto rendimiento (HPC) y para el entrenamiento e inferencia de grandes modelos de IA, trabajando con los clientes para construir un futuro inteligente.
Huawei News. Traducido al español