Cisco IT diseñó una infraestructura lista para IA con cómputo de Cisco, las mejores GPU NVIDIA de su clase y redes de Cisco que admiten capacitación e inferencia de modelos de IA en docenas de casos de uso para equipos de ingeniería y productos de Cisco.
No es ningún secreto que la presión para implementar la IA en todo el negocio presenta desafíos para los equipos de TI. Nos desafía a implementar nuevas tecnologías más rápido que nunca y repensar cómo se construyen los centros de datos para satisfacer las crecientes demandas en computación, redes y almacenamiento. Si bien el ritmo de la innovación y el avance empresarial es estimulante, también puede parecer desalentador.
¿Cómo construye rápidamente la infraestructura del centro de datos necesaria para impulsar las cargas de trabajo de IA y mantenerse al día con las necesidades comerciales críticas? Esto es exactamente lo que nuestro equipo, Cisco IT, estaba enfrentando.
La pregunta del negocio
Nos contactó un equipo de productos eso necesitaba una forma de ejecutar cargas de trabajo de IA que se utilizaría para desarrollar y probar nuevas capacidades de IA para productos Cisco. Lo Es eventualmente apoyaría la capacitación de modelos y la inferencia para múltiples equipos y dormitarns de casos de uso en todo el negocio. Y lo necesitaban hacer rápidamente. Con el necesidad para los equipos de productos para llevar innovaciones a nuestros clientes tan rápido como posible, nosotros tuvo que entregar el nuevo entorno en solo tres meses.
Los requisitos tecnológicos
Comenzamos por trazar los requisitos para la nueva infraestructura de IA. Una red sin bloqueos y sin pérdidas era esencial con el tejido de cómputo de IA para garantizar una transmisión de datos confiable, predecible y de alto rendimiento dentro del clúster de IA. Ethernet fue la elección de primera clase. Otros requisitos incluidos:
- Búfer inteligente, baja latencia: Al igual que cualquier buen centro de datos, estos son esenciales para mantener un flujo de datos fluido y minimizar los retrasos, así como para mejorar la capacidad de respuesta del tejido de IA.
- Evitación dinámica de congestión para diversas cargas de trabajo: Las cargas de trabajo de IA pueden variar significativamente en sus demandas de recursos de red y computación. La evitación dinámica de la congestión garantizaría que los recursos se asignaran de manera eficiente, evitaría la degradación del rendimiento durante el uso máximo, mantendría niveles de servicio consistentes y evitaría cuellos de botella que podrían interrumpir las operaciones.
- Redes front-end y back-end dedicadas, tejido no bloqueante: Con el objetivo de construir una infraestructura escalable, a tejido no bloqueante garantizaría suficiente ancho de banda para que los datos fluyan libremente, así como permitiría una transferencia de datos de alta velocidad —, que es crucial para manejar grandes volúmenes de datos típicos de las aplicaciones de IA. Al segregar nuestras redes front-end y back-end, podríamos mejorar la seguridad, el rendimiento y la confiabilidad.
- Automatización para las operaciones del Día 0 al Día 2: Desde el día en que implementamos, configuramos y abordamos la gestión continua, tuvimos que reducir cualquier intervención manual para mantener los procesos rápidos y minimizar el error humano.
- Telemetría y visibilidad: Juntas, estas capacidades proporcionarían información sobre el rendimiento y la salud del sistema, lo que permitiría una gestión proactiva y la solución de problemas.
El plan – con algunos desafíos que superar
Con los requisitos establecidos, comenzamos a averiguar dónde se podría construir el clúster. Las instalaciones existentes del centro de datos no fueron diseñadas para soportar cargas de trabajo de IA. Sabíamos que construir desde cero con una actualización completa del centro de datos tomaría 18-24 meses –, lo que no era una opción. Necesitábamos entregar una infraestructura de IA operativa en cuestión de semanas, por lo que aprovechamos una instalación existente con cambios menores en el cableado y la distribución de dispositivos para acomodar.
Nuestras siguientes preocupaciones fueron sobre los datos que se utilizan para entrenar modelos. Dado que algunos de esos datos no se almacenarían localmente en la misma instalación que nuestra infraestructura de IA, decidimos replicar datos de otros centros de datos en nuestros sistemas de almacenamiento de infraestructura de IA para evitar problemas de rendimiento relacionados con la latencia de la red. Nuestro equipo de red tuvo que garantizar la capacidad de red suficiente para manejar esta replicación de datos en la infraestructura de IA.
Ahora, llegar a la infraestructura real. Diseñamos el corazón de la infraestructura de IA con cómputo de Cisco, las mejores GPU de su clase de NVIDIA y redes de Cisco. En el lado de la red, construimos una red ethernet de front-end y una red ethernet sin pérdidas de back-end. Con este modelo, confiamos en que podríamos implementar rápidamente capacidades avanzadas de IA en cualquier entorno y continuar agregándolas a medida que trajimos más instalaciones en línea.
Productos:
- Serie Cisco 8100 integrada con Silicon One corriendo SONiC
- Cisco Nexus 9000 Series con NX-OS
- Panel Cisco Nexus
- UCS M7 Cisco
Apoyando un entorno en crecimiento
Después de hacer que la infraestructura inicial estuviera disponible, la empresa agregó más casos de uso cada semana y agregamos clústeres de IA adicionales para respaldarlos. Necesitábamos una forma de facilitar la administración, incluida la administración de las configuraciones de los conmutadores y el monitoreo de la pérdida de paquetes. Utilizamos Cisco Nexus Dashboard, que simplificó drásticamente las operaciones y aseguró que pudiéramos crecer y escalar para el futuro. Ya lo estábamos usando en otras partes de las operaciones de nuestro centro de datos, por lo que era fácil extenderlo a nuestra infraestructura de IA y no requería que el equipo aprendiera una herramienta adicional.
Los resultados
Nuestro equipo pudo moverse rápido y superar varios obstáculos en el diseño de la solución. Pudimos diseñar e implementar el backend del tejido AI en menos de tres horas e implementar todo el clúster y las telas AI en 3 meses, que fue un 80% más rápido que la reconstrucción alternativa.
Hoy en día, el entorno admite más de 25 casos de uso en todo el negocio, con más añadidos cada semana. Esto incluye:
- Webex Audio: Mejora del desarrollo de códecs para la cancelación de ruido y menor predicción de datos de ancho de banda
- Webex Video: Modelo de entrenamiento para reemplazo de fondo, reconocimiento de gestos y puntos de referencia faciales
- Capacitación personalizada de LLM para productos y capacidades de ciberseguridad
No solo pudimos apoyar las necesidades del negocio hoy, sino que weisre diseñar cómo nuestros centros de datos necesitan evolucionar para el futuro. Estamos construyendo activamente más grupos y compartiremos detalles adicionales sobre nuestro viaje en futuros blogs.La modularidad y flexibilidad de las redes de Cisco calculary la seguridad nos da la confianza de que podemos seguir escalando con el negocio. Cisco Blog. J. W. y L. W. Traducido al español