El Portal de las Tecnologías para la Innovación

Cómo la IA Cambia los Requisitos de Infraestructura de su Red

Las redes tradicionales deben evolucionar para ejecutar cargas de trabajo de IA y transmitir datos a través de clústeres de GPU distribuidos de manera eficiente y confiable

A medida que las empresas avanzan en las diversas etapas de madurez de la IA, descubren continuamente nuevos requisitos de infraestructura. Uno de esos requisitos es transformar su infraestructura de red para ejecutar cargas de trabajo de IA en GPU. Dada su importante inversión en la adquisición y administración de GPU, las empresas deben asegurarse de que estos servidores se ejecuten constantemente, sin interrupciones de conectividad, desafíos de latencia o problemas de ancho de banda.

Tradicionalmente, Ethernet ha sido la opción para las redes de CPU. Sin embargo, las demandas informáticas de alto rendimiento de procesar cargas de trabajo de IA en grandes grupos de GPU distribuidas han elevado el listón del rendimiento, la escalabilidad y la eficiencia. Las aplicaciones como el procesamiento del lenguaje natural, la visión por computadora, los sistemas avanzados de asistencia al conductor (ADAS), los asistentes virtuales y los diagnósticos médicos requieren redes de baja latencia y alto ancho de banda que puedan manejar eficientemente cargas de trabajo complejas. Si la red no puede suministrar datos a las GPU lo suficientemente rápido, estarán infrautilizadas, lo que hará que el hardware no entregue el valor esperado por el costo.

Las tecnologías maduras, incluidas InfiniBand™ y Remote Direct Memory Access Over Converged Ethernet (RoCE), están comenzando a emerger como las mejores opciones para la infraestructura de red en centros de datos listos para IA. Otro contribuyente a la evolución de las tecnologías de red es el Ultra Ethernet Consortium (UEC), una parte neutral que desarrolla protocolos en torno a redes de alta velocidad y especificaciones basadas en tecnologías Ethernet, que serán de gran interés para las empresas en el futuro. Muchas compañías líderes que desarrollan hardware o software de IA están participando en varios niveles de membresía dentro de la organización.

Las tecnologías de infraestructura de red para IA continuarán evolucionando y desempeñarán un papel importante en la habilitación de las cargas de trabajo de IA que se ejecutan centros de datos de alto rendimiento.

Exploración de opciones para tecnologías de redes de IA

La elección de las tecnologías de red de IA adecuadas depende de los tipos de carga de trabajo de IA que las empresas están ejecutando, el volumen de datos que procesan y la cantidad de clústeres de GPU que necesitan conectarse entre sí.

Además de resolver los desafíos de las redes de IA relacionados con la baja latencia y el alto ancho de banda, estas tecnologías pueden permitir un entorno de red sin pérdidas para ayudar a superar los cuellos de botella en el rendimiento de la red que ocurren naturalmente en los sistemas distribuidos a gran escala. Los datos enviados a través de la red deben llegar a su destino sin perderse ni corromperse. Las redes sin pérdida eliminan o reducen significativamente la pérdida de paquetes, asegurando la integridad y confiabilidad de los datos.

InfiniBanda[1] es una tecnología de alto ancho de banda y baja latencia que ha existido durante más de veinte años, pero hasta ahora ha sido relativamente desconocida. Permite un alto rendimiento y una latencia ultrabaja de extremo a extremo para enormes cantidades de datos que se mueven en distancias cortas (típicamente dentro de un centro de datos). Esto hace que InfiniBand sea una solución ideal para ejecutar cargas de trabajo de IA en clústeres de GPU.

InfiniBand utiliza sus propios adaptadores o conmutadores para facilitar las transferencias de datos, lo que la convierte en una solución premium. El control de extremo a extremo está integrado en el protocolo para lograr una red sin pérdidas, en lugar de lidiar con las retransmisiones y pausas de una red Ethernet típica. Esto ayuda a controlar la cantidad de datos liberados a la red, evitando el desbordamiento de búfer y la pérdida de paquetes. Las empresas confían en InfiniBand para obtener velocidad y confiabilidad en entornos informáticos de alto rendimiento.

RoCE[2] es una tecnología basada en Ethernet que proporciona redes de alto rendimiento para cargas de trabajo de IA. Es más flexible y menos costoso que InfiniBand y es ideal para empresas con cargas de trabajo de IA que no requieren velocidades de procesamiento rápidas. RoCE es una tecnología de red más familiar que InfiniBand. Debido a que es un protocolo de capa 3, se puede enrutar, lo que permite transferencias de datos y conectividad potencialmente más largas a otras redes. También hay más fabricantes, lo que lleva a más opciones en equipos.

Consorcio Ultra Ethernet[3] lidera el desarrollo de Ultra Ethernet Transport (UET). UET es una arquitectura de pila de comunicación basada en Ethernet para redes de alto rendimiento que satisfará las demandas de AI y HPC con soluciones robustas, escalables y de vanguardia basadas en estándares. Si bien aún es temprano en su desarrollo, es probable que tenga un impacto pronto, ya que muchas empresas líderes están involucradas en él.

UEC planea impulsar el desarrollo de nuevo software y hardware para aumentar las velocidades de procesamiento y resolver otras barreras de redes de IA. Por ejemplo, actualmente, existen límites en el número de nodos interconectados concurrentes. Estos están determinados por una combinación de tipo de red, protocolos, capacidades de hardware y configuración adecuada. UEC planea introducir una solución para aumentar esos límites.

Industrias con requisitos de red extremos para cargas de trabajo de IA

Si bien todas las industrias requieren redes de alto rendimiento para procesar cargas de trabajo de IA, hay algunas donde los requisitos de rendimiento son especialmente altos. Ciertos casos de uso específicos de la industria exigen la velocidad de red más rápida posible y transferencias de datos confiables para completar la capacitación en modelos sensibles al tiempo.

Por ejemplo, las empresas de ciencias de la vida pueden capacitar modelos de IA para identificar compuestos que los médicos pueden usar para tratar enfermedades de maneras nuevas y más efectivas. Imagine los mejores resultados para los pacientes que pueden impulsar mediante la introducción de tratamientos innovadores que utilizan estos compuestos recién identificados.

Considere el gran volumen de datos que las compañías de tarjetas de crédito acumulan de sus clientes. Pueden capacitar a sus modelos de IA para extraer información y ayudarlos a identificar nuevos productos y servicios para que se combinen con las ofertas existentes, generando ingresos adicionales y mejorando la satisfacción del usuario.

Las empresas de sistemas avanzados de asistencia al conductor (ADAS) deben ingerir y migrar volúmenes masivos de datos de prueba desde el campo para su análisis y procesamiento. Estas compañías pueden capacitar a sus modelos de IA para desarrollar y respaldar soluciones avanzadas de asistencia al conductor y conducción autónoma.

Posicionar la infraestructura de red específica de IA en los lugares correctos

Cuando se trata de implementar infraestructura de red para IA, la ubicación es importante. Los centros de datos listos para la IA de Equinix están ubicados estratégicamente en los mercados más conectados del mundo y proporcionan una base de infraestructura escalable que las empresas pueden usar para avanzar en sus capacidades de IA.

Las tecnologías de procesamiento de IA tienen requisitos de potencia y refrigeración mucho más altos que las tecnologías tradicionales. Los centros de datos listos para la IA pueden proporcionar la capacidad de energía confiable y las tecnologías de enfriamiento de alta densidad necesarias para admitir la próxima generación de cargas de trabajo de IA intensivas en energía.

Nuestras instalaciones distribuidas a nivel mundial y altamente interconectadas acercan a las empresas a los proveedores de servicios en la nube y en red y a los ecosistemas específicos de la industria, incluidos los proveedores de hardware y software de IA. Con una red de centros de datos en 70+ mercados clave en 34 países, habilitamos el alcance global, el cumplimiento y las conexiones rápidas y de baja latencia para un rendimiento de red superior.

Además de proporcionar servicios de colocación tradicionales, ofrecemos la flexibilidad de servicios digitales, soluciones de conectividad privada y acceso a 220+ rampas de acceso a la nube a todos los principales proveedores.

Visite nuestro sitio web para descubrir cómo Centros de datos listos para IA de Equinix admite aplicaciones exigentes de IA, computación y almacenamiento hoy y lo ayuda a escalar para mañana. Equinix Blog. T. K. Traducido al español

Artículos relacionados

Scroll al inicio