La nueva herramienta de implementación de GPU facilita la elección de una pila de software de IA, la implementación de un modelo y la gestión de una aplicación.
La IA Generativa (GenAI) se está convirtiendo rápidamente en un pilar de las estrategias empresariales modernas, y muchas organizaciones integran activamente las capacidades de IA en su software y flujos de trabajo. Si bien las empresas impulsan las pruebas de concepto (PoC), a menudo se requiere experiencia especializada para convertirlas en cargas de trabajo de producción, lo que dificulta el avance más allá de la implementación inicial.
Elegir una pila de IA: una tarea abrumadora y que requiere mucho tiempo
La rápida evolución de la IA, impulsada por nuevas técnicas, modelos mejorados, GPU de vanguardia e innovaciones de código abierto, añade una capa adicional de complejidad. Las organizaciones deben reevaluar constantemente sus stacks de IA para evitar depender de tecnologías obsoletas. Por ejemplo, los frecuentes lanzamientos de los modelos Llama por parte de Meta presentan oportunidades de innovación y desafíos para mantenerse al día con las últimas versiones durante las evaluaciones y los ajustes.
Más allá de la selección de modelos, las organizaciones se enfrentan a la compleja tarea de gestionar eficientemente los costosos recursos de computación de las GPU. Las decisiones sobre la compra, el escalado y la optimización de estos recursos se han vuelto cruciales para desenvolverse en el panorama de la IA generativa. Con estos factores en juego, las organizaciones deben perfeccionar continuamente sus estrategias para equilibrar la innovación con la practicidad.
Existen claras diferencias en cómo las organizaciones abordan su recorrido hacia la IA, desde usuarios de pequeña escala que operan entre 1 y 10 instancias de hardware hasta empresas que ejecutan clústeres de GPU masivos para desarrollar LLM de última generación.
Las organizaciones que gestionan clústeres a gran escala y entrenan modelos de lenguaje grande (LLM) de vanguardia suelen mantenerse a la vanguardia de los avances del sector, optimizando eficientemente la infraestructura mediante inversiones estratégicas en herramientas y técnicas. Y lo que es más importante, cuentan con ingenieros especializados en aprendizaje automático (ML) centrados en metodologías de IA generativa. Por otro lado, las empresas que buscan aplicar GenAI en casos prácticos, como el uso de LLM existentes, suelen buscar la orientación de proveedores de la nube o integradores de sistemas para comprender las mejores prácticas, las técnicas eficientes y los pasos básicos.
Tomemos como ejemplo el caso de una importante aseguradora que desarrollaba una prueba de concepto (PoC) para un chatbot de atención al cliente basado en IA. Al aprovechar el historial de interacciones con los clientes, buscaba reducir los tiempos de resolución y mejorar la calidad del soporte. Sin embargo, determinar el enfoque de ajuste adecuado, seleccionar el modelo ideal, integrarlo con los pipelines de MLOps y optimizar el uso de la GPU presentó desafíos complejos que requirieron una cuidadosa reflexión y meses de investigación para comenzar. Incluso la decisión de elegir los tipos de GPU ideales para este escenario y el crecimiento futuro, sumada a las preocupaciones sobre cómo escalar y gestionar esta infraestructura, alargaron el proyecto durante meses, lo que ralentizó el proceso.
Escenarios como estos son comunes en todas las industrias, lo que nos lleva a recurrir al mundo del código abierto para crear una nueva solución que ayude a agilizar el proceso de implementación para diferentes casos de uso.
Cómo las soluciones de código abierto pueden reducir el tiempo de implementación
Tras meses de trabajo identificando diversos escenarios, casos de uso recurrentes y patrones para aplicaciones de IA generativa, lanzamos OCI AI Blueprints . Esta plataforma de implementación gratuita y sin código se basa en Kubernetes e integra las mejores prácticas de Oracle, la infraestructura predeterminada y las configuraciones de la capa de aplicación de aprendizaje automático en un único archivo de manifiesto de implementación.
Cada manifiesto de blueprint se adapta a un escenario común de implementación de GenAI. En lugar de combinar manualmente los manifiestos YAML de Terraform para infraestructura y Kubernetes para configuraciones de software, mientras se elige entre bibliotecas, usar un blueprint proporciona los elementos necesarios para ponerlo en marcha en minutos con un solo clic dentro de la plataforma.
Sin embargo, lanzar una nueva aplicación de IA en una GPU es solo el primer paso. Gestionar las dependencias de la infraestructura de forma eficiente puede ser estresante, especialmente cuando las nuevas cargas de trabajo escalan inesperadamente. Esto requiere capacidades integrales de observabilidad y gestión de clústeres para consolidar la configuración de la pila de software y las decisiones sobre las dependencias de la infraestructura en un único plano de control.
El plano de control implementado por OCI AI Blueprints es un conjunto de proveedores que comprende las configuraciones relacionadas con múltiples componentes de software de código abierto como Prometheus, KEDA y KubeRay, así como las configuraciones de infraestructura relacionadas con OCI, como el Servicio de Almacenamiento de Archivos (FSS), que conforman el archivo de manifiesto de implementación. Un desarrollador ya no necesita incorporar manualmente FSS como parte de la implementación de su aplicación de aprendizaje automático, ya que el plano de control cuenta con la lógica necesaria para comprender y crear uno sin necesidad de acceder a la consola de OCI.
Por ejemplo, la gestión de LLM, que implica la implementación de modelos de lenguaje preentrenados para gestionar solicitudes de inferencia en entornos de producción, es un caso de uso cotidiano para los chatbots. Investigar las plataformas de software, el hardware óptimo y las configuraciones de Kubernetes necesarias, entre otras cosas, puede requerir semanas de evaluación. El siguiente manifiesto de implementación de OCI AI Blueprint incluye componentes de infraestructura, configuraciones de replicación mediante KEDA y ajustes de escala basados en Prometheus, código vLLM, integración con el servidor de inferencia LLM y un LLM. Todo en un único manifiesto de implementación, lo que facilita y simplifica el proceso.{ «id_receta»: «llm_inference_nvidia», «modo_receta»: «servicio», «nombre_implementación»: «Implementación de inferencia vLLM», «uri_imagen_receta»: «iad.ocir.io/iduyx1qnmway/corrino-devops-repository:vllmv0.6.2», «forma_nodo_receta»: «VM.GPU.A10.2», «almacenamiento_de_objetos_de_entrada»: [ { «par»: «https://objectstorage.us-ashburn-1.oraclecloud.com/p/IFknABDAjiiF5LATogUbRCcVQ9KL6aFUC1j-P5NSeUcaB2lntXLaR935rxa-E-u1/n/iduyx1qnmway/b/corrino_hf_oss_models/o/», «ubicación_de_montaje»: «/modelos», «volumen_en_gb»: 500, «include»: [«NousResearch/Meta-Llama-3.1-8B-Instruct»] } ], «recipe_container_env»: [ { «clave»: «tensor_paralelo_tamaño», «valor»: «2» }, { «clave»: «nombre_del_modelo», «valor»: «NousResearch/Meta-Llama-3.1-8B-Instruct» } ], «recipe_replica_count»: 1, «recipe_node_pool_size»: 1, «recipe_nvidia_gpu_count»: 1, «recipe_node_autoscaling_params»: { «min_nodes»: 1, «max_nodes»: 4, «collect_metrics_times»: «2m», «scaling_threshold»: 0.4, «scaling_cooldown»: 30, «intervalo_de_sondeo»: 10, «ventana_de_estabilización_bajada»: 60, «ventana_de_estabilización_arriba»: 30, «ventana_de_estabilización_arriba»: 30, «ventana_de_escalamiento_arriba»: 15 }, «parámetros_de_autoescalado_de_recetas_pod»: { «réplicas_mínimas»: 1, «réplicas_máximas»: 8 }}
Un cliente utilizó esta receta de inferencia para activar rápidamente nodos de GPU e implementar LLM multimodales para casos de uso de procesamiento por lotes de documentos e imágenes en su plataforma de gestión de procesos de negocio. Anteriormente, el proceso tardaba semanas, pero una solución de código abierto y sin código permitió a su equipo automatizarlo por completo y lograr el éxito en pocos días. Además, con el escalado automático y el almacenamiento compartido implementados y gestionados mediante este modelo, se optimizó el uso de los recursos de la GPU para este escenario de inferencia por lotes.
Gracias a las herramientas de código abierto, no es necesario ser ingeniero de aprendizaje automático ni tener experiencia especializada para implementar estos planos. Estos planos están empaquetados y simplificados para su implementación a través de una plataforma dedicada de OCI AI Blueprints, pero son lo suficientemente flexibles como para que un desarrollador utilice implementaciones basadas en API.
Obtenga más información sobre OCI AI Blueprints o visite el repositorio de GitHub para comenzar.
ORACLE Blog. A. G., M. W. y V. K. Traducido al español