Las últimas herramientas y funciones de inteligencia artificial aceleran el desarrollo de aplicaciones de Windows en PC con RTX AI.
Las computadoras portátiles y PC con tecnología de IA generativa están generando avances en juegos, creación de contenido, productividad y desarrollo. Hoy, más de 600 aplicaciones y juegos de Windows ya ejecutan IA localmente en más de 100 millones de PC con IA GeForce RTX en todo el mundo, lo que brinda un rendimiento rápido, confiable y de baja latencia.
En Microsoft Ignite, NVIDIA y Microsoft anunciaron herramientas para ayudar a los desarrolladores de Windows a crear y optimizar rápidamente aplicaciones impulsadas por IA en PC con IA RTX, lo que hace que la IA local sea más accesible. Estas nuevas herramientas permiten a los desarrolladores de aplicaciones y juegos aprovechar las potentes GPU RTX para acelerar los flujos de trabajo complejos de IA para aplicaciones como agentes de IA, asistentes de aplicaciones y humanos digitales.
Las PC con inteligencia artificial RTX potencian a los humanos digitales con pequeños modelos de lenguaje multimodal
NVIDIA ACE es un conjunto de tecnologías digitales humanas que dan vida a agentes, asistentes y avatares. Para lograr un mayor nivel de comprensión y poder responder con mayor conciencia del contexto, los humanos digitales deben poder percibir visualmente el mundo como lo hacen los humanos.
Para mejorar las interacciones humanas digitales con mayor realismo se necesita una tecnología que permita la percepción y la comprensión de su entorno con mayor matiz. Para lograrlo, NVIDIA desarrolló pequeños modelos de lenguaje multimodales que pueden procesar tanto texto como imágenes, son excelentes para los juegos de rol y están optimizados para tiempos de respuesta rápidos.
El modelo NVIDIA Nemovision-4B-Instruct, que pronto estará disponible, utiliza el último marco NVIDIA VILA y NVIDIA NeMo para destilar, podar y cuantificar para que sea lo suficientemente pequeño como para funcionar en GPU RTX con la precisión que necesitan los desarrolladores.
El modelo permite a los humanos digitales comprender imágenes visuales en el mundo real y en la pantalla para ofrecer respuestas relevantes. La multimodalidad sirve como base para los flujos de trabajo de los agentes y ofrece un adelanto de un futuro en el que los humanos digitales pueden razonar y actuar con una asistencia mínima de un usuario.
NVIDIA también presentará la familia Mistral NeMo Minitron 128k Instruct, un conjunto de modelos de lenguaje pequeños de contexto grande diseñados para interacciones humanas digitales optimizadas y eficientes, que se lanzará próximamente. Disponibles en versiones de 8B, 4B y 2B parámetros, estos modelos ofrecen opciones flexibles para equilibrar la velocidad, el uso de memoria y la precisión en las PC con inteligencia artificial RTX. Pueden manejar grandes conjuntos de datos en una sola pasada, lo que elimina la necesidad de segmentación y reensamblaje de datos. Construidos en el formato GGUF, estos modelos mejoran la eficiencia en dispositivos de bajo consumo y admiten la compatibilidad con múltiples lenguajes de programación.
Impulse la inteligencia artificial con NVIDIA TensorRT Model Optimizer para Windows
Al incorporar modelos a entornos de PC, los desarrolladores se enfrentan al desafío de contar con recursos de computación y memoria limitados para ejecutar la IA localmente. Además, quieren que los modelos estén disponibles para la mayor cantidad de personas posible, con una pérdida mínima de precisión.
Hoy, NVIDIA anunció actualizaciones de NVIDIA TensorRT Model Optimizer (ModelOpt) para ofrecer a los desarrolladores de Windows una forma mejorada de optimizar modelos para la implementación de ONNX Runtime.
Con las últimas actualizaciones, TensorRT ModelOpt permite optimizar los modelos en un punto de control ONNX para implementar el modelo dentro de entornos de ejecución de ONNX, utilizando proveedores de ejecución de GPU como CUDA, TensorRT y DirectML.
TensorRT-ModelOpt incluye algoritmos de cuantificación avanzados, como INT4-Activation Aware Weight Quantization. En comparación con otras herramientas como Olive, el nuevo método reduce el consumo de memoria del modelo y mejora el rendimiento en las GPU RTX.
Durante la implementación, los modelos pueden tener una huella de memoria hasta 2,6 veces menor en comparación con los modelos FP16. Esto da como resultado un rendimiento más rápido, con una degradación mínima de la precisión, lo que les permite ejecutarse en una gama más amplia de PC. nvidia News. Traducido al español