El Portal de las Tecnologías para la Innovación

Categoría: Inteligencia Artificial News

LM Studio acelera el rendimiento de LLM con las GPU NVIDIA GeForce RTX y CUDA 12.8

La última versión de la aplicación de escritorio ofrece herramientas de desarrollo y controles de modelos mejorados, así como un mejor rendimiento para las GPU RTX. A medida que los casos de uso de IA continúan expandiéndose (desde el resumen de documentos hasta agentes de software personalizados), los desarrolladores y entusiastas buscan formas más rápidas y flexibles de ejecutar modelos de lenguaje grandes ( LLM ). La ejecución local de modelos en PC con GPU NVIDIA GeForce RTX permite inferencia de alto rendimiento, mayor privacidad de datos y control total sobre la implementación e integración de la IA. Herramientas como LM Studio (de prueba gratuita) lo hacen posible, ofreciendo a los usuarios una forma sencilla de explorar y desarrollar con LLM en su propio hardware. LM Studio se ha convertido en una de las herramientas más utilizadas para la inferencia LLM local. Basada en el entorno de ejecución de alto rendimiento llama.cpp , la aplicación permite la ejecución de modelos completamente sin conexión y también puede servir como punto final de interfaz de programación de aplicaciones (API) compatible con OpenAI para su integración en flujos de trabajo personalizados. El lanzamiento de LM Studio 0.3.15 ofrece un rendimiento mejorado para las GPU RTX gracias a CUDA 12.8, lo que mejora significativamente la carga del modelo y los tiempos de respuesta. La actualización también incorpora nuevas funciones para desarrolladores, como un uso mejorado de las herramientas mediante el parámetro « tool_choice» y un editor de mensajes del sistema rediseñado. Las últimas mejoras de LM Studio optimizan su rendimiento y usabilidad, ofreciendo el mayor rendimiento hasta la fecha en PC con IA RTX. Esto se traduce en respuestas más rápidas, interacciones más ágiles y mejores herramientas para desarrollar e integrar IA localmente.  Donde las aplicaciones cotidianas se encuentran con la aceleración de la IA LM Studio está diseñado para ofrecer flexibilidad, ideal tanto para experimentación casual como para la integración completa en flujos de trabajo personalizados. Los usuarios pueden interactuar con los modelos mediante una interfaz de chat de escritorio o habilitar el modo desarrollador para servir puntos finales de API compatibles con OpenAI. Esto facilita la conexión de LLM locales a flujos de trabajo en aplicaciones como VS Code o agentes de escritorio personalizados. Por ejemplo, LM Studio se puede integrar con Obsidian , una popular aplicación de gestión del conocimiento basada en Markdown. Mediante complementos desarrollados por la comunidad, como Text Generator y Smart Connections , los usuarios pueden generar contenido, resumir investigaciones y consultar sus propias notas, todo ello con la tecnología de LLM locales que se ejecutan en LM Studio. Estos complementos se conectan directamente al servidor local de LM Studio, lo que permite interacciones de IA rápidas y privadas sin depender de la nube. La actualización 0.3.15 agrega nuevas capacidades para desarrolladores, incluido un control más granular sobre el uso de herramientas a través del parámetro “ tool_choice” y un editor de indicaciones del sistema mejorado para manejar indicaciones más largas o más complejas. El parámetro tool_choice permite a los desarrolladores controlar cómo interactúan los modelos con herramientas externas, ya sea forzando una llamada a la herramienta, deshabilitándola por completo o permitiendo que el modelo tome decisiones dinámicas. Esta mayor flexibilidad es especialmente valiosa para crear interacciones estructuradas, flujos de trabajo de generación aumentada por recuperación ( RAG ) o pipelines de agentes. En conjunto, estas actualizaciones mejoran los casos de uso de experimentación y producción para los desarrolladores que crean con LLM. LM Studio admite una amplia gama de modelos abiertos, incluidos Gemma, Llama 3, Mistral y Orca, y una variedad de formatos de cuantificación, desde 4 bits hasta precisión completa. Los casos de uso comunes incluyen RAG, chat multiturno con largas ventanas de contexto, preguntas y respuestas basadas en documentos y flujos de trabajo de agentes locales. Además, al usar servidores de inferencia locales con la tecnología de la biblioteca de software llama.cpp acelerada por NVIDIA RTX, los usuarios de PC con IA RTX pueden integrar fácilmente LLM locales. Ya sea para optimizar la eficiencia en un sistema compacto con tecnología RTX o para maximizar el rendimiento en un escritorio de alto rendimiento, LM Studio ofrece control total, velocidad y privacidad, todo en RTX. Experimente el máximo rendimiento en las GPU RTX La aceleración de LM Studio se basa en llama.cpp, un entorno de ejecución de código abierto diseñado para una inferencia eficiente en hardware de consumo. NVIDIA se asoció con las comunidades de LM Studio y llama.cpp para integrar diversas mejoras y maximizar el rendimiento de la GPU RTX. Las optimizaciones clave incluyen: Con un controlador compatible, LM Studio se actualiza automáticamente al entorno de ejecución CUDA 12.8, lo que permite tiempos de carga de modelos significativamente más rápidos y un mayor rendimiento general. Estas mejoras brindan una inferencia más fluida y tiempos de respuesta más rápidos en toda la gama de PC con RTX AI, desde computadoras portátiles delgadas y livianas hasta computadoras de escritorio y estaciones de trabajo de alto rendimiento. Comience a usar LM Studio LM Studio se puede descargar gratis y funciona en Windows, macOS y Linux. Con la última versión 0.3.15 y las optimizaciones continuas, los usuarios pueden esperar mejoras continuas en rendimiento, personalización y usabilidad, lo que hace que la IA local sea más rápida, flexible y accesible. Los usuarios pueden cargar un modelo a través de la interfaz de chat del escritorio o habilitar el modo de desarrollador para exponer una API compatible con OpenAI. Para comenzar rápidamente, descargue la última versión de LM Studio y abra la aplicación. Una vez que estas funciones estén habilitadas y configuradas, ya está listo para ejecutar la inferencia de GPU NVIDIA en una configuración local. LM Studio admite ajustes preestablecidos de modelo, diversos formatos de cuantificación y controles para desarrolladores como tool_choice para una inferencia precisa. Para quienes deseen contribuir, el repositorio de GitHub llama.cpp se mantiene activo y continúa evolucionando con mejoras de rendimiento impulsadas por la comunidad y NVIDIA. Cada semana, la serie de blogs RTX AI Garage presenta innovaciones y contenido de IA impulsados ​​por la comunidad para aquellos que buscan aprender más sobre los microservicios NVIDIA NIM y los AI Blueprints , así como también sobre la creación

Leer más »

Cómo Lenovo Professional Services ayudó a Kiddie Academy of Brier Creek a elevar el nivel de innovación en el cuidado infantil

Desde que el primer centro de aprendizaje temprano Kiddie Academy abrió sus puertas en 1981 en el condado de Baltimore, Maryland, la organización ha crecido rápidamente en todo Estados Unidos. Desde que el primer centro de aprendizaje temprano Kiddie Academy abrió sus puertas en 1981 en el condado de Baltimore, Maryland, la organización ha crecido rápidamente en todo Estados Unidos. Actualmente, cuenta con más de 300 franquicias y se encuentra entre las mejores del país. Una de sus sedes, Kiddie Academy de Brier Creek en Raleigh, Carolina del Norte, ha brindado cuidado desde bebés hasta niños en edad preescolar desde 2005. El equipo utiliza el currículo Life Essentials, desarrollado por la Academia, diseñado para fomentar la confianza, el carácter y la curiosidad entre sus asistentes. A medida que la tecnología se ha convertido en un componente cada vez más esencial para brindar el mejor cuidado y educación infantil posible, Kiddie Academy of Brier Creek descubrió que sus dispositivos actuales se volvían poco fiables con el tiempo. Según el personal, la academia depende de su infraestructura digital para optimizar la eficiencia en «prácticamente todo», lo que permite a los padres acceder a información clave y usar computadoras para registrar al personal y organizar los planes de clase para los docentes, además del seguimiento de nóminas y la contabilidad. El equipo directivo también tiene necesidades muy específicas en cuanto a la protección de datos privados y la sostenibilidad. La necesidad de renovar su parque de TI existente también presentó a la academia la oportunidad de optimizar sus flujos de trabajo y comunicación, y reducir el tiempo dedicado a administrar los equipos, lo que la llevó a recurrir a Lenovo mientras se embarcaban en la próxima evolución de sus sistemas de TI. Cathy Cummings, propietaria de Kiddie Academy of Brier Creek, afirmó: «La tecnología es la base de nuestro negocio. Queremos brindar la mejor experiencia posible a nuestras familias y educadores. Descubrimos que los sistemas fragmentados y los procesos manuales dificultaban concentrarse en lo que realmente importa: crear un entorno educativo y enriquecedor para los niños». John Stamer, vicepresidente y director general de Servicios Globales de Productos de Lenovo , afirma: «Kiddie Academy nos planteó un reto. Dedicaban demasiado tiempo a la gestión de su tecnología. Para que nuestra solución fuera lo más sencilla posible para el equipo, trabajamos con ellos en un paquete que se pudiera implementar de forma rápida y sencilla, con el objetivo de proteger la información confidencial que manejan». La privacidad es lo primero Al gestionar información altamente sensible sobre niños y sus familias, Kiddie Academy of Brier Creek debe garantizar que los datos no se filtren, especialmente cuando los dispositivos se acercan al final de su vida útil. La organización necesitaba un socio que no solo garantizara el correcto manejo y eliminación de estos registros privados, sino que también gestionara la eliminación de los dispositivos de la manera más sostenible posible. Kiddie Academy of Brier Creek también requería la rápida resolución de cualquier problema técnico para evitar tiempos de inactividad, con asistencia experta disponible siempre que fuera necesario. Resultados personalizados Los equipos de Lenovo trabajaron en estrecha colaboración con el personal de Kiddie Academy of Brier Creek para acordar una solución que abordara los desafíos de la organización, a la vez que ofreciera seguridad en cuanto a los datos y la sostenibilidad en el punto de disposición. Lenovo se encargó no solo del desarrollo de la solución para Kiddie Academy of Brier Creek, sino también de su instalación. Kiddie Academy de Brier Creek optó por portátiles ThinkPad T14 Gen 4 , potentes y fáciles de conectar, junto con monitores táctiles móviles ThinkVision M14t y un conjunto de servicios profesionales de Lenovo para facilitar una transición fluida al principio y al final del ciclo de vida de los dispositivos. El servicio facilitó la personalización, incluyendo el grabado láser del logotipo de Kiddie Academy en los portátiles. Para proteger la información privada de la exposición y minimizar el impacto de los residuos electrónicos, Kiddie Academy of Brier Creek buscó una solución para el manejo seguro de equipos obsoletos. Lenovo Asset Recovery Services proporcionó una solución integral que satisfacía las necesidades de seguridad y sostenibilidad, garantizando la eliminación segura y documentada del hardware informático, a la vez que permitía el reciclaje o la reutilización de los dispositivos siempre que fuera posible. La compañía también optó por Lenovo Premier Support Plus , que ofrece soporte las 24 horas los 365 días del año con acceso directo a técnicos capacitados que pueden ofrecer soluciones espontáneas a problemas técnicos o concertar una visita al sitio al día siguiente. Stamer explicó: «Premier Support Plus es un elemento clave de la solución que desarrollamos para Kiddie Academy. Se trata de un soporte proactivo, lo que significa que monitoreamos y evaluamos activamente los dispositivos para garantizar su correcto funcionamiento». Cummings añadió: «Saber que Lenovo gestiona el ciclo de vida de nuestra tecnología de forma coherente con nuestros objetivos de sostenibilidad y nuestros valores como organización centrada en la comunidad nos da tranquilidad. Premier Support Plus vale su peso en oro». Entregando para las familias El enfoque en seguridad, implementación de nuevos dispositivos y administración de dispositivos al final de su vida útil que ofrece Lenovo Professional Services ha permitido que Kiddie Academy of Brier Creek se concentre en brindar servicios a niños y familias, con maestros que pueden confiar en sistemas rápidos y eficientes para preparar planes de lecciones, y toda la organización capaz de operar de manera optimizada e integrada, allanando el camino para el crecimiento futuro. Cummings dijo: «Lenovo nos ha dado la confianza de saber que contamos con sistemas que realmente nos permitirán concentrarnos en los niños, su educación y el cuidado de nuestras familias. Lenovo nos ha ayudado a establecer un nuevo estándar en tecnología para el cuidado infantil. Han sido excepcionalmente serviciales». Stamer afirmó: “El mayor valor que ofrecemos es la tranquilidad, que les permite concentrarse en su misión mientras nosotros nos encargamos de la gestión de los dispositivos sin problemas”. Haga clic aquí para leer más sobre el trabajo de Lenovo con Kiddie Academy of Brier Creek

Leer más »

Agentic AI has an unstructured data problem: IBM is unveiling a solution

At Think this week, IBM is radically simplifying the data-for-AI stack. IBM is previewing the major evolution of watsonx.data, which can help organizations make their data AI-ready and provide an open, hybrid data foundation and enterprise-ready structured and unstructured data management. The result? Forty percent more accurate AI than conventional RAG, according to testing with IBM watsonx.data.1 Products and features expected to debut in June include: Watsonx.data integration and watsonx.data intelligence will be available as standalone products, and select capabilities will also be available through watsonx.data—maximizing client choice and modularity. To complement these products, IBM recently announced its intent to acquire DataStax, which excels at harnessing unstructured data for generative AI. With DataStax, clients can access additional vector search capabilities. Based on internal testing comparing the answer correctness of AI model outputs using watsonx.data Premium Edition retrieval layer to vector-only RAG on three common use cases with IBM proprietary datasets using the same set of selected open source commodity inferencing, judging and embedding models and additional variables. Results can vary. The context for this major evolution Enterprises are facing a major barrier to accurate and performant generative AI— especially agentic AI. But the barrier is not what most business leaders think. The problem is not inference costs or the elusive “perfect” model. The problem is data. Organizations need trusted, company-specific data for agentic AI to truly create value—the unstructured data inside emails, documents, presentations, and videos. It is estimated that in 2022, 90% of data generated by enterprises was unstructured, but IBM projects only 1% is accounted for in LLMs. Unstructured data can be immensely difficult to harness. It is highly distributed and dynamic, locked inside diverse formats, lacks neat labels, and often needs additional context to fully interpret. Conventional Retrieval-Augmented Generation (RAG) is ineffective at extracting its value and cannot properly combine unstructured and structured data. Meanwhile, a range of disconnected tools can make the data-for-AI stack complex and cumbersome. Enterprises juggle data warehouses, data lakes, and data governance and data integration tools. The data stack can feel as disorienting as the unstructured data it is supposed to manage. Many organizations are not addressing the root problem. They are focused solely on the generative AI application layer, rather than the essential data layer underneath. Until organizations fix their data foundation, AI agents and other generative AI initiatives will fail to deliver their full potential. Helping organizations to make their data AI-ready IBM’s new capabilities will enable organizations to ingest, govern and retrieve unstructured (and structured) data—and from there, scale accurate, performant generative AI. IBM Blog. E. C.

Leer más »

NVIDIA NIM Operator 2.0 impulsa la implementación de IA con compatibilidad con microservicios NVIDIA NeMo

La primera versión de NVIDIA NIM Operator simplificó la implementación y la gestión del ciclo de vida de las canalizaciones de inferencia para microservicios de NVIDIA NIM , lo que redujo la carga de trabajo de los ingenieros de MLOps y LLMOps, y de los administradores de Kubernetes. Permitió una implementación, escalado automático y actualización de NIM en clústeres de Kubernetes fáciles y rápidos. Obtenga más información sobre la primera versión . Nuestros clientes y socios han estado utilizando el Operador NIM para gestionar eficientemente los canales de inferencia de sus aplicaciones, como chatbots, RAG agentic y descubrimiento virtual de fármacos. Nuestros socios, del equipo de Soluciones de Computación de Cisco , utilizan el Operador NIM para implementar el Plan de Inteligencia Artificial de NVIDIA para RAG como parte del Diseño Validado de Cisco .  Integramos estratégicamente NVIDIA NIM Operator con Cisco Validated Design (CVD) en nuestra infraestructura preparada para IA, lo que mejora los procesos de generación con recuperación aumentada de nivel empresarial. NIM Operator optimiza significativamente los procesos de implementación, escalado automático e implementación de NVIDIA NIM. El almacenamiento en caché de modelos altamente eficiente de NIM Operator mejora considerablemente el rendimiento de las aplicaciones de IA, y el recurso personalizado NIMPipeline unifica la gestión de múltiples servicios NIM mediante un único archivo de configuración declarativo. La combinación de operaciones optimizadas y una gestión eficiente de recursos mejora significativamente la eficiencia operativa general al implementar y administrar NIM en la infraestructura de Cisco. — Paniraja Koppa, líder de ingeniería de marketing técnico, Cisco Systems Con el lanzamiento de NVIDIA NIM Operator 2.0 , añadimos la capacidad de implementar y gestionar el ciclo de vida de los microservicios NVIDIA NeMo . Los microservicios NeMo son un conjunto de herramientas para crear flujos de trabajo de IA, como un volante de inercia de datos de IA , en su clúster de Kubernetes, ya sea local o en la nube.  NVIDIA presenta nuevas definiciones de recursos personalizados (CRD) de Kubernetes para implementar tres microservicios principales de NeMo: Capacidades y beneficios principales Esta versión incluye varias características nuevas y actualizadas, incluidas las siguientes. Implementaciones fáciles y rápidas El operador NIM simplifica la implementación de microservicios NIM y NeMo para flujos de trabajo de IA en solo unos pocos pasos y admite dos tipos de implementación: Operaciones simplificadas del día 2 El operador NIM facilita la gestión de las operaciones del día 2. Permite configurar actualizaciones continuas, el ingreso y el escalado automático. Esto incluye: Ampliamos continuamente la lista de microservicios NVIDIA NIM y NVIDIA NeMo compatibles. Para obtener más información sobre la lista completa de microservicios NIM y NeMo compatibles, consulte Compatibilidad de plataformas . Empezar  Al automatizar la implementación, el escalado y la gestión del ciclo de vida de los microservicios NVIDIA NIM y NVIDIA NeMo, NIM Operator facilita la adopción de flujos de trabajo de IA por parte de los equipos empresariales. Esta iniciativa se alinea con nuestro compromiso de facilitar la implementación de flujos de trabajo de IA con NVIDIA AI Blueprints y su rápida migración a producción. NIM Operator forma parte de NVIDIA AI Enterprise y proporciona soporte empresarial, estabilidad de API e implementación proactiva de parches de seguridad. Comienza a través de NGC o desde el repositorio de GitHub . Si tienes preguntas técnicas sobre la instalación, el uso o algún problema, publica un problema en el repositorio de GitHub. NVIDIA Blog. M. K. , A. G. , S. S. , S. K. M. y M. Y. Traducido al español

Leer más »

La IA agente tiene un problema de datos no estructurados: IBM presenta una solución

Esta semana, en Think, IBM está simplificando radicalmente la pila de datos para IA. IBM está mostrando una vista previa de la importante evolución de watsonx.data , que puede ayudar a las organizaciones a preparar sus datos para la IA y proporcionar una base de datos híbrida y abierta, así como una gestión de datos estructurados y no estructurados lista para la empresa. ¿El resultado? Una IA con un 40 % más de precisión que la RAG convencional, según pruebas realizadas con IBM watsonx.data. 1  Entre los productos y funciones que se espera que se lancen en junio se incluyen: La integración de Watsonx.data y la inteligencia de Watsonx.data estarán disponibles como productos independientes, y algunas capacidades también estarán disponibles a través de Watsonx.data, maximizando la elección y la modularidad del cliente. Para complementar estos productos, IBM anunció recientemente su intención de adquirir DataStax, empresa líder en el aprovechamiento de datos no estructurados para la IA generativa. Con DataStax, los clientes pueden acceder a funciones adicionales de búsqueda vectorial. Basado en pruebas internas que comparan la exactitud de las respuestas de los resultados del modelo de IA utilizando la capa de recuperación watsonx.data Premium Edition con RAG solo vectorial en tres casos de uso comunes con conjuntos de datos propietarios de IBM, utilizando el mismo conjunto de modelos de inferencia, evaluación e incrustación de código abierto seleccionados y variables adicionales. Los resultados pueden variar. El contexto de esta importante evolución Las empresas se enfrentan a un importante obstáculo para una IA generativa precisa y eficaz, especialmente la IA agencial. Pero este obstáculo no es lo que la mayoría de los líderes empresariales creen. El problema no son los costos de inferencia ni el difícil de alcanzar, sino los datos. Las organizaciones necesitan datos confiables y específicos de cada empresa para que la IA con agentes realmente genere valor: los datos no estructurados de correos electrónicos, documentos, presentaciones y videos. Se estima  que en 2022, el 90 % de los datos generados por las empresas eran no estructurados, pero IBM proyecta que solo el 1 % se contabiliza en los LLM. Los datos no estructurados pueden ser extremadamente difíciles de aprovechar. Están altamente distribuidos y son dinámicos, se encuentran en diversos formatos, carecen de etiquetas claras y, a menudo, requieren contexto adicional para su interpretación completa. La Recuperación-Generación Aumentada (RAG) convencional no es eficaz para extraer su valor y no puede combinar adecuadamente los datos estructurados y no estructurados. Mientras tanto, una variedad de herramientas desconectadas puede hacer que la pila de datos para IA sea compleja y engorrosa. Las empresas hacen malabarismos con almacenes de datos, lagos de datos y herramientas de gobernanza e integración de datos. La pila de datos puede resultar tan desorientadora como los datos no estructurados que se supone que debe gestionar. Muchas organizaciones no están abordando el problema de raíz. Se centran únicamente en la capa de aplicación de IA generativa, en lugar de la capa de datos esencial subyacente. Hasta que las organizaciones arreglen su infraestructura de datos, los agentes de IA y otras iniciativas de IA generativa no alcanzarán su máximo potencial. Ayudando a las organizaciones a preparar sus datos para la IA Las nuevas capacidades de IBM permitirán a las organizaciones ingerir, gobernar y recuperar datos no estructurados (y estructurados) y, a partir de allí, escalar una IA generativa precisa y de alto rendimiento. IBM Blog. E. C. Traducido al español

Leer más »

Un paso hacia la comprensión de la inteligencia de las máquinas a la manera humana

Investigadores de la EPFL han descubierto unidades clave en grandes modelos de IA que parecen ser importantes para el lenguaje, reflejando el sistema lingüístico del cerebro. Al desactivar estas unidades específicas, los modelos empeoraron considerablemente en las tareas lingüísticas. Los modelos de lenguaje grande (LLM) no solo son buenos para comprender y usar el lenguaje, también pueden razonar o pensar lógicamente, resolver problemas y algunos incluso pueden predecir los pensamientos, creencias o emociones de las personas con las que interactúan. A pesar de estos impresionantes logros, aún no comprendemos del todo el funcionamiento interno de los LLM, en particular cómo las distintas unidades o módulos realizan distintas tareas. Por ello, investigadores del Laboratorio de NeuroAI, perteneciente a la Facultad de Ciencias de la Computación y la Comunicación (IC) y a la Facultad de Ciencias de la Vida (SV), y del Laboratorio de Procesamiento del Lenguaje Natural (IC), se propusieron averiguar si los LLM cuentan con unidades o módulos especializados que realizan tareas específicas. Esto se inspira en redes descubiertas en el cerebro humano, como la Red del Lenguaje , la Red de Demanda Múltiple y la red de la Teoría de la Mente . En un artículo presentado este mes en la Conferencia Anual 2025 del Capítulo de las Naciones de las Américas de la Asociación de Lingüística Computacional ,En Albuquerque, Estados Unidos, los investigadores explican cómo investigaron 18 LLM populares y descubrieron que ciertas unidades, de hecho, parecen formar una red central centrada en el lenguaje. Inspirándonos en enfoques neurocientíficos que han mapeado la organización funcional de nuestro cerebro, comparamos la actividad de una unidad al leer oraciones reales con la de listas de palabras aleatorias. Las unidades que reaccionaron más activamente a oraciones reales se identificaron como «unidades selectivas del lenguaje», al igual que la Red Lingüística de nuestro cerebro, explicó el profesor adjunto Martin Schrimpf, director del Laboratorio de NeuroAI. Menos de 100 neuronas extremadamente relevantes Para comprobar la función causal de las unidades selectivas del idioma identificadas, los investigadores las eliminaron y, por separado, eliminaron diferentes conjuntos de unidades aleatorias. A continuación, compararon las diferencias en lo que ocurrió a continuación. Al eliminar las unidades específicas del idioma, pero no las aleatorias, los modelos dejaron de generar texto coherente y no obtuvieron buenos resultados en los parámetros lingüísticos. Los resultados muestran que estas unidades son realmente importantes para el modelo. La principal sorpresa para nosotros fue que probablemente hay menos de 100 neuronas (aproximadamente el 1 % de las unidades) que parecen ser extremadamente relevantes para cualquier aspecto relacionado con la capacidad del modelo para producir y comprender el lenguaje, y que, al interrumpirlas, el modelo falla por completo de repente —explicó Badr AlKhamisi, asistente de doctorado en los laboratorios de NeuroAI y PNL y autor principal del artículo—. Existen investigaciones sobre aprendizaje automático e interpretabilidad que han identificado algunas redes o unidades en un modelo relevantes para el lenguaje, pero requirió mucho entrenamiento y fue mucho más complejo que simplemente usar el mismo localizador empleado en neurociencia humana. Realmente no esperábamos que esto funcionara tan bien —continuó—. Además de las unidades selectivas del lenguaje, esto planteó una pregunta natural: ¿podrían aplicarse también a los LLM los mismos localizadores diseñados para identificar otras redes cerebrales, como la Teoría de la Mente o las redes de demanda múltiple? Utilizando estos localizadores, los investigadores de la EPFL intentaron evaluar si otras unidades dentro de los modelos se especializaban en razonamiento o pensamiento social y descubrieron que algunos modelos poseían estas unidades de tareas específicas mientras que otros no. Más preguntas En algunos modelos encontramos unidades de razonamiento y pensamiento especializadas, y en otros no. Una pregunta interesante ahora mismo es: ¿de dónde proviene esto? ¿Por qué algunos modelos tienen esta preferencia? ¿Se relaciona esto con su rendimiento en indicadores relacionados? Si existen unidades algo aisladas, ¿permite esto que el modelo tenga un mejor rendimiento? Quizás esto se relacione con la forma en que se entrenan los modelos o con los datos con los que se entrenan, y esta es una línea de investigación adicional —dijo Schrimpf—. Otras investigaciones futuras se centrarán en intentar descubrir qué sucede en los modelos multimodelo: modelos que no solo se entrenan con texto sino que también pueden procesar otras modalidades de información, incluidas imágenes, vídeo y sonido. Estoy muy interesado en esto, ya que los humanos operamos con información del habla y la visión. La pregunta es: si usamos un modelo multimodal y le damos, por ejemplo, el lenguaje como información visual, de forma similar a la lectura de un texto, ¿presentará los mismos déficits lingüísticos que al eliminar la Red Lingüística en los LLM, en comparación con una tarea visual donde tiene que identificar varios objetos o realizar razonamiento matemático? ¿Se mantendrán intactos?, preguntó AlKhamissi. En términos más generales, los investigadores creen que estos estudios ayudan a resolver el enigma del funcionamiento interno de los grandes modelos de lenguaje, relacionándolos con la neurociencia y estableciendo conexiones con el funcionamiento del cerebro humano. Si consideramos el daño que sufre la Red del Lenguaje en el cerebro de las personas que han sufrido un ictus, a menudo presentan graves deficiencias del lenguaje, mientras que todo lo demás permanece intacto. Es muy similar en este caso, con el componente del lenguaje LLM, que simplemente produce un galimatías, y aunque no lo hemos probado, probablemente podría funcionar bien en todo lo demás. Esperamos que estos modelos nos ayuden a comprendernos mejor a nosotros mismos y a nuestro cerebro, allanando el camino para un diagnóstico y tratamiento de enfermedades más avanzados», concluyó Schrimpf. El Laboratorio NeuroAI es parte del Instituto Neuro-X de la EPFL , una comunidad colaborativa e interdisciplinaria que reúne a equipos de la Escuela de Ciencias de la Computación y la Comunicación de la EPFL, la Escuela de Ciencias Vivas y la Escuela de Ingeniería . EPFL News. T. P. Traducido al español

Leer más »

¿Qué es la generación aumentada por recuperación (RAG) y dónde debería realizarse?

Las empresas necesitan ayuda para que los LLM accedan a sus datos privados, y RAG se la proporciona. Llevamos años escuchando que «los datos son el nuevo petróleo». Se ha convertido prácticamente en un cliché. Pero incluso el petróleo necesita refinarse y transportarse antes de poder usarse como combustible. Entonces, ¿qué se necesita para convertir los datos en combustible que genere valor empresarial? Los nuevos modelos de lenguaje de gran tamaño (LLM) prometen redefinir por completo la forma en que las empresas extraen valor de sus datos. Estos LLM se entrenaron con conjuntos de datos mucho mayores que los que las organizaciones habrían podido gestionar anteriormente; por lo tanto, contienen una gama de información mucho más amplia que los modelos anteriores. Si bien el potencial de los LLM es innegable, aún queda la pequeña cuestión de cómo aplicarlos a casos prácticos empresariales reales, y esto suele ser más fácil de decir que de hacer. Los LLM se centran en comprender una base de conocimientos general para simular la forma en que se comunican los humanos. Dado que se centran en el conocimiento general, el conocimiento específico, como las perspectivas y el contexto necesarios para los casos de uso de la IA empresarial, a menudo se pasa por alto. Además, se entrenan con conjuntos de datos estáticos, lo que significa que solo son precisos hasta cierto punto. Los LLM no pueden acceder a datos en tiempo real, al menos no sin ayuda. Aquí es donde entra en juego la generación aumentada por recuperación (RAG). RAG es una técnica para optimizar la inferencia de IA y ayudar a los LLM a generar resultados más precisos. Los sistemas RAG sirven como puente que conecta dos tipos de datos diferentes para optimizar el valor de ambos: La IA empresarial se basa en RAG Como su nombre indica, un sistema RAG amplía los modelos recuperando la información relevante necesaria para generar una respuesta precisa a una solicitud. En lugar de reentrenar un modelo, RAG ayuda a orientarlo hacia datos importantes que no se incluyeron en el conjunto de datos de entrenamiento original, ya sea porque son privados o porque aún no existían. Los sistemas RAG pueden usar API o consultas de datos en vivo para obtener información en tiempo real (o casi en tiempo real) relevante para una solicitud específica. En esencia, cada vez que un usuario final formula una pregunta al modelo, RAG proporciona las pistas y los datos de apoyo que el modelo necesita para obtener una respuesta precisa. RAG puede desempeñar un papel clave en la estrategia de IA privada de una empresa , ya que permite la inferencia segura de conjuntos de datos propietarios que se ejecutan en computación habilitada para GPU bajo el control de la empresa. Esto aumenta la precisión de la información que proporcionan los LLM, sin poner en riesgo la exposición no autorizada de datos internos confidenciales. RAG es un ejemplo de cómo las empresas pueden personalizar y desarrollar los modelos preentrenados que adquieren de los mercados de modelos de IA . Otro método es el ajuste fino, que consiste básicamente en realizar un entrenamiento adicional de los modelos utilizando datos privados. Si bien el ajuste fino es ciertamente útil, también puede ser complejo y consumir muchos recursos, por lo que podría no ser práctico en todos los casos. Además, si los datos están sujetos a una política de retención, integrarlos en un LLM mediante el ajuste fino podría ser problemático. Las empresas también pueden utilizar flujos de trabajo de IA con agentes que extraen datos en tiempo real de diversas fuentes, lo que ayuda a los LLM a tomar decisiones informadas y ejecutar acciones automáticamente. La IA con agentes sin duda representará un gran avance en el desarrollo de la IA empresarial, pero existen cuestiones que deben abordarse primero. Por ejemplo, los líderes empresariales deben garantizar que los agentes de IA que operan sin supervisión humana puedan cumplir con los requisitos de privacidad y soberanía de los datos. Además, la IA con agentes requiere un flujo constante de datos precisos, oportunos y relevantes. Esto significa que la aparición de la IA con agentes en la empresa resaltará aún más la importancia de la RAG. RAG se convertirá inevitablemente en la base de la mayoría de las estrategias de IA empresarial, junto con la IA con agentes. Un flujo de datos compatible con RAG es uno de los requisitos más importantes que una empresa debe cumplir para el éxito de la IA, ya que los datos deben pasar por un sólido conjunto de procesos para garantizar su precisión, relevancia y formato adecuado antes de ser tokenizados e integrados en las bases de datos de RAG. ¿Cómo encaja RAG en el futuro de la IA empresarial? En un enfoque ideal de IA empresarial, un empleado podría hacer una pregunta directa sobre cualquier aspecto del negocio y obtener la mejor respuesta —extraída de todos los datos corporativos, estáticos o en streaming— a la que tiene derecho según los permisos otorgados y otros controles de gobernanza. Por ejemplo, un vendedor debería poder solicitar un resumen de su cuenta más importante y obtener rápidamente una visión precisa y completa de todas las oportunidades e información valiosa para ese cliente, capturadas globalmente en todos los sistemas y almacenes de datos posibles, pero no para otras cuentas que no gestiona. Para lograr este resultado, la infraestructura de RAG debería consultar toda la base de conocimientos de la organización en todas sus aplicaciones, incluyendo conjuntos de datos estáticos y dinámicos. Posteriormente, debería aplicar proactivamente controles de privacidad y soberanía de datos. Esto significa que debería filtrar en tiempo real cualquier información a la que un empleado en particular no tenga derecho, según su puesto y ubicación. La mayoría de las herramientas necesarias para hacer realidad este sueño ya existen, pero el éxito dependerá de una arquitectura flexible e interconectada, ubicada dentro de una plataforma de infraestructura que optimice la opcionalidad, el rendimiento, el coste y la proximidad a todos los puntos del ecosistema de TI empresarial. A medida que las empresas avanzan hacia ese ambicioso futuro de la IA,

Leer más »

Qualcomm AI Inference Suite: Getting Started is Easy

Developing solutions with AI inference at scale doesn’t have to be hard. Get started today using the Qualcomm AI Inference Suite, hosted on Cirrascale using our Python SDK. Qualcomm has partnered with Cirrascale to provide a free-to-try AI inference service that makes it easy for developers to connect and run inference workloads from code. You don’t need to spin up containers or fiddle with complex cloud infrastructure. All you need to get started is to sign up and obtain an API key. Once you have a key, it is simply a matter of choosing how to connect to the inference endpoint.  If you are most comfortable with Python, an SDK is provided along with documentation so that you can connect using familiar Python coding conventions. Many other programming languages and tools (20+) are supported if you prefer to use OpenAI compliant APIs. Sample scenario Let’s create a sample scenario to showcase use.  You want AI to tell you if a given customer review is positive, negative, or neutral. Once you have that data, you could later analyze which products or services are liked and which are not. Python SDK example Going step by step, we’ll build up our sample code. Import functions you’ll need from the Imagine SDK: Set your API key and endpoint in env variables or in code: Create your client for the API using the endpoint and key: Set up your request, choosing which LLM to use: Call the chat function with your request: Print out the result: Try changing the text of the feedback variable to different sets of text about any product and give it a try. Try it out As you can see, the process of using inference on a scalable platform like the Qualcomm AI Inference Suite is as easy as using any other simple API, but it provides access to very fast results using even larger models.  Even though this is just a small example, it could be integrated into a microservice to provide lots of customer sentiment analysis as part of a production data pipeline. Like what you are seeing? Connect with fellow developers, get the latest news and prompt technical support by joining our Developer Discord. Qualcomm Blog. R. S.

Leer más »

Qualcomm AI Inference Suite: Comenzar es fácil

Desarrollar soluciones con inferencia de IA a escala no tiene por qué ser difícil. Empieza hoy mismo a usar Qualcomm AI Inference Suite, alojada en Cirrascale con nuestro SDK de Python. Qualcomm se ha asociado con Cirrascale para ofrecer un servicio de inferencia de IA de prueba gratuita que facilita a los desarrolladores la conexión y la ejecución de cargas de trabajo de inferencia desde el código. No es necesario crear contenedores ni manipular infraestructuras complejas en la nube. Para empezar, solo hay que registrarse y obtener una clave API. Una vez que tenga una clave, solo tiene que elegir cómo conectarse al punto final de inferencia. Si se siente cómodo con Python, se proporciona un SDK junto con la documentación para que pueda conectarse utilizando las convenciones de codificación de Python habituales. Se admiten muchos otros lenguajes de programación y herramientas (más de 20) si prefiere usar API compatibles con OpenAI . Escenario de muestra Creemos un ejemplo para ilustrar su uso. Quieres que la IA te indique si la reseña de un cliente es positiva, negativa o neutral. Una vez que tengas esos datos, podrás analizar qué productos o servicios son atractivos y cuáles no. Ejemplo de SDK de Python Yendo paso a paso, construiremos nuestro código de muestra. Funciones de importación que necesitarás del SDK de Imagine: Establezca su clave API y punto final en variables de entorno o en el código: Crea tu cliente para la API usando el punto final y la clave: Configura tu solicitud, eligiendo qué LLM utilizar: Llama a la función de chat con tu solicitud: Imprima el resultado: Intente cambiar el texto de la variable de comentarios a diferentes conjuntos de texto sobre cualquier producto y pruébelo. Pruébalo Como puede ver, usar la inferencia en una plataforma escalable como Qualcomm AI Inference Suite es tan sencillo como usar cualquier otra API simple, pero permite acceder a resultados muy rápidos con modelos aún más grandes. Aunque este es solo un pequeño ejemplo, podría integrarse en un microservicio para proporcionar un amplio análisis de la opinión del cliente como parte de un flujo de datos de producción. ¿Te gusta lo que ves? Conéctate con otros desarrolladores, entérate de las últimas noticias y recibe asistencia técnica inmediata uniéndote a nuestro  Discord para desarrolladores . AINubeAprendizaje automático

Leer más »
Scroll al inicio