El Portal de las Tecnologías para la Innovación

Categoría: La IA aplicada a la Educación

¿Has oído hablar de los 5 episodios del podcast AI que los oyentes adoraron en 2024?

El podcast de IA de NVIDIA ofrece a los oyentes información exclusiva sobre las formas en que la IA está transformando casi todas las industrias. Desde el debut del programa en 2016, ha obtenido más de 6 millones de escuchas en más de 200 episodios, que cubren cómo se utiliza la IA generativa para impulsar aplicaciones que incluyen tecnología de asistencia para personas con discapacidad visual , sistemas de alerta de incendios forestales y la plataforma de juegos en línea Roblox . Estos son los cinco mejores episodios de 2024: Impulsando la eficiencia energética y la sostenibilidad Josh Parker de NVIDIA habla sobre cómo la IA y la computación acelerada impulsan la sostenibilidad – Ep. 234 La inteligencia artificial y la computación acelerada son herramientas clave para impulsar la sostenibilidad. Joshua Parker, director sénior de sostenibilidad corporativa de NVIDIA, analiza cómo estas tecnologías contribuyen a un futuro más sostenible al mejorar la eficiencia energética y ayudar a abordar los desafíos climáticos. La inteligencia artificial como herramienta para aumentar la productividad El director de tecnología de Zoom, Xuedong “XD” Huang, habla sobre cómo la IA revoluciona la productividad – Ep. 235 Zoom ayudó a cambiar la forma de trabajar de las personas y desempeñó un papel fundamental para muchas durante la pandemia de COVID-19. El director de tecnología de la empresa, Xuedong Huang, comparte cómo la empresa está reestructurando la productividad con inteligencia artificial. Impulsando el futuro de la informática Cómo el Centro de Supercomputación de Ohio impulsa el futuro de la informática – Ep. 213 Alan Chalker, director de programas estratégicos del Centro de Supercomputación de Ohio, comparte cómo el centro empodera a las instituciones de educación superior e industrias de Ohio con servicios computacionales accesibles, confiables y seguros, y trabaja con empresas clientes como NASCAR, que está simulando diseños de autos de carrera virtualmente. Impulsando la creación de contenido cinematográfico Explorando la realización cinematográfica con la IA de Cuebric: perspectivas de Pinar Seyhan Demirdag – Ep. 214 La IA generativa puede ayudar a cualquier persona a convertirse en creador de contenido al hacer realidad sus ideas rápidamente. Pinar Seyhan Demirdag, cofundador y director ejecutivo de Cuebric, analiza cómo la aplicación impulsada por IA de la empresa hace que la producción de alta calidad sea más accesible y asequible. Aportando claridad a la cardiología  Cardiac Clarity: el Dr. Keith Channon habla sobre cómo revolucionar la salud cardíaca con IA – Ep. 212 El Dr. Keith Channon, cofundador y director médico de la empresa emergente de tecnología sanitaria Caristo Diagnostics, analiza una solución impulsada por IA para detectar la inflamación coronaria (un indicador clave de la enfermedad cardíaca) en tomografías computarizadas cardíacas. Estos conocimientos podrían ayudar a los médicos a mejorar los planes de tratamiento y las predicciones de riesgos. NVIDIA News. I. S. Traducido al español

Leer más »

Los ecologistas encuentran puntos ciegos en los modelos de visión artificial a la hora de recuperar imágenes de vida silvestre

Los investigadores de la biodiversidad probaron los sistemas de visión para ver qué tan bien podían recuperar imágenes relevantes de la naturaleza. Los modelos más avanzados funcionaron bien con consultas simples, pero tuvieron dificultades con indicaciones más específicas de la investigación. Intente tomar una fotografía de cada una de las aproximadamente 11.000 especies de árboles de Norteamérica  y obtendrá apenas una fracción de los millones de fotografías que hay en los conjuntos de datos de imágenes de la naturaleza. Estas enormes colecciones de instantáneas (que abarcan desde  mariposas hasta  ballenas jorobadas ) son una gran herramienta de investigación para los ecologistas porque proporcionan evidencia de los comportamientos únicos de los organismos, condiciones raras, patrones de migración y respuestas a la contaminación y otras formas de cambio climático. Si bien son completos, los conjuntos de datos de imágenes de la naturaleza aún no son tan útiles como podrían serlo. Es una tarea que requiere mucho tiempo buscar en estas bases de datos y recuperar las imágenes más relevantes para su hipótesis. Le convendría más contar con un asistente de investigación automatizado, o quizás con sistemas de inteligencia artificial llamados modelos de lenguaje de visión multimodal (VLM, por sus siglas en inglés). Estos están entrenados tanto con texto como con imágenes, lo que les permite identificar con mayor facilidad detalles más precisos, como los árboles específicos en el fondo de una foto. Pero, ¿hasta qué punto pueden los VLM ayudar a los investigadores de la naturaleza con la recuperación de imágenes? Un equipo del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT, el University College de Londres, iNaturalist y otros diseñaron una prueba de rendimiento para averiguarlo. La tarea de cada VLM: localizar y reorganizar los resultados más relevantes dentro del conjunto de datos “INQUIRE” del equipo, compuesto por 5 millones de imágenes de vida silvestre y 250 indicaciones de búsqueda de ecólogos y otros expertos en biodiversidad.  En busca de esa rana especial En estas evaluaciones, los investigadores descubrieron que los VLM más grandes y avanzados, que se entrenan con muchos más datos, a veces pueden brindarles a los investigadores los resultados que quieren ver. Los modelos se desempeñaron razonablemente bien en consultas sencillas sobre contenido visual, como identificar desechos en un arrecife, pero tuvieron dificultades significativas con consultas que requieren conocimientos especializados, como identificar condiciones biológicas o comportamientos específicos. Por ejemplo, los VLM descubrieron con cierta facilidad ejemplos de medusas en la playa, pero tuvieron dificultades con indicaciones más técnicas como «axantismo en una rana verde», una condición que limita su capacidad para hacer que su piel se vuelva amarilla. Sus hallazgos indican que los modelos necesitan datos de entrenamiento mucho más específicos del dominio para procesar consultas difíciles. El estudiante de doctorado del MIT Edward Vendrow, un afiliado de CSAIL que codirigió el trabajo sobre el conjunto de datos en un nuevo  artículo , cree que al familiarizarse con datos más informativos, los VLM podrían algún día ser grandes asistentes de investigación. «Queremos construir sistemas de recuperación que encuentren los resultados exactos que buscan los científicos al monitorear la biodiversidad y analizar el cambio climático», dice Vendrow. «Los modelos multimodales aún no entienden del todo el lenguaje científico más complejo, pero creemos que INQUIRE será un punto de referencia importante para rastrear cómo mejoran en la comprensión de la terminología científica y, en última instancia, ayudar a los investigadores a encontrar automáticamente las imágenes exactas que necesitan». Los experimentos del equipo ilustraron que los modelos más grandes tendían a ser más efectivos tanto para búsquedas más simples como para búsquedas más complejas debido a sus amplios datos de entrenamiento. Primero utilizaron el conjunto de datos INQUIRE para probar si los VLM podían limitar un grupo de 5 millones de imágenes a los 100 resultados más relevantes (también conocido como «clasificación»). Para consultas de búsqueda sencillas como «un arrecife con estructuras artificiales y escombros», modelos relativamente grandes como » SigLIP » encontraron imágenes coincidentes, mientras que los modelos CLIP de menor tamaño tuvieron dificultades. Según Vendrow, los VLM más grandes «apenas están comenzando a ser útiles» para clasificar consultas más difíciles. Vendrow y sus colegas también evaluaron qué tan bien los modelos multimodales podían reclasificar esos 100 resultados, reorganizando qué imágenes eran más pertinentes para una búsqueda. En estas pruebas, incluso los LLM enormes entrenados con datos más seleccionados, como GPT-4o, tuvieron dificultades: su puntaje de precisión fue solo del 59,6 por ciento, el puntaje más alto alcanzado por cualquier modelo. Los investigadores presentaron estos resultados en la Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS) a principios de este mes. Consultas para INQUIRE El conjunto de datos INQUIRE incluye consultas de búsqueda basadas en discusiones con ecólogos, biólogos, oceanógrafos y otros expertos sobre los tipos de imágenes que buscarían, incluidas las condiciones físicas y los comportamientos únicos de los animales. Luego, un equipo de anotadores pasó 180 horas buscando en el conjunto de datos de iNaturalist con estas indicaciones, revisando cuidadosamente aproximadamente 200.000 resultados para etiquetar 33.000 coincidencias que encajaban en las indicaciones. Por ejemplo, los anotadores utilizaron consultas como “un cangrejo ermitaño que usa desechos plásticos como caparazón” y “un cóndor de California etiquetado con un ’26’ verde” para identificar los subconjuntos del conjunto de datos de imágenes más grande que representan estos eventos específicos y raros. Luego, los investigadores utilizaron las mismas consultas de búsqueda para ver qué tan bien los VLM podían recuperar imágenes de iNaturalist. Las etiquetas de los anotadores revelaron cuándo los modelos tenían dificultades para comprender las palabras clave de los científicos, ya que sus resultados incluían imágenes etiquetadas previamente como irrelevantes para la búsqueda. Por ejemplo, los resultados de los VLM para «árboles de secuoya con cicatrices de fuego» a veces incluían imágenes de árboles sin ninguna marca. “Se trata de una selección cuidadosa de los datos, con el objetivo de captar ejemplos reales de investigaciones científicas en las áreas de investigación de la ecología y la ciencia medioambiental”, afirma Sara Beery, profesora adjunta de Desarrollo Profesional Homer A. Burnell en el MIT, investigadora principal de

Leer más »

OPPO y Discovery Channel celebran la diversidad cultural con un año de viajes globales

 OPPO y Discovery Channel se embarcaron en un notable viaje global con la iniciativa Culture in a Shot  24 de diciembre de 2024, SHENZHEN — Este año, OPPO y Discovery Channel se embarcaron en un notable viaje global con la iniciativa Culture in a Shot , celebrando la diversidad y el patrimonio cultural a través de la tecnología de imágenes de OPPO. El viaje cultural global comenzó con las tribus del norte de Tailandia y atravesó 12 países, incluidos España, México y Francia, para concluir con la tribu Dani de Papúa en Indonesia. Bajo el tema anual Portrait of Legacy (Retrato del legado) , el fotógrafo de Discovery Channel Jerome Teo capturó retratos que mostraban vívidamente la riqueza de las tradiciones globales. Desde festivales vibrantes hasta estilos de vida atemporales e integración cultural innovadora, este viaje destacó la belleza de la conexión humana y el patrimonio compartido. A través de la tecnología de inteligencia artificial de OPPO, estas culturas cobran vida de formas innovadoras, conectando a las audiencias globales con el corazón de la tradición. Festival: Día de Muertos en México, donde las tradiciones abrazan la vida y los muertos Viajar a Oaxaca, México, durante las celebraciones del Día de los Muertos es uno de los momentos más destacados de la travesía cultural. Este vibrante festival tiene un gran significado cultural e histórico y se nutre de profundas raíces indígenas. La ciudad cobra vida con desfiles callejeros, repletos de bailarines, música y arte colorido como papel picado (banderas de papel recortado) y alebrijes (esculturas de criaturas fantásticas). Celebrar la muerte puede parecer inusual, pero el Día de los Muertos en realidad se trata de fortalecer la conexión con el pasado, recordar los mejores recuerdos junto con los perdidos y enseñar a los más jóvenes sobre los antepasados ​​que nunca tuvieron la oportunidad de conocer. Una cantante folk con su vestido para el festival. Fotografiada con OPPO Find X8 Pro. Estilos de vida atemporales: aventuras en tribus del sudeste asiático A través de las montañas e islas del sudeste asiático, Jerome se aventuró en las tierras altas de Papúa en Indonesia y las colinas del norte de Tailandia, donde conoció tribus cuyos estilos de vida siguen arraigados en prácticas ancestrales. La tribu Dani de Papúa, Indonesia, vive en una región remota que prácticamente no ha sido tocada por las influencias modernas y ofrece una visión de un modo de vida ancestral. Cultivan, cazan y recolectan de maneras que preservan el medio ambiente, reflejando el respeto por la naturaleza que practicaban sus antepasados. Los ancianos comparten historias y sabiduría, lo que garantiza que la profunda conexión de la tribu con sus raíces perdure para las generaciones futuras. Tribu Dani con adornos corporales únicos. Fotografiada con OPPO Find X8 Pro. Mientras viajaba por la frontera entre Tailandia y Myanmar en Chiang Mai, Jerome conoció a diferentes tribus con sus lenguas y costumbres únicas. Desde la música de los lisu hasta el tejido de ratán de los lahu, cada forma de arte narra una historia cultural distinta. Estas comunidades ejemplifican una coexistencia armoniosa con la naturaleza y el poder de las tradiciones orales para mantener vivas sus culturas. Un hombre de la etnia Lisu tocando la flauta tradicional, hecha tradicionalmente de bambú. Foto tomada con el OPPO Reno12 Pro. Reviviendo tradiciones: integrando tendencias modernas Sin embargo, la tradición no es estática, sino que evoluciona y se adapta. Jerome también conoció a los artesanos del batik en Yogyakarta, Indonesia, y a los bailarines de flamenco en Sevilla, España, y exploró cómo se están reimaginando los legados culturales. El batik, una artesanía que se originó hace 2000 años, es un elemento fundamental de la cultura de Indonesia. Al combinar motivos tradicionales javaneses con arte contemporáneo, los artistas del batik utilizan nuevos diseños para generar conciencia sobre temas de actualidad. Un artista de batik pintando. Foto tomada con OPPO Reno12 Pro. De manera similar, en Sevilla, España, los jóvenes bailarines de flamenco canalizan la pasión ardiente de su arte en una expresión moderna de identidad. El flamenco, que se originó a partir de las tradiciones de los gitanos nómadas, es una expresión de identidad profundamente arraigada en la cultura andaluza. A través de cada movimiento y melodía, los bailarines de flamenco entrelazan historia e innovación, asegurando que el flamenco siga siendo un orgulloso emblema de la cultura andaluza. Bailaora de flamenco con bata de cola en el Puente de Triana, Sevilla. Fotografiada con OPPO Reno12 Pro. El legado perdura: conectando comunidades globales a través de la cultura La iniciativa Culture in a Shot va más allá de contar historias e inspira a las comunidades globales de OPPO a capturar y celebrar sus propias culturas. En Malasia, la campaña OPPO Malaysia Through The Lens mostró cinco formas de arte tradicionales malasias distintas, incluido el arte de las marionetas de sombras Wayang Kulit Melayu Tradisional Kelantan y la danza Ngajat . En los Emiratos Árabes Unidos, la comunidad de OPPO exploró el arte y la cultura árabes tradicionales , mientras que en Brasil, se adentraron en las formas de vida únicas de la selva tropical. Al alentar a las personas a expresar y compartir su herencia cultural, OPPO está creando conciencia sobre el valor de estas tradiciones, inspirando a las comunidades a reconectarse con sus raíces culturales. OPPO AI Studio: acercando la cultura a más personas a través de formas innovadoras Para acercar estas culturas a audiencias de todo el mundo, el estudio OPPO AI aprovecha la tecnología GenAI para crear experiencias inmersivas. Los usuarios pueden transformarse en bailarines de flamenco o usar máscaras vibrantes del Día de los Muertos , reimaginando sus retratos en contextos de gran riqueza cultural. El estudio incluso permite a los usuarios crear alebrijes personalizados , que evocan el arte mágico de las esculturas populares mexicanas. Al combinar la tecnología con la tradición, OPPO redefine la forma en que nos relacionamos con el patrimonio cultural y lo celebramos. OPPO AI Studio: genera tu retrato de bailarina de flamenco OPPO AI Studio–AI Reimage, genera tus propios alebrijes El legado no se trata solo de preservar recuerdos, sino de las conexiones que creamos

Leer más »

Presentamos Nymeria, un conjunto de datos para mejorar la predicción del movimiento humano para dispositivos AR y VR

En ECCV 2024 , Reality Labs Research publicó el conjunto de datos Nymeria .  El conjunto de datos proporciona movimiento humano egocéntrico en la naturaleza a una escala sin precedentes, capturando un amplio espectro de personas que participan en actividades cotidianas en diversas ubicaciones. Hoy, estamos arrojando luz sobre este trabajo y sus posibles implicaciones para futuros wearables como auriculares VR/MR, gafas AI y AR y relojes inteligentes. El conjunto de datos Nymeria está disponible para descargar en projectaria.com/datasets/nymeria . Nymeria: un conjunto de datos sobre el movimiento humano basado en la vida cotidiana La primera vez que usas un casco de realidad virtual o mixta, vives una experiencia mágica. Con seis grados de libertad, puedes moverte libremente por entornos inmersivos, mientras que los controladores con seguimiento de movimiento o el seguimiento de manos te permiten interactuar con objetos digitales y manipularlos. Sin embargo, la magia puede verse interrumpida cuando tu avatar no coincide con tus movimientos físicos. A medida que la tecnología portátil, como las gafas con inteligencia artificial y los relojes inteligentes, se vuelve más popular, surgen nuevas oportunidades para predecir con mayor precisión el movimiento del cuerpo humano, lo que podría generar beneficios tangibles para las experiencias del usuario final. Por ejemplo, los atletas podrían usar esta tecnología para hacer un seguimiento de sus entrenamientos a lo largo del tiempo, las personas podrían controlar mejor su postura y los trabajadores podrían identificar y corregir problemas ergonómicos. Predecir la posición del cuerpo humano a partir de sensores egocéntricos (como los que se encuentran en los dispositivos de realidad virtual y realidad aumentada) sigue siendo un desafío técnico. Esto se debe a que el movimiento humano es complejo, los tipos de cuerpo varían y nuestra generación actual de dispositivos tiene una capacidad limitada para capturar completamente el cuerpo del usuario. Si bien los avances en sensores y técnicas analíticas son prometedores para mejorar la predicción del cuerpo humano, sigue habiendo un obstáculo importante: la falta de conjuntos de datos de investigación integrales. Esto motivó a Reality Labs Research a desarrollar y publicar el conjunto de datos Nymeria , un paso adelante para cerrar la brecha y acelerar la investigación en la comprensión del movimiento humano egocéntrico con 300 horas de movimiento diario egocéntrico multimodal capturado en entornos naturales. Creación del mayor conjunto de datos multimodales de movimiento humano egocéntrico A diferencia de los conjuntos de datos existentes anteriormente para el modelado del movimiento humano, el conjunto de datos Nymeria captura el movimiento humano en la naturaleza con múltiples dispositivos egocéntricos multimodales que utilizan gafas Project Aria y pulseras miniAria. Esta constelación de sensores multimodales se aproxima a los tipos de señales que podrían utilizar los dispositivos portátiles futuros, como las gafas con inteligencia artificial y los relojes inteligentes. La captura del movimiento en la naturaleza permite a los investigadores crear tecnología de última generación para ayudar a las actividades humanas diarias. Representando la rica diversidad de la vida cotidiana. Para facilitar la modelización del movimiento humano que pueda funcionar en una amplia gama de personas y lugares, se reclutaron voluntarios de diversos orígenes y grupos demográficos para la investigación. A cada participante se le pidió que realizara un conjunto de 20 escenarios, como cocinar la cena, practicar deportes o pasar el rato con amigos, en diferentes entornos interiores y exteriores. Con escenarios predefinidos sin guion, los investigadores pueden comprender cómo diferentes personas realizan las mismas actividades, lo que garantiza que los métodos futuros para la comprensión del movimiento humano sean accesibles y estén disponibles para todos. Enriquecer el movimiento corporal con lenguaje para acelerar los asistentes de inteligencia artificial del mundo físico El conjunto de datos Nymeria está diseñado para cerrar la brecha entre el movimiento y el lenguaje natural. El conjunto de datos incluye descripciones en contexto del movimiento humano realizadas por anotadores humanos. Al enriquecer los datos con narraciones de varios niveles, desde lo básico hasta lo fino, los investigadores pueden modelar el movimiento, las acciones y las actividades humanas con diferentes niveles de granularidad con contexto, explorar técnicas avanzadas con potentes LLM como Llama y crear mejores soluciones fáciles de usar. Si bien ya se ha demostrado que los asistentes de inteligencia artificial basados ​​en texto son valiosos, aún existe una brecha importante en su capacidad para comprender el contexto del usuario y responder de manera adecuada. El conjunto de datos de Nymeria representa un paso crucial para abordar este desafío, ya que proporciona a los investigadores una rica fuente de datos para explorar las implicaciones técnicas, de privacidad y sociales del desarrollo de dichos sistemas de una manera realista y responsable. Empoderando la investigación Como caso de estudio, Reality Labs Research utilizó el conjunto de datos Nymeria para desarrollar nuevos modelos de ML para la comprensión del movimiento egocéntrico. El movimiento corporal egocéntrico proporciona un contexto rico sobre el usuario, lo que ayuda a los futuros asistentes de IA personalizados a hacer sugerencias contextualmente relevantes a medida que transcurre el día. Los conjuntos de cámaras de las gafas inteligentes actuales están sesgados para capturar el campo de visión del usuario y no están posicionados de una manera que capte fácilmente el propio movimiento corporal del usuario. Dada esta limitación, el movimiento corporal egocéntrico está mal planteado para muchos escenarios. Aprovechando la escala del conjunto de datos Nymeria, los investigadores de Reality Labs desarrollaron HMD 2 , un método para rastrear el movimiento corporal egocéntrico de todo el cuerpo de los usuarios a partir de un solo par de gafas Project Aria. Con un enfoque basado en datos, los investigadores pudieron modelar los estados de movimiento ambiguos con una inferencia probabilística, al tiempo que colapsaban aún más la distribución cuando las autoobservaciones estaban disponibles. De manera similar a HMD 2 , el conjunto de datos Nymeria también facilitó EgoLM , un marco de aprendizaje multimodal unificado para modelar el movimiento y la actividad corporal con lenguaje natural, donde las mediciones de sensores sin procesar de anteojos inteligentes se utilizan para impulsar múltiples tareas, desde el seguimiento corporal y la síntesis de movimiento hasta la comprensión del contexto. Creemos que el conjunto de datos de

Leer más »

Cómo encontrar el libro perfecto para leer a continuación con un asistente basado en Llama

El servicio de lectura Everand de Scribd, Inc. alberga una biblioteca global de millones de libros electrónicos, audiolibros y más. Para la versión más reciente del asistente de descubrimiento de contenido impulsado por IA de Everand, Ask AI, Scribd, Inc. imaginó una experiencia de descubrimiento que combinara el complejo catálogo de Everand con una comprensión matizada de cada cliente. El equipo utilizó tres modelos de Llama para crear la nueva Ask AI: Llama 3.1 8B, 70B y 405B. Además de diseñar un agente de IA intuitivo y competente, el equipo trabajó para optimizar el rendimiento y administrar los costos de cada carga de trabajo. “La naturaleza de código abierto de Llama nos permitió mantenernos a la vanguardia de la innovación, adaptando el modelo para mejorar las recomendaciones de contenido rápidamente”, afirma Prabdheep Cheema, ingeniero sénior de aprendizaje automático en Scribd, Inc. “Para empresas como la nuestra, los modelos de código abierto brindan flexibilidad y permiten una experimentación rápida para satisfacer las necesidades de nuestros usuarios”. Antes de que Scribd, Inc. integrara la IA, encontrar un título o tema en Everand dependía principalmente de una búsqueda por palabra clave. Con más de 195 millones de piezas de contenido en las marcas de Scribd, Inc., los 200 millones de visitantes únicos mensuales del servicio podían buscar recomendaciones, pero las sugerencias se basaban en temas generados previamente que los clientes no podían cambiar. Eso dificultaba la búsqueda de contenido específico y el descubrimiento de nuevos títulos de interés. Creando una experiencia de contenido mágica Con la nueva función Ask AI, los clientes de Everand pueden explorar una amplia gama de temas y hacer preguntas poco conocidas como: «¿Cómo aparecen las técnicas de artes marciales antiguas en las historias de romance modernas?» “Crear una experiencia de contenido mágica fue el factor más importante”, afirma Steve Neola, director sénior de productos, IA generativa, en Scribd, Inc. Llama se destacó por su capacidad superior para comprender la intención de una persona y entregar resultados precisos rápidamente. La nueva inteligencia artificial Ask AI lleva el descubrimiento más allá de las búsquedas de títulos específicos. El modelo Llama 3.1 8B reentrenado que se encuentra en el centro del servicio tiene una comprensión matizada de la intención del cliente y la biblioteca Everand le permite generar recomendaciones intuitivas basadas en tipos de trama, escenarios, géneros y otros libros que le gustan al usuario. Poniendo en práctica los modelos Llama Para desarrollar la nueva versión, el equipo utilizó Llama 3.1 405B para crear datos sintéticos para un conjunto de datos de entrenamiento que simulaba una amplia gama de comportamientos del consumidor. El ajuste fino con eficiencia de parámetros (PEFT) con QLoRA/LoRA y el ajuste fino supervisado permitieron a Scribd, Inc. crear una versión sumamente precisa y personalizada de Llama 3.1 8B. Debido a que Llama es de código abierto, el equipo pudo superar las limitaciones del modelo cerrado y lograr una personalización más profunda. El modelo reentrenado detectó con precisión la intención del cliente (incluida la comprensión de preguntas poco comunes) y dirigió a los clientes al mejor servicio para sus solicitudes. El ajuste fino de Llama 3.1 8B ayudó al equipo a ofrecer mejores resultados con una latencia mínima para los componentes en tiempo real de la función Ask AI, al mismo tiempo que administraba la huella del modelo y las demandas informáticas. A medida que se publican más libros y pasan a formar parte de la biblioteca Everand, Llama 3.1 70B funciona en segundo plano para generar metadatos para cada pieza de contenido con el fin de mejorar el descubrimiento y la precisión. Las opciones de implementación flexibles de Llama también facilitaron al equipo la integración del modelo en su flujo de trabajo del asistente Ask AI sin realizar cambios importantes en la infraestructura. Scribd, Inc. utilizó Amazon Web Services (AWS) y la inferencia por lotes de Databricks para analizar cantidades masivas de datos y respaldar el desarrollo de soluciones. La aplicación ofrece la salida estructurada del modelo en formato JSON para mejorar la extracción de metadatos y garantizar respuestas de alta calidad en tiempo real. Scribd, Inc. afirma que, con el tiempo, Ask AI se convertirá en un agente de descubrimiento de nivel superior con el poder de mejorar la retención de clientes, mejorar la lealtad y crear un mayor valor de por vida para los lectores. De cara al futuro, Scribd, Inc. planea integrar Llama en más áreas de su experiencia de usuario y aprovechar Llama Guard 3 para obtener más confianza en el contenido y soporte de moderación. Meta News. Traducido al español

Leer más »

El futuro de la IA: creado con Llama

El crecimiento de Llama, nuestro modelo de lenguaje abierto de gran tamaño, fue exponencial este año gracias a un ritmo acelerado de innovación y al enfoque abierto que adoptamos para compartir actualizaciones con la comunidad de IA. Comida para llevar Un año increíble para Llama El crecimiento de Llama, nuestro modelo de lenguaje abierto de gran tamaño, fue exponencial este año gracias a un ritmo acelerado de innovación y al enfoque abierto que adoptamos para compartir actualizaciones con la comunidad de IA. Comenzamos el año con la presentación de Llama 3 , la próxima generación de nuestro modelo de lenguaje abierto de gran tamaño de última generación. A eso le siguió en julio Llama 3.1 , que incluyó el lanzamiento de 405B, el primer modelo de IA abierto de nivel de frontera. Siguiendo el ritmo de la innovación, anunciamos Llama 3.2 en Connect 2024, compartiendo nuestros primeros modelos multimodales, así como modelos pequeños y medianos y livianos, de solo texto que se adaptan a dispositivos móviles y de borde. Y para cerrar el año, lanzamos Llama 3.3 70B , un modelo de solo texto que ofrece un rendimiento similar al 3.1 405B a una fracción del costo de servicio. Como compartió el fundador y director ejecutivo de Meta, Mark Zuckerberg , Llama se ha convertido rápidamente en el modelo más adoptado, con más de 650 millones de descargas de Llama y sus derivados, el doble de descargas que hace tres meses. Poniendo eso en perspectiva, los modelos de Llama ahora se han descargado un promedio de un millón de veces al día desde nuestro primer lanzamiento en febrero de 2023. Satisfacer la creciente demanda de Llama no sería posible sin la lista de socios que tenemos en todo el ecosistema de hardware y software, incluidos Amazon Web Services (AWS), AMD, Microsoft Azure, Databricks, Dell, Google Cloud, Groq, NVIDIA, IBM watsonx, Oracle Cloud, ScaleAI, Snowflake y más. Este creciente conjunto de socios representa lo mejor del ecosistema de tecnología de IA y garantiza que Llama esté optimizado para ejecutarse en prácticamente cualquier entorno y en cualquier forma, incluso en el dispositivo y en las instalaciones, así como en las API de servicios administrados de nuestros socios de la nube. El uso de Llama por volumen de tokens mensual ha seguido haciendo un gran progreso, con un volumen de tokens mensual en socios de la nube clave que creció más del 50 % mes a mes en septiembre. Fuera de los EE. UU., Llama se convirtió en un fenómeno global este año, con un crecimiento impresionante y un gran interés por nuestros modelos por parte de desarrolladores de todo el mundo y un ritmo acelerado de adopción con el lanzamiento de nuestra colección de modelos Llama 3. Las aprobaciones de licencias de Llama se han más que duplicado en los últimos seis meses en general, con un crecimiento notable en los mercados emergentes y un aumento de las descargas en América Latina, la región de Asia-Pacífico y Europa. Más allá de la gran demanda de Llama, nos ha entusiasmado ver el éxito que han tenido nuestros socios este año al reiterar nuestro trabajo. La comunidad de código abierto ha publicado más de 85 000 derivados de Llama solo en Hugging Face, un aumento de más de 5 veces en comparación con el comienzo del año. Esta participación y las contribuciones de la comunidad han ayudado a impulsar las decisiones de productos en Meta que informan mejor nuestra próxima ola de modelos y funciones fundamentales para lanzar dentro de Meta AI y, en última instancia, volver a la comunidad. Creciente adopción por parte de empresas y gobiernos A medida que más personas recurren a nuestros modelos abiertos, hemos lanzado nuevas funciones que hacen que la creación con Llama sea una experiencia más estandarizada. Este año, desarrollamos Llama Stack , una interfaz para componentes de la cadena de herramientas canónica para personalizar los modelos de Llama y crear aplicaciones con agentes. Creemos que ofrecer la mejor herramienta simplificada para la creación con Llama solo acelerará la increíble adopción que ya hemos presenciado en todos los sectores. Basándonos en nuestra trayectoria de asociación para promover la innovación en IA abierta, trabajamos con IBM para ofrecer Llama como parte de su catálogo de modelos watsonx.AI , un estudio empresarial de última generación para desarrolladores de IA de todo el mundo para entrenar, validar, ajustar e implementar modelos de IA. Esta asociación con IBM significa que Llama ya está siendo utilizado por gobiernos locales, importantes empresas de telecomunicaciones e incluso por un equipo de fútbol profesional para ayudar a identificar posibles nuevos reclutas. Block está integrando Llama en los sistemas de atención al cliente detrás de Cash App. Como Llama es de código abierto, la empresa puede experimentar y personalizar rápidamente el modelo para cada uno de sus casos de uso, al tiempo que le permite preservar la privacidad de los datos de sus clientes. Accenture recurrió a Llama en 2024 cuando recibió una solicitud de un importante organismo intergubernamental para crear un chatbot que sería la primera aplicación de inteligencia artificial generativa de gran escala y de cara al público de la organización. Creado con Llama 3.1, el chatbot funciona en AWS y emplea varias herramientas y servicios durante la personalización y la inferencia para garantizar la escalabilidad y la solidez. Spotify utiliza Llama para ofrecer recomendaciones contextualizadas que impulsen el descubrimiento de artistas y creen una experiencia de usuario aún más rica. Al combinar el amplio conocimiento y la versatilidad de Llama con la profunda experiencia de Spotify en contenido de audio, Spotify ha creado explicaciones que ofrecen a los usuarios información personalizada sobre el contenido recomendado. El equipo también ha creado una forma para que sus suscriptores reciban narraciones personalizadas sobre los nuevos lanzamientos recomendados y comentarios culturalmente relevantes de sus DJ de IA que hablan inglés y español. LinkedIn compartió recientemente Liger-Kernel, una biblioteca de código abierto diseñada para permitir una capacitación más eficiente de los LLM. Basándose en esta infraestructura escalable, LinkedIn exploró una variedad de LLM para ajustarlos a tareas específicas de su red social. Para algunas aplicaciones, descubrieron que Llama logró

Leer más »

Los ingenieros del MIT crean chips 3D de gran tamaño

Una técnica de apilamiento electrónico podría aumentar exponencialmente la cantidad de transistores en los chips, lo que permitiría un hardware de IA más eficiente. La industria electrónica se está acercando al límite de transistores que se pueden colocar en la superficie de un chip de computadora, por lo que los fabricantes de chips buscan aumentarlos en lugar de eliminarlos. En lugar de comprimir transistores cada vez más pequeños en una única superficie, la industria pretende apilar múltiples superficies de transistores y elementos semiconductores, algo similar a convertir una casa de campo en un rascacielos. Estos chips multicapa podrían manejar exponencialmente más datos y llevar a cabo funciones mucho más complejas que los dispositivos electrónicos actuales. Sin embargo, un obstáculo importante es la plataforma sobre la que se construyen los chips. Hoy en día, las voluminosas obleas de silicio sirven como andamiaje principal sobre el que se desarrollan los elementos semiconductores monocristalinos de alta calidad. Cualquier chip apilable tendría que incluir un “suelo” de silicio grueso como parte de cada capa, lo que ralentizaría cualquier comunicación entre capas semiconductoras funcionales. Ahora, los ingenieros del MIT han encontrado una forma de superar este obstáculo, con un diseño de chip multicapa que no requiere ningún sustrato de oblea de silicio y funciona a temperaturas lo suficientemente bajas para preservar los circuitos de la capa subyacente. En un estudio que aparece hoy en la revista Nature , el equipo informa sobre el uso del nuevo método para fabricar un chip multicapa con capas alternas de material semiconductor de alta calidad cultivadas directamente una sobre otra. El método permite a los ingenieros construir transistores de alto rendimiento y elementos de memoria y lógica sobre cualquier superficie cristalina aleatoria, no solo sobre el voluminoso armazón cristalino de las obleas de silicio. Sin estos gruesos sustratos de silicio, múltiples capas semiconductoras pueden estar en contacto más directo, lo que conduce a una comunicación y computación mejores y más rápidas entre capas, afirman los investigadores. Los investigadores imaginan que el método podría usarse para construir hardware de IA, en forma de chips apilados para computadoras portátiles o dispositivos portátiles, que serían tan rápidos y potentes como las supercomputadoras actuales y podrían almacenar enormes cantidades de datos a la par de los centros de datos físicos. “Este avance abre un enorme potencial para la industria de los semiconductores, ya que permite apilar chips sin las limitaciones tradicionales”, afirma el autor del estudio Jeehwan Kim, profesor asociado de ingeniería mecánica en el MIT. “Esto podría conducir a mejoras de órdenes de magnitud en la potencia informática para aplicaciones en inteligencia artificial, lógica y memoria”. Los coautores del estudio del MIT incluyen al primer autor Ki Seok Kim, Seunghwan Seo, Doyoon Lee, Jung-El Ryu, Jekyung Kim, Jun Min Suh, June-chul Shin, Min-Kyu Song, Jin Feng y Sangho Lee, junto con colaboradores del Instituto Avanzado de Tecnología de Samsung, la Universidad Sungkyunkwan en Corea del Sur y la Universidad de Texas en Dallas. Bolsas de semillas En 2023, el grupo de Kim  informó que había desarrollado un método para cultivar materiales semiconductores de alta calidad en superficies amorfas, similares a la diversa topografía de los circuitos semiconductores en los chips terminados. El material que cultivaron era un tipo de material 2D conocido como dicalcogenuros de metales de transición, o TMD, considerado un prometedor sucesor del silicio para fabricar transistores más pequeños y de alto rendimiento. Estos materiales 2D pueden mantener sus propiedades semiconductoras incluso en escalas tan pequeñas como un solo átomo, mientras que el rendimiento del silicio se degrada drásticamente. En su trabajo anterior, el equipo desarrolló TMD sobre obleas de silicio con recubrimientos amorfos, así como sobre TMD ya existentes. Para estimular a los átomos a organizarse en una forma monocristalina de alta calidad, en lugar de en un desorden policristalino aleatorio, Kim y sus colegas primero cubrieron una oblea de silicio con una película muy fina, o «máscara» de dióxido de silicio, que modelaron con pequeñas aberturas o bolsas. Luego hicieron fluir un gas de átomos sobre la máscara y descubrieron que los átomos se asentaban en las bolsas como «semillas». Las bolsas confinaban a las semillas para que crecieran en patrones monocristalinos regulares. Pero en aquel momento, el método sólo funcionaba a unos 900 grados centígrados. “Hay que cultivar este material monocristalino a temperaturas inferiores a los 400 grados Celsius, de lo contrario el circuito subyacente se estropea por completo”, afirma Kim. “Por eso, nuestra tarea consistía en aplicar una técnica similar a temperaturas inferiores a los 400 grados Celsius. Si pudiéramos hacerlo, el impacto sería considerable”. Construyendo En su nuevo trabajo, Kim y sus colegas buscaron perfeccionar su método para hacer crecer materiales monocristalinos en 2D a temperaturas lo suficientemente bajas como para preservar cualquier circuito subyacente. Encontraron una solución sorprendentemente simple en la metalurgia, la ciencia y el oficio de la producción de metales. Cuando los metalúrgicos vierten metal fundido en un molde, el líquido se “nuclea” lentamente, o forma granos que crecen y se fusionan en un cristal con un patrón regular que se endurece hasta alcanzar una forma sólida. Los metalúrgicos han descubierto que esta nucleación ocurre más fácilmente en los bordes de un molde en el que se vierte el metal líquido. “Se sabe que la nucleación en los bordes requiere menos energía y calor”, afirma Kim. “Por eso, tomamos prestado este concepto de la metalurgia para utilizarlo en el futuro hardware de inteligencia artificial”. El equipo intentó cultivar TMD monocristalinos en una oblea de silicio que ya había sido fabricada con circuitos de transistores. Primero cubrieron el circuito con una máscara de dióxido de silicio, tal como en su trabajo anterior. Luego depositaron «semillas» de TMD en los bordes de cada una de las cavidades de la máscara y descubrieron que estas semillas de los bordes crecían hasta convertirse en material monocristalino a temperaturas tan bajas como 380 grados Celsius, en comparación con las semillas que comenzaron a crecer en el centro, lejos de los bordes de cada cavidad, lo que requirió temperaturas más altas para

Leer más »

Diseños de automóviles más eficientes con IA

El diseño de nuevos vehículos es costoso y lleva mucho tiempo, por lo que los fabricantes suelen realizar cambios menores de una generación de modelos a la siguiente. Con DriverAerNet++, investigadores de la Universidad Técnica de Múnich (TUM) y del Instituto Tecnológico de Massachusetts (MIT) han desarrollado la mayor base de datos de código abierto para el diseño aerodinámico de vehículos. Más de 8000 modelos que representan los tipos de vehículos más comunes permitirán crear diseños más eficientes con la ayuda de la inteligencia artificial. El objetivo es hacer que los procesos de desarrollo sean más rentables, al tiempo que se mejora la eficiencia del combustible y se logran avances en los vehículos eléctricos. Los fabricantes de automóviles suelen invertir muchos años en el diseño de un vehículo. Esto comienza con simulaciones utilizando modelos 3D antes de probar los diseños más prometedores en el túnel de viento. Los detalles y especificaciones de estas pruebas, incluida la aerodinámica de un diseño determinado, generalmente no se hacen públicos. En consecuencia, el progreso en áreas como la eficiencia de combustible o la autonomía de los vehículos eléctricos tiende a ser lento y limitado a las empresas individuales. Diseños de automóviles utilizando IA generativa Como punto de partida para DrivAerNet++, los investigadores utilizaron modelos 3D de 2014 proporcionados por Audi y BMW y que representan distintas formas de carrocería. Además, se ajustaron sistemáticamente 26 parámetros como la longitud, las características de los bajos y el ángulo del parabrisas. El equipo también realizó complejas simulaciones del flujo de aire para calcular la resistencia al viento para los distintos diseños de automóviles generados. El objetivo era utilizar DriverAerNet++ como datos de entrenamiento para la IA generativa. Esto permite analizar enormes cantidades de datos en segundos para generar diseños innovadores. Aunque ya existen herramientas de este tipo, en el pasado los datos necesarios no estaban disponibles de forma gratuita. Mayor eficiencia de combustible y avances con los coches eléctricos Angela Dai, profesora de Inteligencia Artificial 3D en la TUM, afirma: “Nuestro conjunto de datos se puede utilizar como una amplia biblioteca para generar nuevos diseños rápidamente con la ayuda de modelos de IA con el objetivo de diseñar automóviles más eficientes en términos de combustible en el futuro o mejorar la autonomía de los vehículos eléctricos”. Mohamed Elrefaie, primer autor del estudio, afirma: “Este conjunto de datos sienta las bases para la próxima generación de aplicaciones de IA en el diseño automotriz, promueve procesos de diseño eficientes, reduce los costos de I+D y promoverá el progreso hacia un futuro automotriz más sostenible». TUM News. Traducido al español

Leer más »

Más frío que el espacio exterior y cubierto de oro: la UCPH alberga la computadora cuántica más grande de Dinamarca

Investigadores de renombre mundial tenían sus ojos puestos en Copenhague cuando Niels Bohr cambió el mundo con sus teorías de física cuántica. La investigación cuántica en la UCPH vuelve a atraer la atención internacional. En un nuevo proyecto de gran envergadura, el profesor asociado Morten Kjaergaard y su equipo han construido los ordenadores cuánticos más grandes de Dinamarca. Ahora empiezan a experimentar. Cuando el diminuto chip de la computadora cuántica alcanza los -273 grados, se produce la magia. Las partículas comienzan a comportarse de acuerdo con las inescrutables leyes de la física cuántica. Sin embargo, a pesar de su naturaleza desconcertante, estas leyes también brindan a las computadoras cuánticas el potencial para abordar algunos de los mayores desafíos del mundo. «Si la mecánica cuántica no te ha impactado profundamente, no la has entendido», dijo el físico danés Niels Bohr hace casi un siglo. Pero el profesor asociado Morten Kjaergaard, de la Universidad de Copenhague, mantiene el pulso firme mientras diseña el desarrollo de los ordenadores cuánticos más potentes de Dinamarca. Si la mecánica cuántica no te ha impactado profundamente, no la has entendido. La aventura comenzó en 2007, cuando Morten Kjaergaard era estudiante de física. Ahora dirige una gran iniciativa cuántica en la Universidad de Copenhague.Morten Kjaergaard aparece en la imagen debajo de uno de los ordenadores cuánticos, que están suspendidos de 200 kilos de aluminio en el techo para evitar vibraciones molestas. Este año, él y su grupo de investigación están dando un gran paso adelante al poner en funcionamiento uno de los ordenadores cuánticos más grandes de Europa. Su objetivo es explorar cómo se pueden aplicar los principios de Bohr a un tipo de superordenador totalmente nuevo. Los desafíos son numerosos y nadie conoce aún todo el potencial de las computadoras cuánticas. ¿Pueden acelerar la transición ecológica? ¿Enseñarnos más sobre los componentes fundamentales del universo? ¿O allanar el camino para una investigación bioquímica más eficiente para desarrollar medicamentos? Los científicos y los líderes mundiales tienen grandes esperanzas. En apenas unos años, Copenhague ha vuelto a convertirse en un centro de investigación cuántica internacional, como en la época de Niels Bohr hace cien años. Cuando el nuevo centro de computación cuántica alcance su capacidad máxima, los dos nuevos ordenadores cuánticos podrán estudiar hasta 25 bits cuánticos (o cúbits) simultáneamente, es decir, aproximadamente cinco veces más que el segundo ordenador cuántico más grande de Dinamarca en la actualidad. Computadora versus computadora cuántica En 2019, Google logró utilizar 53 cúbits superconductores en un ordenador cuántico para realizar un cálculo en tan solo tres minutos. Se estima que el superordenador más grande del mundo tardaría unas cuatro semanas en realizar el mismo cálculo, incluso si funcionara a plena capacidad. La supercomputadora Summit de IBM tiene miles de millones de bits ordinarios y está construida alrededor de miles de servidores conectados. Ocupa nada menos que 520 metros cuadrados y pesa más de 340 toneladas. Un ordenador cuántico, con todo el equipamiento incluido, pesa unos cientos de kilos y cabe sin problemas en un espacio de oficina estándar. El ordenador cuántico abierto y brillante es algo poco común incluso para los investigadores. Cuando se enciende, está envuelto en múltiples capas de aislamiento para mantener el nivel de temperatura de congelación que es esencial para que funcione. Cuando se reemplaza un componente, se eliminan las capas de aislamiento y el criostato debe calentarse lo suficiente para funcionar. Cuando se reemplaza el componente y se sella el ordenador, comienza el largo proceso de enfriamiento. Muchos de los componentes del ordenador están recubiertos de oro. El oro refleja el calor y lo mantiene alejado de las partes del ordenador que necesitan estar cerca del cero absoluto para funcionar.El mecanico Morten Kjaergaard se define a sí mismo como un mecánico cuántico. Está particularmente interesado en el desarrollo y la construcción de la mecánica real –los bloques de construcción fundamentales– de un ordenador cuántico. Como profesor asociado y líder del grupo de proyecto en QDev – Center for Quantum Devices y NQCP – Novo Nordisk Foundation Quantum Computing Programme, actualmente está involucrado en la construcción del nuevo ordenador cuántico. Junto con un gran equipo de investigadores y estudiantes, Morten Kjaergaard está decidido a hacer que los cúbits sean más estables y utilizables. Cuando era estudiante, era difícil imaginar que un día Dinamarca acogería proyectos multimillonarios para desarrollar ordenadores cuánticos.El chip cuántico tiene el tamaño de la uña del dedo meñique. En el patrón que forma los cúbits, los investigadores han colocado material superconductor que se comporta de manera cuántica a las temperaturas adecuadas. El material puede ser, por ejemplo, aluminio. Al mismo tiempo, los investigadores están experimentando con el corte de diferentes patrones en el chip, ya que el patrón es crucial para el comportamiento de las partículas. Frío extremo Un ordenador cuántico como éste consta de un congelador –un criostato– con un chip cuántico en la parte inferior. Han sido necesarios tres descubrimientos que merecieron el Premio Nobel para conseguir que un criostato fuera lo suficientemente frío como para que funcionara un ordenador cuántico. El enfriamiento se realiza mediante helio. Los últimos grados de refrigeración hacia el cero absoluto se consiguen mediante dos cilindros situados a la derecha de la imagen. Detrás de uno de los otros componentes clave se encuentra una startup danesa originaria de la UCPH.Cada detalle está cuidadosamente planificado. La construcción de ordenadores cuánticos avanzados requiere tanto ingenio práctico como una planificación meticulosa. Antes de suspender los ordenadores, el grupo de investigación ha planificado cuidadosamente cada detalle y seleccionado todos los componentes de los ordenadores. El trabajo de una semana se condensa en un minuto: https://video.ku.dk/v.ihtml/player.html?token=459ba14aca315110d1f5a4dba108b00e&source=embed&photo%5fid=103390721Dos especialistas habían llegado desde Finlandia para ayudar al equipo de SQuID a instalar el sistema informático cuántico. Otros empleados de la UCPH también prestaron su ayuda. La culminación de años y meses de trabajo.Enfoque experimental El viaje de Morten Kjaergaard hacia el mundo de los ordenadores cuánticos comenzó en 2007. Un comentario casual sobre los ordenadores cuánticos por parte de un profesor en uno de sus primeros cursos

Leer más »
Scroll al inicio