El Portal de las Tecnologías para la Innovación

Categoría: Papers de Investigación Científica

De la previsión de tormentas al diseño de moléculas: cómo los nuevos modelos de IA pueden acelerar los descubrimientos científicos

La gente siempre ha buscado patrones para explicar el universo y predecir el futuro. “Cielo rojo por la noche, alegría del marinero. Cielo rojo por la mañana, advertencia del marinero” es un adagio que predice el tiempo.  La IA es muy buena para detectar patrones y hacer predicciones. Ahora, los investigadores de Microsoft están trabajando para aplicar “modelos básicos” (modelos a gran escala que aprovechan los avances recientes de la IA) a las disciplinas científicas. Estos modelos se entrenan con una amplia variedad de datos y pueden sobresalir en muchas tareas, a diferencia de los modelos más especializados. Tienen el potencial de generar respuestas en una fracción del tiempo que se requería tradicionalmente y ayudan a resolver problemas más sofisticados. Algunas de las disciplinas científicas más diversas que prometen avances gracias a la IA son la ciencia de los materiales, la ciencia del clima, la atención sanitaria y las ciencias de la vida. Los expertos afirman que los modelos básicos adaptados a estas disciplinas acelerarán el proceso de descubrimiento científico, lo que les permitirá crear con mayor rapidez cosas prácticas como medicamentos, nuevos materiales o previsiones meteorológicas más precisas, pero también comprender mejor los átomos, el cuerpo humano o la Tierra. Actualmente, muchos de estos modelos todavía están en desarrollo en Microsoft Research, y el primero, un modelo meteorológico llamado Aurora , ya está disponible. “La IA es una herramienta de nuestro arsenal que puede ayudarnos”, afirmó Bonnie Kruft, socia y subdirectora de Microsoft Research, que colabora en la supervisión del laboratorio de IA para la ciencia . “La idea es que estamos trabajando en modelos muy específicos de la ciencia en lugar de modelos específicos del lenguaje. Vemos esta increíble oportunidad de ir más allá de los grandes modelos tradicionales basados ​​en el lenguaje humano hacia un nuevo paradigma que emplea las matemáticas y las simulaciones moleculares para crear un modelo aún más potente para el descubrimiento científico”. Los recientes avances en inteligencia artificial que han permitido a las personas planificar fiestas, generar presentaciones gráficas con algunas indicaciones para conversar u obtener resúmenes instantáneos de reuniones a las que no han asistido fueron impulsados ​​inicialmente por una nueva clase de modelos de inteligencia artificial conocidos como modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés). Este tipo de modelo de base se entrena con grandes cantidades de texto para realizar una amplia variedad de tareas relacionadas con el lenguaje. Ahora, los investigadores de Microsoft están descubriendo cómo algunas de estas mismas arquitecturas y enfoques de inteligencia artificial pueden impulsar avances en el descubrimiento científico. “Los modelos de lenguaje a gran escala tienen dos propiedades notables que son muy útiles. La primera es, por supuesto, que pueden generar y comprender el lenguaje humano, por lo que proporcionan una maravillosa interfaz humana para tecnologías muy sofisticadas. Pero la otra propiedad de los modelos de lenguaje a gran escala –y creo que esto fue una gran sorpresa para muchos de nosotros– es que pueden funcionar como motores de razonamiento efectivos. Y, por supuesto, eso será muy útil en el descubrimiento científico”, dijo Chris Bishop, miembro técnico y director de Microsoft Research AI for Science, en una conferencia magistral en el Microsoft Research Forum a principios de este año.  En un principio, los investigadores de IA pensaron que modelos muy específicos entrenados para realizar una tarea específica (como los que podían ganar al ajedrez o al backgammon (pero no a ambos), o los que podían traducir idiomas o transcribir grabaciones (pero no a ambos)) superarían a modelos generalizados más grandes, como los LLM. Pero resultó que sucedió lo contrario: no hubo necesidad de entrenar un modelo para responder preguntas o resumir investigaciones sobre derecho, otro sobre física y otro sobre Shakespeare, porque un modelo grande y generalizado era capaz de superar en diferentes materias y tareas. Ahora, los investigadores están investigando la posibilidad de que los modelos básicos puedan hacer lo mismo en el caso de la ciencia.  https://youtube.com/watch?v=CJejmZ5Luo4%3Ffeature%3Doembed%26enablejsapi%3D1%26origin%3Dhttps%253A%252F%252Fnews.microsoft.com Tradicionalmente, el descubrimiento científico implicaba desarrollar una hipótesis, probarla, ajustarla a lo largo de muchas iteraciones hasta encontrar una solución o empezar de nuevo, un proceso de eliminación de lo que no funciona. En cambio, algunos modelos básicos invierten ese guión al construir en lugar de eliminar. Los científicos pueden dar parámetros a los modelos básicos, como las cualidades que desean, y los modelos pueden predecir, por ejemplo, las combinaciones de moléculas que podrían funcionar. En lugar de buscar una aguja en un pajar, los modelos sugieren directamente cómo fabricar agujas. En algunos casos, estos modelos básicos también están diseñados para comprender el lenguaje natural, lo que facilita a los científicos la redacción de indicaciones. Para buscar un nuevo material, por ejemplo, los científicos podrían especificar que quieren una molécula que sea estable (que no se deshaga), que no sea magnética, que no conduzca electricidad y que no sea rara ni cara. Los LLM se entrenan en texto (palabras), pero los modelos básicos que los investigadores de Microsoft han estado desarrollando para avanzar en el descubrimiento se han entrenado principalmente en los lenguajes de la ciencia (no solo libros de texto científicos y artículos de investigación, sino también montañas de datos generados a partir de la resolución de esas ecuaciones de física o química). Aurora , que lleva la previsión meteorológica y de contaminación a nuevos niveles, fue entrenada en el lenguaje de la atmósfera terrestre. MatterGen , que sugiere nuevos materiales a partir de indicaciones, y MatterSim , que predice cómo se comportarán los nuevos materiales, fueron entrenados en el lenguaje de las moléculas. TamGen , desarrollado en colaboración entre Microsoft Research y el Global Health Drug Discovery Institute (GHDDI), que desarrolla medicamentos para enfermedades infecciosas que afectan desproporcionadamente a las poblaciones del mundo en desarrollo, se centra en otras moléculas, para nuevos medicamentos e inhibidores de proteínas para enfermedades como la tuberculosis y la COVID-19. Pero la otra propiedad de los grandes modelos lingüísticos –y creo que esto fue una gran sorpresa para muchos de nosotros– es que pueden funcionar como motores de razonamiento eficaces. Así como algunos alimentos se cocinan mejor friéndolos,

Leer más »

Los ecologistas encuentran puntos ciegos en los modelos de visión artificial a la hora de recuperar imágenes de vida silvestre

Los investigadores de la biodiversidad probaron los sistemas de visión para ver qué tan bien podían recuperar imágenes relevantes de la naturaleza. Los modelos más avanzados funcionaron bien con consultas simples, pero tuvieron dificultades con indicaciones más específicas de la investigación. Intente tomar una fotografía de cada una de las aproximadamente 11.000 especies de árboles de Norteamérica  y obtendrá apenas una fracción de los millones de fotografías que hay en los conjuntos de datos de imágenes de la naturaleza. Estas enormes colecciones de instantáneas (que abarcan desde  mariposas hasta  ballenas jorobadas ) son una gran herramienta de investigación para los ecologistas porque proporcionan evidencia de los comportamientos únicos de los organismos, condiciones raras, patrones de migración y respuestas a la contaminación y otras formas de cambio climático. Si bien son completos, los conjuntos de datos de imágenes de la naturaleza aún no son tan útiles como podrían serlo. Es una tarea que requiere mucho tiempo buscar en estas bases de datos y recuperar las imágenes más relevantes para su hipótesis. Le convendría más contar con un asistente de investigación automatizado, o quizás con sistemas de inteligencia artificial llamados modelos de lenguaje de visión multimodal (VLM, por sus siglas en inglés). Estos están entrenados tanto con texto como con imágenes, lo que les permite identificar con mayor facilidad detalles más precisos, como los árboles específicos en el fondo de una foto. Pero, ¿hasta qué punto pueden los VLM ayudar a los investigadores de la naturaleza con la recuperación de imágenes? Un equipo del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT, el University College de Londres, iNaturalist y otros diseñaron una prueba de rendimiento para averiguarlo. La tarea de cada VLM: localizar y reorganizar los resultados más relevantes dentro del conjunto de datos “INQUIRE” del equipo, compuesto por 5 millones de imágenes de vida silvestre y 250 indicaciones de búsqueda de ecólogos y otros expertos en biodiversidad.  En busca de esa rana especial En estas evaluaciones, los investigadores descubrieron que los VLM más grandes y avanzados, que se entrenan con muchos más datos, a veces pueden brindarles a los investigadores los resultados que quieren ver. Los modelos se desempeñaron razonablemente bien en consultas sencillas sobre contenido visual, como identificar desechos en un arrecife, pero tuvieron dificultades significativas con consultas que requieren conocimientos especializados, como identificar condiciones biológicas o comportamientos específicos. Por ejemplo, los VLM descubrieron con cierta facilidad ejemplos de medusas en la playa, pero tuvieron dificultades con indicaciones más técnicas como «axantismo en una rana verde», una condición que limita su capacidad para hacer que su piel se vuelva amarilla. Sus hallazgos indican que los modelos necesitan datos de entrenamiento mucho más específicos del dominio para procesar consultas difíciles. El estudiante de doctorado del MIT Edward Vendrow, un afiliado de CSAIL que codirigió el trabajo sobre el conjunto de datos en un nuevo  artículo , cree que al familiarizarse con datos más informativos, los VLM podrían algún día ser grandes asistentes de investigación. «Queremos construir sistemas de recuperación que encuentren los resultados exactos que buscan los científicos al monitorear la biodiversidad y analizar el cambio climático», dice Vendrow. «Los modelos multimodales aún no entienden del todo el lenguaje científico más complejo, pero creemos que INQUIRE será un punto de referencia importante para rastrear cómo mejoran en la comprensión de la terminología científica y, en última instancia, ayudar a los investigadores a encontrar automáticamente las imágenes exactas que necesitan». Los experimentos del equipo ilustraron que los modelos más grandes tendían a ser más efectivos tanto para búsquedas más simples como para búsquedas más complejas debido a sus amplios datos de entrenamiento. Primero utilizaron el conjunto de datos INQUIRE para probar si los VLM podían limitar un grupo de 5 millones de imágenes a los 100 resultados más relevantes (también conocido como «clasificación»). Para consultas de búsqueda sencillas como «un arrecife con estructuras artificiales y escombros», modelos relativamente grandes como » SigLIP » encontraron imágenes coincidentes, mientras que los modelos CLIP de menor tamaño tuvieron dificultades. Según Vendrow, los VLM más grandes «apenas están comenzando a ser útiles» para clasificar consultas más difíciles. Vendrow y sus colegas también evaluaron qué tan bien los modelos multimodales podían reclasificar esos 100 resultados, reorganizando qué imágenes eran más pertinentes para una búsqueda. En estas pruebas, incluso los LLM enormes entrenados con datos más seleccionados, como GPT-4o, tuvieron dificultades: su puntaje de precisión fue solo del 59,6 por ciento, el puntaje más alto alcanzado por cualquier modelo. Los investigadores presentaron estos resultados en la Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS) a principios de este mes. Consultas para INQUIRE El conjunto de datos INQUIRE incluye consultas de búsqueda basadas en discusiones con ecólogos, biólogos, oceanógrafos y otros expertos sobre los tipos de imágenes que buscarían, incluidas las condiciones físicas y los comportamientos únicos de los animales. Luego, un equipo de anotadores pasó 180 horas buscando en el conjunto de datos de iNaturalist con estas indicaciones, revisando cuidadosamente aproximadamente 200.000 resultados para etiquetar 33.000 coincidencias que encajaban en las indicaciones. Por ejemplo, los anotadores utilizaron consultas como “un cangrejo ermitaño que usa desechos plásticos como caparazón” y “un cóndor de California etiquetado con un ’26’ verde” para identificar los subconjuntos del conjunto de datos de imágenes más grande que representan estos eventos específicos y raros. Luego, los investigadores utilizaron las mismas consultas de búsqueda para ver qué tan bien los VLM podían recuperar imágenes de iNaturalist. Las etiquetas de los anotadores revelaron cuándo los modelos tenían dificultades para comprender las palabras clave de los científicos, ya que sus resultados incluían imágenes etiquetadas previamente como irrelevantes para la búsqueda. Por ejemplo, los resultados de los VLM para «árboles de secuoya con cicatrices de fuego» a veces incluían imágenes de árboles sin ninguna marca. “Se trata de una selección cuidadosa de los datos, con el objetivo de captar ejemplos reales de investigaciones científicas en las áreas de investigación de la ecología y la ciencia medioambiental”, afirma Sara Beery, profesora adjunta de Desarrollo Profesional Homer A. Burnell en el MIT, investigadora principal de

Leer más »

Acceso anticipado para pruebas de seguridad

Ofrecemos a los investigadores en materia de seguridad acceso anticipado a nuestros próximos modelos de vanguardia. Estamos invitando a los investigadores de seguridad a que soliciten acceso anticipado a nuestros próximos modelos de vanguardia. Este programa de acceso anticipado complementa nuestro proceso de prueba de modelos de vanguardia existente, que incluye rigurosas pruebas de seguridad internas, equipos de prueba externos como el nuestro y colaboraciones con organizaciones de prueba de terceros, así como con el Instituto de Seguridad de IA de EE. UU. y el Instituto de Seguridad de IA del Reino Unido. A medida que los modelos se vuelvan más capaces, tenemos la esperanza de que los conocimientos de la comunidad de seguridad más amplia puedan aportar nuevas perspectivas, profundizar nuestra comprensión de los riesgos emergentes, desarrollar nuevas evaluaciones y destacar áreas para avanzar en la investigación de seguridad.Red de trabajo en equipo roja Como parte de , estamos abriendo un proceso de solicitud para que los investigadores de seguridad exploren y descubran las posibles implicaciones de seguridad y protección de los próximos modelos de frontera.12 días de OpenAI Pruebas de seguridad en la era del razonamiento Los modelos se están volviendo más capaces rápidamente, lo que significa que se necesitan nuevas técnicas de modelado, evaluación y prueba de amenazas. Invertimos mucho en estos esfuerzos como empresa, como el diseño de nuevas técnicas de medición bajo nuestro , y nos centramos en áreas donde los modelos de razonamiento avanzado, como nuestra serie o, pueden plantear mayores riesgos. Creemos que el mundo se beneficiará de una mayor investigación relacionada con el modelado de amenazas, el análisis de seguridad, las evaluaciones de seguridad, la obtención de capacidades y másMarco de preparación(se abre en una nueva ventana) El acceso anticipado es flexible para los investigadores de seguridad. Puede explorar cosas como: Ejemplos de evaluaciones y demostraciones de sistemas de IA de frontera:  Esperamos que estos conocimientos permitan sacar a la luz hallazgos valiosos y contribuyan a ampliar la investigación sobre seguridad en general. Esto no reemplaza nuestros procesos formales de pruebas de seguridad o de equipos rojos. Cómo aplicar Envíe su solicitud para nuestro período de acceso anticipado, que se inicia el 20 de diciembre de 2024, para ampliar los límites de la investigación en seguridad. Comenzaremos con las selecciones lo antes posible a partir de entonces. Las solicitudes cierran el 10 de enero de 2025. OpenAI News. Traducido al español

Leer más »

[Liderazgo en IA] ① Revolucionando los dispositivos de uso cotidiano mediante la IA en el dispositivo

La IA se está convirtiendo rápidamente en una parte esencial de la vida diaria. La visión “IA para todos” de Samsung Electronics se centra en brindar a los usuarios experiencias de IA enriquecedoras a lo largo de su vida diaria estableciendo un nuevo estándar para dispositivos de próxima generación como dispositivos móviles, televisores y electrodomésticos impulsados por IA. Un elemento central de las innovaciones de la inteligencia artificial de Samsung es la inteligencia artificial en el dispositivo. Esta tecnología permite que la IA funcione de forma independiente dentro del dispositivo y no requiere de un servidor externo ni de la nube. Los usuarios se benefician con tiempos de respuesta rápidos de la IA sin necesidad de una conexión de red, lo que reduce las preocupaciones con la fuga de datos personales. La IA en el dispositivo ahora ha evolucionado más allá de las funciones simples para manejar demandas que requieren grandes cantidades de datos (como la IA generativa) utilizando solo los recursos internos del dispositivo. Samsung Newsroom muestra cómo Samsung lidera el mundo en innovaciones de inteligencia artificial en los dispositivos. No requiere nube: Transformando la experiencia de IA en el dispositivo Respondiendo a la necesidad de velocidad y seguridad, gran parte de la industria tecnológica se ha centrado en ejecutar una IA generativa directamente en el dispositivo. Con inversiones a largo plazo que se remontan a más de una década, Samsung ha personalizado las funciones de IA para muchos de sus dispositivos y se ha colocado a la vanguardia al brindar experiencias de IA en el dispositivo para la vida diaria. Galaxy AI de Samsung, por ejemplo, ofrece funciones de IA integradas en los últimos dispositivos móviles y tablets de la compañía.[1] Ahora compatible con un total de 20 idiomas[2], Galaxy AI permite una comunicación sin barreras lingüísticas, incluida la interpretación de conversaciones en tiempo real y la traducción de mensajes y páginas web. Para los televisores, Samsung aprovecha su experiencia como líder mundial en el mercado para entrenar modelos de IA. Desde 2020, la empresa ha mejorado continuamente su procesador específico para televisores con una NPU (unidad de procesamiento neuronal) incorporada. El procesador NQ8 AI Gen3 del modelo Neo QLED 8K 2024 cuenta con 512 redes neuronales para una calidad de imagen y sonido mejorada. Al analizar y modificar píxeles, fotogramas y fuentes de sonido, el procesador ofrece un escalado avanzado, movimientos suaves y un diálogo claro para una experiencia de visualización perfecta en todas las situaciones. La clave de la IA en el dispositivo es minimizar el tamaño del modelo manteniendo el rendimiento. Para lograrlo, Samsung se ha centrado en una implementación eficiente utilizando datos de entrenamiento de IA especializados y adaptados a tareas específicas. ▲ Los maestros Sunmin Kim y Cheulhee Hahm, de Visual Display Business, Samsung Electronics, explican la inteligencia artificial en el dispositivo. Más pequeño y más rápido: Investigación para optimización de IA de Samsung A medida que la tecnología de IA avanza y aumentan los requisitos de procesamiento de datos, la optimización del modelo se ha vuelto crucial. En otras palabras, los modelos de IA de alto rendimiento deben poder operar eficientemente dentro de los límites de los recursos de los dispositivos (incluidos sus procesadores, memorias y baterías), manteniendo al mismo tiempo los niveles de rendimiento y confiabilidad para el uso diario. Las tecnologías clave para esto incluyen la compresión de modelos, la optimización del hardware y la aceleración del procesamiento de datos. Samsung ha asegurado varias tecnologías en el campo de la compresión de modelos para reducir el tamaño de los modelos de IA. La empresa ha logrado desarrollar modelos de IA ligeros y rápidos a través de técnicas como la cuantificación, que mejora la velocidad de respuesta al simplificar los algoritmos y optimizar los procesos de cálculo; la poda, que elimina elementos no esenciales de modelos más grandes; y la destilación de conocimiento, que transfiere conocimiento de modelos grandes a modelos más pequeños. Samsung también continúa innovando en la optimización del hardware y la aceleración del procesamiento de datos para ejecutar IA de manera rápida y eficiente. Por ejemplo, la tecnología de utilización de flash divide modelos de IA de gran tamaño y reduce significativamente el uso de memoria. Además, la empresa ha desarrollado una tecnología patentada que se espera ayude a realizar inferencias rápidas en dispositivos de gama baja sin NPU para ampliar las aplicaciones de IA en varios productos. Se están realizando más investigaciones para aumentar la velocidad de inferencia con decodificación especulativa, una tecnología que predice los resultados del modelo de IA, y mejora la potencia de procesamiento ejecutando varios hardware simultáneamente. ▲ Poda y destilación de conocimientos Experiencia de extremo a extremo: Del desarrollo interno a la implementación Con experiencia que abarca hardware, software, componentes y productos finales, Samsung lidera la innovación en inteligencia artificial en dispositivos, desde la investigación y el desarrollo hasta la implementación del producto. Desde la perspectiva de los dispositivos, el liderazgo de Samsung en el mercado de dispositivos móviles, televisores, electrodomésticos y más representa su excelencia tanto en hardware como en software. Samsung integra IA en sus propios dispositivos, lo que le permite a la empresa aprovechar tanto el desarrollo interno como la colaboración abierta con aliados de la industria para crear modelos de IA optimizados por hardware. La experiencia de Samsung también incluye software de sistema para unir hardware y software de aplicación. Por ejemplo, el sistema operativo Tizen y las NPU de los televisores Samsung potencian la inteligencia artificial en el dispositivo para ofrecer una experiencia de visualización más inteligente y mejorada. La empresa también proporciona a los desarrolladores SDK de Vision AI y Language AI, así como API de aprendizaje automático para facilitar el entrenamiento y la inferencia de modelos de IA. Samsung Research, el centro de investigación y desarrollo avanzado de la empresa se centra en mejorar la competitividad mediante el uso de la experiencia especializada de su red global de laboratorios, desde el desarrollo de estructuras de modelos de IA y la compresión de modelos en el

Leer más »

NVIDIA otorga becas de investigación de hasta 60.000 dólares a estudiantes de doctorado

Durante más de dos décadas, el Programa de becas para graduados de NVIDIA ha apoyado a estudiantes de posgrado que realizan trabajos destacados relacionados con las tecnologías de NVIDIA. Hoy, el programa anunció los últimos premios de hasta $60,000 cada uno para 10 estudiantes de doctorado que participan en investigaciones que abarcan todas las áreas de innovación informática. Los becarios, seleccionados de entre un grupo de postulantes altamente competitivo, participarán en una pasantía de verano antes del año de la beca. Su trabajo los coloca a la vanguardia de la computación acelerada, abordando proyectos en sistemas autónomos, arquitectura informática, gráficos por computadora, aprendizaje profundo, sistemas de programación, robótica y seguridad. El Programa de Becas de Posgrado de NVIDIA está abierto a solicitantes de todo el mundo. Los beneficiarios de las becas 2025-2026 son: También agradecemos a los finalistas de la beca 2025-2026: NVIDIA Blog. S. Ch. Traducido la español

Leer más »

El futuro de la IA: creado con Llama

El crecimiento de Llama, nuestro modelo de lenguaje abierto de gran tamaño, fue exponencial este año gracias a un ritmo acelerado de innovación y al enfoque abierto que adoptamos para compartir actualizaciones con la comunidad de IA. Comida para llevar Un año increíble para Llama El crecimiento de Llama, nuestro modelo de lenguaje abierto de gran tamaño, fue exponencial este año gracias a un ritmo acelerado de innovación y al enfoque abierto que adoptamos para compartir actualizaciones con la comunidad de IA. Comenzamos el año con la presentación de Llama 3 , la próxima generación de nuestro modelo de lenguaje abierto de gran tamaño de última generación. A eso le siguió en julio Llama 3.1 , que incluyó el lanzamiento de 405B, el primer modelo de IA abierto de nivel de frontera. Siguiendo el ritmo de la innovación, anunciamos Llama 3.2 en Connect 2024, compartiendo nuestros primeros modelos multimodales, así como modelos pequeños y medianos y livianos, de solo texto que se adaptan a dispositivos móviles y de borde. Y para cerrar el año, lanzamos Llama 3.3 70B , un modelo de solo texto que ofrece un rendimiento similar al 3.1 405B a una fracción del costo de servicio. Como compartió el fundador y director ejecutivo de Meta, Mark Zuckerberg , Llama se ha convertido rápidamente en el modelo más adoptado, con más de 650 millones de descargas de Llama y sus derivados, el doble de descargas que hace tres meses. Poniendo eso en perspectiva, los modelos de Llama ahora se han descargado un promedio de un millón de veces al día desde nuestro primer lanzamiento en febrero de 2023. Satisfacer la creciente demanda de Llama no sería posible sin la lista de socios que tenemos en todo el ecosistema de hardware y software, incluidos Amazon Web Services (AWS), AMD, Microsoft Azure, Databricks, Dell, Google Cloud, Groq, NVIDIA, IBM watsonx, Oracle Cloud, ScaleAI, Snowflake y más. Este creciente conjunto de socios representa lo mejor del ecosistema de tecnología de IA y garantiza que Llama esté optimizado para ejecutarse en prácticamente cualquier entorno y en cualquier forma, incluso en el dispositivo y en las instalaciones, así como en las API de servicios administrados de nuestros socios de la nube. El uso de Llama por volumen de tokens mensual ha seguido haciendo un gran progreso, con un volumen de tokens mensual en socios de la nube clave que creció más del 50 % mes a mes en septiembre. Fuera de los EE. UU., Llama se convirtió en un fenómeno global este año, con un crecimiento impresionante y un gran interés por nuestros modelos por parte de desarrolladores de todo el mundo y un ritmo acelerado de adopción con el lanzamiento de nuestra colección de modelos Llama 3. Las aprobaciones de licencias de Llama se han más que duplicado en los últimos seis meses en general, con un crecimiento notable en los mercados emergentes y un aumento de las descargas en América Latina, la región de Asia-Pacífico y Europa. Más allá de la gran demanda de Llama, nos ha entusiasmado ver el éxito que han tenido nuestros socios este año al reiterar nuestro trabajo. La comunidad de código abierto ha publicado más de 85 000 derivados de Llama solo en Hugging Face, un aumento de más de 5 veces en comparación con el comienzo del año. Esta participación y las contribuciones de la comunidad han ayudado a impulsar las decisiones de productos en Meta que informan mejor nuestra próxima ola de modelos y funciones fundamentales para lanzar dentro de Meta AI y, en última instancia, volver a la comunidad. Creciente adopción por parte de empresas y gobiernos A medida que más personas recurren a nuestros modelos abiertos, hemos lanzado nuevas funciones que hacen que la creación con Llama sea una experiencia más estandarizada. Este año, desarrollamos Llama Stack , una interfaz para componentes de la cadena de herramientas canónica para personalizar los modelos de Llama y crear aplicaciones con agentes. Creemos que ofrecer la mejor herramienta simplificada para la creación con Llama solo acelerará la increíble adopción que ya hemos presenciado en todos los sectores. Basándonos en nuestra trayectoria de asociación para promover la innovación en IA abierta, trabajamos con IBM para ofrecer Llama como parte de su catálogo de modelos watsonx.AI , un estudio empresarial de última generación para desarrolladores de IA de todo el mundo para entrenar, validar, ajustar e implementar modelos de IA. Esta asociación con IBM significa que Llama ya está siendo utilizado por gobiernos locales, importantes empresas de telecomunicaciones e incluso por un equipo de fútbol profesional para ayudar a identificar posibles nuevos reclutas. Block está integrando Llama en los sistemas de atención al cliente detrás de Cash App. Como Llama es de código abierto, la empresa puede experimentar y personalizar rápidamente el modelo para cada uno de sus casos de uso, al tiempo que le permite preservar la privacidad de los datos de sus clientes. Accenture recurrió a Llama en 2024 cuando recibió una solicitud de un importante organismo intergubernamental para crear un chatbot que sería la primera aplicación de inteligencia artificial generativa de gran escala y de cara al público de la organización. Creado con Llama 3.1, el chatbot funciona en AWS y emplea varias herramientas y servicios durante la personalización y la inferencia para garantizar la escalabilidad y la solidez. Spotify utiliza Llama para ofrecer recomendaciones contextualizadas que impulsen el descubrimiento de artistas y creen una experiencia de usuario aún más rica. Al combinar el amplio conocimiento y la versatilidad de Llama con la profunda experiencia de Spotify en contenido de audio, Spotify ha creado explicaciones que ofrecen a los usuarios información personalizada sobre el contenido recomendado. El equipo también ha creado una forma para que sus suscriptores reciban narraciones personalizadas sobre los nuevos lanzamientos recomendados y comentarios culturalmente relevantes de sus DJ de IA que hablan inglés y español. LinkedIn compartió recientemente Liger-Kernel, una biblioteca de código abierto diseñada para permitir una capacitación más eficiente de los LLM. Basándose en esta infraestructura escalable, LinkedIn exploró una variedad de LLM para ajustarlos a tareas específicas de su red social. Para algunas aplicaciones, descubrieron que Llama logró

Leer más »

OpenAI o1 y nuevas herramientas para desarrolladores

Presentamos OpenAI o1, mejoras de API en tiempo real, un nuevo método de ajuste y más para desarrolladores. Hoy presentamos modelos más capaces, nuevas herramientas de personalización y actualizaciones que mejoran el rendimiento, la flexibilidad y la rentabilidad para los desarrolladores que crean con IA. Esto incluye: OpenAI o1 en la API OpenAI o1 ,nuestro modelo de razonamiento diseñado para manejar tareas complejas de varios pasos con precisión avanzada, se está implementando para los desarrolladores en el nivel de uso 5 .(se abre en una nueva ventana)en la API. o1 es el sucesor de OpenAI o1-preview , que los desarrolladores ya han utilizado para crear aplicaciones de agentes para agilizar la atención al cliente, optimizar las decisiones de la cadena de suministro y pronosticar tendencias financieras complejas. o1 está listo para producción con características clave para permitir casos de uso en el mundo real, que incluyen: La instantánea de o1 que estamos enviando hoy o1-2024-12-17es una nueva versión entrenada posteriormente del modelo que lanzamos en ChatGPT hace dos semanas. Mejora áreas del comportamiento del modelo en función de los comentarios, al mismo tiempo que mantiene las capacidades de vanguardia que evaluamos en nuestra tarjeta del sistema o1. También actualizaremos o1 en ChatGPT a esta versión pronto. Las evaluaciones que compartimos a continuación reflejan el rendimiento de esta nueva instantánea, lo que garantiza que los desarrolladores tengan puntos de referencia actualizados para esta versión.  o1-2024-12-17Establece nuevos resultados de última generación en varios puntos de referencia, mejorando la relación coste-eficiencia y el rendimiento. Categoría Evaluar o1-2024-12-17 o1-vista previa General Diamante GPQA 75,7 73.3 MMLU (pase @1) 91.8 90.8 Codificación Banco SWE verificado 48.9 41.3 LiveBench (codificación) 76.6 52.3 Matemáticas MATEMÁTICAS (aprueba @1) 96.4 85,5 AIME 2024 (aprobado @1) 79.2 42.0 MGSM (pase @1) 89.3 90.8 Visión MMMU (pase @1) 77.3 — MathVista (aprobado @1) 71.0 — Factibilidad Control de calidad simple 42.6 42.4 Agentes Banco TAU (venta minorista) 73.5 — Banco TAU (aerolínea) 54.2 — Precisión de la evaluación del modelo en diferentes métricas gpt-4o-2024-11-20o1-vista previao1-2024-12-17o1 con SOinternal-structured-outputsinternal-function-callinginternal-function-calling-and-structured-outputslivebench-codingAIME 2022-20240.00.10.20.30.40.50.60.70.80.91.0Accuracy Además, hemos observado que o1-2024-12-17supera significativamente a gpt-4o en nuestras pruebas de llamadas de funciones y salidas estructuradas. Estamos implementando el acceso de forma gradual mientras trabajamos para ampliar el acceso a niveles de uso adicionales y aumentar los límites de velocidad. Para comenzar, consulte la documentación de la API .(se abre en una nueva ventana). Mejoras en la API en tiempo real La API en tiempo real(se abre en una nueva ventana)Permite a los desarrolladores crear experiencias de conversación naturales y de baja latencia. Es ideal para asistentes de voz, herramientas de traducción en vivo, tutores virtuales, sistemas de atención al cliente interactivos o incluso para tu propio Papá Noel virtual .(se abre en una nueva ventana)Hoy lanzamos cambios para abordar algunas de las solicitudes más comunes de los desarrolladores: una integración directa con WebRTC, precios reducidos y más control sobre las respuestas. Compatibilidad con WebRTC Presentamos WebRTC​(se abre en una nueva ventana)Compatibilidad con la API en tiempo real. WebRTC es un estándar abierto que facilita la creación y el escalado de productos de voz en tiempo real en distintas plataformas, ya sea para aplicaciones basadas en navegador, clientes móviles, dispositivos IoT o configuraciones directas de servidor a servidor. Nuestra integración con WebRTC está diseñada para permitir interacciones fluidas y con capacidad de respuesta en condiciones reales, incluso con calidad de red variable. Se encarga de la codificación de audio, la transmisión, la supresión de ruido y el control de la congestión.  Con WebRTC, ahora puedes agregar capacidades en tiempo real con solo unas pocas líneas de Javascript: JavaScript 1234567891011121asyncfunctioncreateRealtimeSession(localStream, remoteAudioEl, token) {2const pc = newRTCPeerConnection();3 pc.ontrack = e => remoteAudioEl.srcObject = e.streams[0];4 pc.addTrack(localStream.getTracks()[0]);5const offer = await pc.createOffer();6await pc.setLocalDescription(offer);7const headers = { Authorization: `Bearer ${token}`, ‘Content-Type’: ‘application/sdp’ };8const opts = { method: ‘POST’, body: offer.sdp, headers };9const resp = awaitfetch(‘https://api.openai.com/v1/realtime’, opts);10await pc.setRemoteDescription({ type: ‘answer’, sdp: await resp.text() });11return pc;12} Obtenga más información sobre nuestra integración WebRTC en la documentación de la API .(se abre en una nueva ventana). Nuevas instantáneas en tiempo real GPT-4o y GPT-4o mini a menor costo Estamos lanzando gpt-4o-realtime-preview-2024-12-17como parte de la versión beta de la API en tiempo real una calidad de voz mejorada, una entrada más confiable (especialmente para números dictados) y costos reducidos. Debido a nuestras mejoras de eficiencia, estamos reduciendo el precio del token de audio en un 60 % a $40/1 millón de tokens de entrada y $80/1 millón de tokens de salida. Los costos de entrada de audio en caché se reducen en un 87,5 % a $2,50/1 millón de tokens de entrada. También incorporaremos GPT-4o mini a la versión beta de la API en tiempo real como gpt-4o-mini-realtime-preview-2024-12-17. GPT-4o mini es nuestro modelo pequeño más rentable y ofrece las mismas experiencias de voz enriquecidas a la API en tiempo real que GPT-4o. El precio del audio de GPT-4o mini es de $10/1 millón de tokens de entrada y $20/1 millón de tokens de salida. Los tokens de texto tienen un precio de $0,60/1 millón de tokens de entrada y $2,40/1 millón de tokens de salida. Tanto el audio como el texto en caché cuestan $0,30/1 millón de tokens.  Estas instantáneas están disponibles en la API en tiempo real .(se abre en una nueva ventana)y también en la API de Finalizaciones de Chat(se abre en una nueva ventana)como gpt-4o-audio-preview-2024-12-17y gpt-4o-mini-audio-preview-2024-12-17. Más control sobre las respuestas Estamos incorporando las siguientes funciones a la API en tiempo real para facilitar la entrega de experiencias excepcionales impulsadas por voz: Ajuste fino de preferencias La API de ajuste fino ahora admite el ajuste fino de preferencias(se abre en una nueva ventana)para facilitar la personalización de modelos según las preferencias de los usuarios y desarrolladores. Este método utiliza la optimización de preferencias directas (DPO )(se abre en una nueva ventana)Comparar pares de respuestas del modelo, enseñándole al modelo a distinguir entre resultados preferidos y no preferidos. Al aprender de comparaciones por pares en lugar de objetivos fijos, el ajuste fino de preferencias es especialmente eficaz para tareas subjetivas en las que el tono, el estilo y la creatividad son importantes. Existen algunas diferencias clave entre el ajuste fino de preferencias y el ajuste fino supervisado, como se muestra

Leer más »

Los ingenieros del MIT crean chips 3D de gran tamaño

Una técnica de apilamiento electrónico podría aumentar exponencialmente la cantidad de transistores en los chips, lo que permitiría un hardware de IA más eficiente. La industria electrónica se está acercando al límite de transistores que se pueden colocar en la superficie de un chip de computadora, por lo que los fabricantes de chips buscan aumentarlos en lugar de eliminarlos. En lugar de comprimir transistores cada vez más pequeños en una única superficie, la industria pretende apilar múltiples superficies de transistores y elementos semiconductores, algo similar a convertir una casa de campo en un rascacielos. Estos chips multicapa podrían manejar exponencialmente más datos y llevar a cabo funciones mucho más complejas que los dispositivos electrónicos actuales. Sin embargo, un obstáculo importante es la plataforma sobre la que se construyen los chips. Hoy en día, las voluminosas obleas de silicio sirven como andamiaje principal sobre el que se desarrollan los elementos semiconductores monocristalinos de alta calidad. Cualquier chip apilable tendría que incluir un “suelo” de silicio grueso como parte de cada capa, lo que ralentizaría cualquier comunicación entre capas semiconductoras funcionales. Ahora, los ingenieros del MIT han encontrado una forma de superar este obstáculo, con un diseño de chip multicapa que no requiere ningún sustrato de oblea de silicio y funciona a temperaturas lo suficientemente bajas para preservar los circuitos de la capa subyacente. En un estudio que aparece hoy en la revista Nature , el equipo informa sobre el uso del nuevo método para fabricar un chip multicapa con capas alternas de material semiconductor de alta calidad cultivadas directamente una sobre otra. El método permite a los ingenieros construir transistores de alto rendimiento y elementos de memoria y lógica sobre cualquier superficie cristalina aleatoria, no solo sobre el voluminoso armazón cristalino de las obleas de silicio. Sin estos gruesos sustratos de silicio, múltiples capas semiconductoras pueden estar en contacto más directo, lo que conduce a una comunicación y computación mejores y más rápidas entre capas, afirman los investigadores. Los investigadores imaginan que el método podría usarse para construir hardware de IA, en forma de chips apilados para computadoras portátiles o dispositivos portátiles, que serían tan rápidos y potentes como las supercomputadoras actuales y podrían almacenar enormes cantidades de datos a la par de los centros de datos físicos. “Este avance abre un enorme potencial para la industria de los semiconductores, ya que permite apilar chips sin las limitaciones tradicionales”, afirma el autor del estudio Jeehwan Kim, profesor asociado de ingeniería mecánica en el MIT. “Esto podría conducir a mejoras de órdenes de magnitud en la potencia informática para aplicaciones en inteligencia artificial, lógica y memoria”. Los coautores del estudio del MIT incluyen al primer autor Ki Seok Kim, Seunghwan Seo, Doyoon Lee, Jung-El Ryu, Jekyung Kim, Jun Min Suh, June-chul Shin, Min-Kyu Song, Jin Feng y Sangho Lee, junto con colaboradores del Instituto Avanzado de Tecnología de Samsung, la Universidad Sungkyunkwan en Corea del Sur y la Universidad de Texas en Dallas. Bolsas de semillas En 2023, el grupo de Kim  informó que había desarrollado un método para cultivar materiales semiconductores de alta calidad en superficies amorfas, similares a la diversa topografía de los circuitos semiconductores en los chips terminados. El material que cultivaron era un tipo de material 2D conocido como dicalcogenuros de metales de transición, o TMD, considerado un prometedor sucesor del silicio para fabricar transistores más pequeños y de alto rendimiento. Estos materiales 2D pueden mantener sus propiedades semiconductoras incluso en escalas tan pequeñas como un solo átomo, mientras que el rendimiento del silicio se degrada drásticamente. En su trabajo anterior, el equipo desarrolló TMD sobre obleas de silicio con recubrimientos amorfos, así como sobre TMD ya existentes. Para estimular a los átomos a organizarse en una forma monocristalina de alta calidad, en lugar de en un desorden policristalino aleatorio, Kim y sus colegas primero cubrieron una oblea de silicio con una película muy fina, o «máscara» de dióxido de silicio, que modelaron con pequeñas aberturas o bolsas. Luego hicieron fluir un gas de átomos sobre la máscara y descubrieron que los átomos se asentaban en las bolsas como «semillas». Las bolsas confinaban a las semillas para que crecieran en patrones monocristalinos regulares. Pero en aquel momento, el método sólo funcionaba a unos 900 grados centígrados. “Hay que cultivar este material monocristalino a temperaturas inferiores a los 400 grados Celsius, de lo contrario el circuito subyacente se estropea por completo”, afirma Kim. “Por eso, nuestra tarea consistía en aplicar una técnica similar a temperaturas inferiores a los 400 grados Celsius. Si pudiéramos hacerlo, el impacto sería considerable”. Construyendo En su nuevo trabajo, Kim y sus colegas buscaron perfeccionar su método para hacer crecer materiales monocristalinos en 2D a temperaturas lo suficientemente bajas como para preservar cualquier circuito subyacente. Encontraron una solución sorprendentemente simple en la metalurgia, la ciencia y el oficio de la producción de metales. Cuando los metalúrgicos vierten metal fundido en un molde, el líquido se “nuclea” lentamente, o forma granos que crecen y se fusionan en un cristal con un patrón regular que se endurece hasta alcanzar una forma sólida. Los metalúrgicos han descubierto que esta nucleación ocurre más fácilmente en los bordes de un molde en el que se vierte el metal líquido. “Se sabe que la nucleación en los bordes requiere menos energía y calor”, afirma Kim. “Por eso, tomamos prestado este concepto de la metalurgia para utilizarlo en el futuro hardware de inteligencia artificial”. El equipo intentó cultivar TMD monocristalinos en una oblea de silicio que ya había sido fabricada con circuitos de transistores. Primero cubrieron el circuito con una máscara de dióxido de silicio, tal como en su trabajo anterior. Luego depositaron «semillas» de TMD en los bordes de cada una de las cavidades de la máscara y descubrieron que estas semillas de los bordes crecían hasta convertirse en material monocristalino a temperaturas tan bajas como 380 grados Celsius, en comparación con las semillas que comenzaron a crecer en el centro, lejos de los bordes de cada cavidad, lo que requirió temperaturas más altas para

Leer más »

Cambridge probará tecnologías de semiconductores de vanguardia para un uso más amplio en un importante proyecto europeo

La Universidad de Cambridge es uno de los dos participantes del Reino Unido nombrados como parte del consorcio PIXEurope, una colaboración entre organizaciones de investigación de toda Europa que desarrollarán y fabricarán prototipos de sus productos basados ​​en chips fotónicos. Los chips fotónicos transmiten y manipulan luz en lugar de electricidad y ofrecen un rendimiento significativamente más rápido con un menor consumo de energía que los chips electrónicos tradicionales.  El Cambridge Graphene Centre y el Cornerstone Photonics Innovation Centre de la Universidad de Southampton se asociarán con miembros de toda Europa para albergar una línea piloto, coordinada por el Instituto de Ciencias Fotónicas de España, que combinará equipos de última generación y la experiencia de 20 organizaciones de investigación. El consorcio PIXEurope ha sido seleccionado por la Comisión Europea y la Iniciativa Conjunta Chips, una iniciativa europea cuyo objetivo es impulsar la industria de semiconductores fomentando la colaboración entre los Estados miembros y el sector privado. El consorcio cuenta con una financiación total de 380 millones de euros. Los participantes del Reino Unido recibirán una financiación de hasta 4,2 millones de libras del Departamento de Ciencia, Innovación y Tecnología (DSIT), con una contrapartida de Horizonte Europa. El Reino Unido se unió a la Empresa Común para la Industria de Chips de la UE en marzo de 2024 , lo que le permitirá colaborar más estrechamente con los socios europeos en materia de innovación en semiconductores. La nueva línea piloto combinará equipos de última generación y la experiencia de organizaciones de investigación de 11 países. Su objetivo es fomentar la adopción de tecnologías fotónicas de vanguardia en más industrias para aumentar su eficiencia. Los chips fotónicos ya son esenciales en una amplia gama de aplicaciones, desde la respuesta a las demandas energéticas sin precedentes de los centros de datos hasta la transmisión de datos a alta velocidad para comunicaciones móviles y satelitales. En el futuro, estos chips serán cada vez más importantes y abrirán nuevas aplicaciones en los ámbitos de la atención sanitaria, la inteligencia artificial y la computación cuántica.  Los investigadores del Cambridge Graphene Centre serán responsables de la integración del grafeno y materiales relacionados en circuitos fotónicos para comunicaciones de alta velocidad y de bajo consumo energético y dispositivos cuánticos. “Esto puede dar lugar a productos y servicios que cambien la vida, con enormes beneficios económicos para el Reino Unido y el mundo”, afirmó el profesor Andrea C. Ferrari, director del Cambridge Graphene Centre.  Se espera que el mercado mundial de producción de circuitos integrados fotónicos (PIC) crezca más de un 400% en los próximos 10 años. Para finales de la década, se espera que el mercado mundial de la fotónica supere los 1,5 billones de euros, una cifra comparable a todo el producto interior bruto anual de España. Este crecimiento se debe a la demanda de áreas como las telecomunicaciones, la inteligencia artificial, la detección de imágenes, la automoción y la movilidad, la medicina y la salud, el cuidado del medio ambiente, las energías renovables, la defensa y la seguridad, y una amplia gama de aplicaciones de consumo. La combinación de chips microelectrónicos y chips fotónicos aporta las características y especificaciones necesarias para estas aplicaciones. Los primeros se encargan del procesamiento de la información mediante la manipulación de electrones dentro de circuitos basados ​​en silicio y sus variantes, mientras que los segundos utilizan fotones en los rangos del espectro visible e infrarrojo en diversos materiales. La nueva línea piloto tiene como objetivo ofrecer plataformas tecnológicas de vanguardia, transformar y transferir procesos y tecnologías fotónicas integradas innovadoras y disruptivas para acelerar su adopción industrial. El objetivo es la creación de tecnología de fabricación europea en un sector de importancia capital para la soberanía tecnológica, y la creación y mantenimiento de los correspondientes puestos de trabajo en el Reino Unido y en toda Europa. “Mis felicitaciones a Cornerstone y al Cambridge Graphene Centre por haber sido seleccionados para ser pioneros en la nueva línea piloto, asumiendo un papel central a la hora de llevar la innovación en semiconductores al siguiente nivel, fomentando la adopción de nuevas tecnologías”, afirmó el Ministro de Ciencia, Lord Vallance. “El Reino Unido sentó las bases de la fotónica de silicio en la década de 1990 y, al aunar nuestra experiencia con socios de toda Europa, podemos abordar desafíos globales urgentes, como el consumo y la eficiencia energética”. «La participación del Reino Unido en la primera línea piloto de fotónica a nivel europeo marca el inicio del primer ecosistema de circuitos integrados de fotónica de acceso abierto del mundo, estimulando el desarrollo de nuevas tecnologías con la industria y catalizando la innovación disruptiva en todo el Reino Unido, al tiempo que fortalece la colaboración del Reino Unido con las principales instituciones europeas que trabajan en el campo», dijo Ferrari. “PIXEurope es la primera línea piloto de fotónica que unifica toda la cadena de suministro, desde el diseño y la fabricación hasta las pruebas y el empaquetado, con plataformas tecnológicas que respaldarán un amplio espectro de aplicaciones”, afirmó el profesor Calum Littlejohns, coordinador de CORNERSTONE. “Estoy encantado de que CORNERSTONE forme una parte crucial de este programa”. La Chips JU también lanzará nuevas convocatorias de I+D colaborativas sobre una variedad de temas a principios de 2025. Las empresas e investigadores del Reino Unido son elegibles para participar. University of Cambridge News. Traducido al español

Leer más »
Scroll al inicio