El Portal de las Tecnologías para la Innovación

Categoría: Inteligencia Artificial News

Nuestro Marco de Preparación actualizado

Compartir nuestro marco actualizado para medir y proteger contra daños graves de las capacidades de IA de frontera. Estamos está lanzando una actualización de nuestro Marco de Preparación, nuestro proceso para rastrear y prepararse para capacidades avanzadas de IA que podrían introducir nuevos riesgos de daños graves. A medida que nuestros modelos continúan obteniendo más capaz, la seguridad dependerá cada vez más de tener las salvaguardas correctas del mundo real. Esta actualización introduce un enfoque más nítido en los riesgos específicos que más importan, requisitos más sólidos para lo que significa “minimizar suficientemente” esos riesgos en la práctica, y una orientación operativa más clara sobre cómo evaluamos, gobernamos y divulgamos nuestras salvaguardas. Además, presentamos categorías de investigación orientadas al futuro que nos permiten permanecer a la vanguardia de la comprensión de las capacidades emergentes para mantener el ritmo hacia el que se dirige la tecnología. Continuaremos invirtiendo profundamente en este proceso haciendo que nuestra preparación sea más procesable, rigurosa y transparente a medida que avanza la tecnología. Hemos aprendido mucho de nuestras propias pruebas, ideas de expertos externos y lecciones del campo. Esta actualización refleja ese progreso. En línea con nuestros principios básicos de seguridadéste realiza mejoras específicas que incluyen: Continuaremos publicando nuestros hallazgos de Preparación con cada lanzamiento del modelo de frontera, tal como lo hemos hecho GPT‑4o, O1 openAI, Operador, o3‑mini, investigación profunda, y GPT‑4.5y comparta nuevos puntos de referencia para apoyar esfuerzos de seguridad más amplios en todo el campo. Estamos profundamente agradecidos a los equipos internos, investigadores externos y pares de la industria que han contribuido con información invaluable a esta última actualización. El Marco de Preparación sigue siendo un documento vivo, y esperamos continuar actualizándolo a medida que aprendamos más. OpenAI News. Traducido al español

Leer más »

Fortalecer a Suiza como un centro de IA y abordar la escasez de mano de obra calificada

ETH Zurich está expandiendo sus actividades en el campo de la inteligencia artificial, impulsando el estatus de Suiza como un centro de IA. La universidad también está abordando la escasez de mano de obra calificada del país a través de sus programas de educación y capacitación. Sin embargo, ETH Zurich teme que un inminente cambio de paradigma en las tasas de matrícula pueda representar un desafío para su modelo de éxito. En resumen ETH Zurich continuó su contribución a la posición de Suiza como uno de los países más innovadores del mundo. El año pasado, la universidad produjo alrededor de 4.000 nuevos profesionales calificados, casi 300 invenciones, patentes y licencias, y lanzó 37 nuevas escisiones. En su 2024 informe anual publicado hoy, la universidad reflexiona sobre estos logros y destaca los éxitos del año pasado. Por quinto año consecutivo, más del 40 por ciento de los profesores recién nombrados eran mujeres, superando una vez más el objetivo propio de la universidad. ETH también estuvo a la altura de su papel como pionero en la educación, lanzando un nuevo programa de Maestrías en ciencias espaciales el otoño pasado – el primer programa de este tipo en Europa, con un plan de estudios diseñado para capacitar a especialistas para la industria espacial suiza y europea en rápido crecimiento. En 2024, ETH Zurich unió fuerzas con EPFL, PSI, Empa y numerosos socios del sector privado para establecer una asociación sin fines de lucro para avanzar página externaCoalición para la Energía Verde y el Almacenamiento (CGES). An sistema de almacenamiento de hidrógeno a base de hierro en el campus de Hönggerberg se presentó como el primer proyecto de las iniciativas. “Este es un excelente ejemplo de cómo desarrollamos soluciones para acelerar la transición a un sistema energético sostenible y resistente en Suiza,” dijo el Presidente de ETH, el Profesor Joël Mesot, en la conferencia de prensa anual. Suiza defiende una IA transparente y confiable La inteligencia artificial está transformando fundamentalmente la ciencia, los negocios y la sociedad. Para mantenerse competitivos en el panorama global de IA, ETH Zurich y EPFL se unieron para establecer el Instituto Nacional Suizo de IA (SNAI) en 2024. El instituto actualmente comprende más de 800 investigadores de IA de 10 universidades e instituciones de investigación en toda Suiza. “el objetivo de SNAIians es posicionar a Suiza como una ubicación global superior para desarrollar e implementar una IA transparente y confiable,” dice Joël Mesot. Para aprovechar eficazmente la IA, una masa crítica de talento y datos es esencial –, ya que tiene acceso a la potencia informática necesaria. Como resultado, SNAI depende en gran medida de la nueva supercomputadora Alps, que se inauguró en el CSCS en Lugano en el otoño de 2024. Este desarrollo le da a Suiza una ventaja geográfica significativa en el campo de la IA. Uno de los objetivos principales de SNAIi es desarrollar un modelo de lenguaje de IA suizo para el verano de 2025. A diferencia de muchos modelos comerciales, este está diseñado para ser transparente y abiertamente accesible. Las agencias oficiales y las empresas tendrán la oportunidad de utilizar este modelo como base para crear modelos lingüísticos más específicos. Por ejemplo, los investigadores de ETH Zurich ya están colaborando con la Corte Suprema Federal y la Oficina Federal de Justicia para crear un modelo adaptado para el sistema judicial suizo. Los graduados de ETH luchan contra la escasez de habilidades Los profesionales bien entrenados son un pilar clave de la prosperidad en Suiza. Con alrededor de 4,000 Maestrías y estudiantes de doctorado que se gradúan cada año, ETH Zurich hace una contribución significativa para combatir la escasez de habilidades en el país. Alrededor del 97 por ciento de los graduados encuentran empleo dentro de un año, con más del 80 por ciento restante en Suiza. El Índice de Habilidades de la Secretaría de Estado de Asuntos Económicos (SECO) muestra que los graduados de ETH tienen una gran demanda. Trabajan principalmente en profesiones donde la escasez de mano de obra calificada doméstica a largo plazo es la más aguda. Aproximadamente el 40 por ciento trabaja como ingenieros y científicos, y alrededor del 14 por ciento en el desarrollo de software – ambos campos con una pronunciada escasez de mano de obra calificada. Desde 2010, el número de especialistas educados anualmente por ETH se ha más que duplicado. Sin embargo, la contribución financiera federal ha aumentado solo un 27 por ciento durante el mismo período de tiempo. “Esto muestra que weiz ha podido mejorar significativamente la eficiencia de nuestra enseñanza,” dice ETH Rector Günther Dissertori, quien es responsable de la enseñanza. “Sin embargo, con un número cada vez mayor de estudiantes, será cada vez más difícil mantener nuestro alto nivel de calidad.” Los estudiantes sonnatst “cash cows” El paquete de ayuda propuesto por los gobiernos federales para 2027 incluye un plan para reducir la financiación del Dominio ETH en 78 millones de francos suizos, y los fondos faltantes se equilibrarán con tarifas estudiantiles más altas. Los cálculos de la Junta de ETH muestran que, dependiendo del escenario, las tasas de matrícula para los estudiantes suizos con una calificación de ingreso a la universidad (Matura) serían más del doble, mientras que las tarifas para los estudiantes internacionales tendrían que ser alrededor de siete veces más altas de lo que son hoy. “ETH Zurich considera comprensible que los estudiantes extranjeros contribuyan más financieramente a sus estudios,” explica Dissertori. “Sin embargo, la perspectiva de más del doble de las tarifas para los estudiantes suizos representa un cambio de paradigma. En Suiza, siempre hemos considerado a los estudiantes como una inversión valiosa en el futuro, no como una fuente de ingresos.” Un cambio de este tipo pondría en peligro el éxito de ETH Zurich, sin proporcionar un alivio sustancial para las finanzas de la universidad. Las tasas de matrícula actualmente representan menos del dos por ciento del presupuesto de ETH. Según Dissertori, la dependencia mínima de ETH Zurich en las tasas de matrícula ha sido un factor clave en su éxito. “Queremos atraer a los mejores

Leer más »

3 nuevas formas en que los agentes de IA pueden ayudarlo a hacer aún más

La palabra “agent” podría recordarnos a un humano que planea viajar o tal vez a un espía británico bien vestido.  Pero en el mundo de la IA en rápida evolución, el término tiene un significado completamente nuevo que está remodelando nuestra interacción con la tecnología y la automatización.   A medida que la tecnología continúa avanzando, los nuevos agentes de IA de Microsoft presentados en las últimas semanas pueden ayudar a las personas todos los días con cosas como investigación, ciberseguridad y más.   Lo primero es lo primero: ¿Qué es un agente de IA?   Imagine tener un asistente personal que no solo responda a los comandos, sino que se anticipe a sus necesidades, realice tareas complejas y siga aprendiendo de cada interacción —, lo que significa que realmente mejora con el tiempo.   Agentes de IA analice su entorno, tome decisiones y tome medidas, aborde tareas con usted o en su nombre en función de sus objetivos y barandillas. Eso significa que en lugar de realizar tareas repetitivas, puede ahorrar tiempo y centrarse en un trabajo más creativo y estratégico.   Agentes que usan el razonamiento para ayudarte a hacer más   Dos nuevos agentes de razonamiento anunciado a finales de marzo para Microsoft 365 Copilot puede ayudarle a ser más productivo en la oficina. Nombrado Investigador y Analista, ambos pueden analizar de forma segura sus datos de trabajo — correos electrónicos, reuniones, archivos, chats y más — y la web para ofrecer experiencia altamente calificada a pedido.  Investigador le ayuda a abordar la investigación compleja y de varios pasos en el trabajo. Puede crear una estrategia de marketing detallada basada en sus datos de trabajo e información más amplia de la web, identificar oportunidades para un nuevo producto basado en tendencias emergentes y datos internos, o crear un informe trimestral completo para una revisión del cliente. También puede integrar datos de fuentes externas como Salesforce, ServiceNow y Confluence directamente en Microsoft 365 Copilot.  Researcher combina el modelo de investigación profunda de OpenAIais con la orquestación avanzada de Microsoft 365 Copiloto y las capacidades de búsqueda profunda.  Analista, construido sobre el modelo de razonamiento o3-mini de OpenAIays, piensa como un científico de datos virtual. Puede tomar datos sin procesar dispersos en múltiples hojas de cálculo para hacer cosas como pronosticar cuánta demanda habrá para un nuevo producto o crear una visualización de los patrones de compra de los clientes.   Agentes que ayudan a automatizar las tareas de ciberseguridad  Otros nuevos agentes pueden ayudar a las organizaciones a defenderse contra las amenazas cibernéticas, manejando ciertas tareas de seguridad para ayudar a los equipos humanos a ser más eficientes.   Estos agentes24 De marzo, introducido, están diseñados para ayudar de forma autónoma con áreas críticas como phishing, seguridad de datos y gestión de identidad.   Por ejemplo, un nuevo agente de triaje de phishing en Microsoft Security Copilot puede manejar alertas de phishing y ataques cibernéticos de rutina, liberando a los equipos de ciberseguridad humana para que se centren en amenazas cibernéticas más complejas y medidas de seguridad proactivas.  Y los nuevos Alert Triage Agents en Microsoft Purview puede clasificar la prevención de pérdida de datos y las alertas de riesgo internas, priorizar incidentes críticos y mejorar continuamente la precisión en función de los comentarios del administrador.  Agentes para ayudar a los desarrolladores a construir e implementar IA de forma segura  Los agentes también están dando a los desarrolladores nuevas opciones.   Se puede acceder a dos nuevas en Azure AI Foundry —, una plataforma donde los desarrolladores y las organizaciones crean, implementan y administran aplicaciones de IA, proporcionando la infraestructura que los desarrolladores necesitan para crear agentes inteligentes a gran escala.   Agentes de datos de Microsoft Fabric permita a los desarrolladores que utilizan Azure AI Agent Service en Azure AI Foundry conectar agentes personalizados y conversacionales creados en Microsoft Fabric. Estos agentes de datos pueden razonar y desbloquear información de varias fuentes para tomar mejores decisiones basadas en datos.  Por ejemplo, NTT DATA, una empresa japonesa de TI y consultoría, está utilizando agentes de datos en Microsoft Fabric para tener conversaciones con HR y datos de operaciones administrativas para comprender mejor lo que está sucediendo en la organización.  Y lo nuevo Agente de Equipo Rojo de IA, ahora en la vista previa pública, sondea sistemáticamente los modelos de IA para descubrir los riesgos de seguridad. Genera informes completos y rastrea las mejoras a lo largo del tiempo, creando un ecosistema de pruebas de seguridad de IA que evoluciona junto con su sistema.   Obtenga más información sobre lo último en agentes en Microsoft Build 2025 — el registro ya está abierto.  Image se creó utilizando Microsoft Designer, una aplicación de diseño gráfico impulsada por IA. Microsoft Blog. Traducido al español

Leer más »

¿Qué es MLPerf? Entender el punto de referencia superior de AI

Un conjunto en constante evolución de pruebas de IA en el mundo real empuja a los expertos de Intel a aumentar el rendimiento, nivelar el campo de juego y hacer que la IA sea más accesible para todos. MLPerf es el conjunto de puntos de referencia de IA de los que has oído hablar, pero es posible que no (todavía) comprendas por completo. Si bien no pude encontrar una definición inequívoca de la palabra en sí misma –, se analogizó como “SPEC para ML” en su mayo de 2018 debut público – mi práctico asistente de IA tiene una respuesta segura. Se lee: “El nombre ‘MLPerf’ es un acrónimo derivado de ‘ML’ para el aprendizaje automático y ‘Perf’ para el rendimiento.” Tiene más que decir: “Si bien no hay una historia pública detallada sobre el proceso de nombramiento, el nombre en sí es bastante descriptivo y probablemente fue elegido por su representación directa del propósito de benchmarks’ (Solo el tipo de respuesta de apoyo que esperarías de una IA construida y refinada por investigadores de IA) Los resultados reales ilustran el punto: Solo la semana pasada», Intel continuó su ejecución como el único proveedor que envió los resultados de la CPU del servidor a MLPerf. Estos incluyeron el rendimiento de tareas comunes de IA como inspección de imágenes y análisis de información utilizando procesadores Intel® Xeon® 6. Las Personas y Procesos Detrás de los Playoffs de IA “MLPerf es el punto de referencia No. 1 para la IA en este momento,” dice Ramesh Chukka, quien trabaja en el Centro de datos Intelligs y el grupo de software de IA. un hombre con el pelo corto y oscuro, barba y gafas con una camisa estilo polo, mira a la cámaraRamesh Chukka es gerente de ingeniería de software de IA en el Centro de Datos de Intel y el grupo de software de IA y miembro de la junta del consorcio MLCommons. Chukka representa a Intel en la junta de MLCommons, un consorcio que se formó a finales de 2020 para expandir el esfuerzo inicial de MLPerf para “avanzar en el desarrollo y acceso a los últimos conjuntos de datos y modelos de IA y aprendizaje automático, mejores prácticas, puntos de referencia y métricas.” MLPerf se refiere a todos los puntos de referencia, que “evolucionan bastante rápido, como lo hace la tecnología,” Chukka dice, cumpliendo esa misión para avanzar en el campo con “creación rápida de prototipos de nuevas técnicas de IA.” Cada punto de referencia mide qué tan rápido se puede completar un trabajo de IA en particular – dado un nivel establecido de calidad –. Los puntos de referencia se dividen en dos categorías principales: capacitación, donde los modelos de IA se construyen utilizando datos; e inferencia, donde los modelos de IA se ejecutan como aplicaciones. Para enmarcarlo con un modelo de lenguaje grande, también conocido como LLM: El entrenamiento es donde el LLM aprende de un corpus de información, y la inferencia ocurre cada vez que le pides que haga algo por ti. MLCommons publica dos conjuntos de resultados de referencia al año para cada una de las dos categorías. Por ejemplo, Intel compartió más recientemente resultados de la formación en junio pasado y resultados de inferencia este mes. Los expertos de Intel AI han contribuido a MLPerf (y por lo tanto MLCommons) desde el primer día. La participación de Intel siempre ha sido doble: ayudar a dar forma y evolucionar todo el esfuerzo, al tiempo que compila y aporta resultados de referencia utilizando procesadores, aceleradores y soluciones Intel. Los Problemas MLPerf Benchmarks Resuelven Los modelos de IA son programas complicados, y una amplia y creciente variedad de computadoras pueden ejecutarlos. Los puntos de referencia de MLPerf están diseñados para permitir mejores comparaciones de esas computadoras al tiempo que empujan a los investigadores y las empresas a promover el estado de la técnica. Cada punto de referencia está destinado a ser lo más representativo posible del mundo real, y los resultados aterrizan en una de dos divisiones. La división “closed” controla el modelo AI y la pila de software para proporcionar las mejores comparaciones posibles de hardware a hardware. En otras palabras, cada sistema diferente utiliza la misma aplicación para lograr el mismo resultado (por ejemplo, una medida de precisión para el procesamiento del lenguaje natural). La división “open” permite la innovación — cada sistema logra el mismo resultado deseado, pero puede empujar el sobre de rendimiento en la medida de lo posible, sin embargo. Lo que es admirable de MLPerf es que todo es compartido y los puntos de referencia son de código abierto. Los resultados deben ser reproducibles — ningún misterio puede permanecer. Esta apertura permite comparaciones más dinámicas más allá de la velocidad bruta lado a lado, como el rendimiento por potencia o el costo. Cómo Funciona y Evoluciona MLPerf Como mencionó Chukka, MLPerf conserva su prominencia en parte al evolucionar continuamente y agregar nuevos puntos de referencia. La forma en que ocurre ese proceso es en gran medida a través del debate abierto y la discusión entre la comunidad MLCommons, que abarca grandes empresas, nuevas empresas y la academia. Se proponen y debaten nuevos puntos de referencia, y luego los aprobados necesitan un conjunto de datos abierto para la capacitación — que puede existir o no. Los colaboradores se ofrecen como voluntarios para formar un equipo y construir el punto de referencia, identificar o recopilar datos, y establecer un cronograma para el lanzamiento de las evaluaciones comparativas. Cualquier empresa que quiera publicar resultados debe cumplir con una fecha límite para el próximo lanzamiento. Si se lo pierden, esperan la siguiente ronda. Lo que el Mundo Obtiene de una IA Más Rápida y Eficiente Si bien tener más personas en el mundo resolviendo más problemas usando semiconductores tiene un beneficio obvio para Intel (sin mencionar más grist para la fábrica de ventas y marketing), hay otros beneficios para la participación de Intel en MLPerf. Intel siempre está contribuyendo a marcos de código abierto para IA,

Leer más »

Los verificadores de seguridad de IBM encabezan un nuevo punto de referencia de IA

Granite Guardian se eleva a la cima de GuardBench, la primera medida independiente de qué tan bien los modelos de barandilla pueden detectar contenido dañino y alucinado, así como los intentos de ‘jailbreak’ controles de seguridad LLM. El uso de modelos de IA puede conllevar riesgos, pero la IA también se está volviendo más inteligente al marcarlos y maniobrar a su alrededor. Cuando IBM Research lanzó sus modelos Granite Guardian el año pasado, el equipo los consideró las herramientas más poderosas para detectar un amplio espectro de riesgos asociados IA generativa. Ahora, el primer punto de referencia para evaluar de forma independiente los llamados modelos AI “storerail” tiene Granite Guardian liderando el paquete. IBM Modelos Granite Guardian mantenga seis de los 10 mejores lugares en el nuevo Tabla de clasificación de GuardBench, la primera medida de terceros de qué tan bien los clasificadores de IA pueden marcar indicaciones dañinas o maliciosas y respuestas generadas por LLM. Los tres mejores modelos — Granite Guardian 3.1 8B, Granite Guardian 3.0 8B y Granite Guardian 3.2 5B — también se han adoptado públicamente, con casi 36,000 descargas en Hugging Face, el centro de modelos de IA de código abierto. Creado por investigadores de la Comisión Europea para el Centro Común de Investigación, GuardBench se compone de 40 conjuntos de datos, incluidos cinco que son completamente nuevos. Además de ser el primer punto de referencia independiente para probar la seguridad de la IA, es el primero en extender las preguntas de prueba más allá del Inglés, con pruebas en francés, alemán, italiano y español. Granite Guardian ya se había distinguido en una variedad de conjuntos de datos públicos internamente. Los resultados de GuardBench proporcionan una confirmación adicional de las capacidades de models’, incluso en idiomas en los que los modelos no habían sido entrenados explícitamente. “Entrenamos a Granite Guardian solo con datos en inglés,” dijo Prasanna Sattigeri, investigadora de IBM que dirigió el proyecto. “El hecho de que lo hiciéramos tan bien muestra que teníamos un fuerte LLM multilingüe de granito para empezar.” Los cuatro modelos principales de Granite Guardian tuvieron puntajes de 86% y 85% en los conjuntos de datos de Guardian Benchics 40. Por el contrario, Nvidia y Meta, las únicas otras compañías que rompieron el top 10, tenían modelos de barandilla que obtuvieron un 82%, 80%, 78% y 76%. Investigadores desvelados GuardBench en noviembre pasado en EMNLP, una conferencia de procesamiento de lenguaje natural superior. Debido a que su artículo salió antes de que IBM lanzara sus modelos Granite Guardian, la tabla de clasificación de GuardBench que se puso en marcha la semana pasada fue la primera validación pública de los modelos de IBM. “No nos sorprendió, pero fue bueno ver qué tan bien se generalizaron y se desempeñaron en los puntos de referencia en los que no los habíamos probado,” dijo el investigador de IBM Inkit Padhi, quien formó parte del equipo que desarrolló Granite Guardian. Una solución integral Granite Guardian fue diseñado para funcionar con cualquier LLM, independientemente de si sus pesos eran abiertos o propietarios. Los modelos también fueron entrenados bajo IBM Atlas de riesgo de IA para marcar contenido socialmente sesgado, lenguaje odioso, abusivo o profano (HAP), así como cualquier intento de los usuarios de ‘jailbreak,’ o bypass, los controles de seguridad de LLMm. A diferencia de muchos otros modelos de barandillas, Granite Guardian también fue entrenado para detectar ‘respuestas alucinadas que podrían contener información incorrecta o engañosa, incluso en generación aumentada por recuperación (RAG) aplicaciones. Los modelos pueden igualar el rendimiento de los detectores de alucinaciones especializados y personalizarse para otras dimensiones de riesgo, con la indicación de construir su propio detector. “No hay otro modelo de guardia único que sea tan completo en cuanto a riesgos y daños,” dijo el compañero de IBM Kush Varshney en LinkedIn. El equipo atribuye gran parte de las habilidades de Granite Guardian a la calidad de sus datos de entrenamiento. Los investigadores contrataron a personas de diversos orígenes para etiquetar ejemplos de contenido no deseado. También incluyeron datos sintéticos generado durante el interno rojo-teaming ejercicios en modelos de lenguaje Granite más antiguos. La velocidad es uno de los factores decisivos para que los modelos de barandilla tengan éxito. Filtrar contenido no deseado sobre la marcha, cuando un LLM puede estar generando millones de palabras, puede agregar retrasos adicionales que los usuarios pueden no estar dispuestos a tolerar. Aquí, la serie Granite Guardian también brilla. Los investigadores de IBM desarrollaron varias variaciones ligeras para dar a los usuarios más flexibilidad. Filtros especializados para Detección de HAP solo fueron lanzados a principios de este año. Investigadores también reducido un modelo Granite Guardian 8B a 5B identificando y podando capas redundantes. Esta intervención aceleró la inferencia 1,4 veces sin ninguna pérdida de precisión. El modelo 5B (actualmente #3 en GuardBench) también introdujo nuevas características, incluida la capacidad de marcar comentarios dañinos en conversaciones de varias vueltas y verbalizar su nivel de certeza en sus respuestas. El Colección Granite Guardian está disponible en Hugging Face bajo una licencia Apache 2.0 y a través de IBM watsonx Plataforma de IA. Las últimas versiones cuantificadas de los modelos también son disponible en Hugging Face. IBM News. Traducido al español

Leer más »

Presentamos OpenAI o3 y o4-mini

Nuestros modelos más inteligentes y capaces hasta la fecha con acceso completo a herramientas Hoy lanzamos OpenAI o3 y o4-mini, los modelos más recientes de nuestra serie o, entrenados para pensar durante más tiempo antes de responder. Estos son los modelos más inteligentes que hemos lanzado hasta la fecha, lo que representa un cambio radical en las capacidades de ChatGPT para todos, desde usuarios curiosos hasta investigadores avanzados. Por primera vez, nuestros modelos de razonamiento pueden usar y combinar de forma agente todas las herramientas de ChatGPT, incluyendo la búsqueda web, el análisis de archivos subidos y otros datos con Python, el razonamiento profundo sobre entradas visuales e incluso la generación de imágenes. Fundamentalmente, estos modelos están entrenados para razonar sobre cuándo y cómo usar las herramientas para producir respuestas detalladas y bien pensadas en los formatos de salida adecuados, generalmente en menos de un minuto, para resolver problemas más complejos. Esto les permite abordar preguntas multifacéticas con mayor eficacia, un paso hacia un ChatGPT más agente que puede ejecutar tareas de forma independiente. La combinación del poder del razonamiento de vanguardia con acceso completo a las herramientas se traduce en un rendimiento significativamente superior en pruebas académicas y tareas del mundo real, estableciendo un nuevo estándar tanto en inteligencia como en utilidad. ¿Qué ha cambiado? OpenAI o3 es nuestro modelo de razonamiento más potente, que revoluciona la programación, las matemáticas, la ciencia, la percepción visual y más. Establece un nuevo SOTA en benchmarks como Codeforces, SWE-bench (sin crear un andamiaje específico para el modelo) y MMMU. Es ideal para consultas complejas que requieren un análisis multifacético y cuyas respuestas pueden no ser obvias de inmediato. Se desempeña especialmente bien en tareas visuales como el análisis de imágenes, diagramas y gráficos. En evaluaciones realizadas por expertos externos, o3 comete un 20 % menos de errores importantes que OpenAI o1 en tareas difíciles del mundo real, destacando especialmente en áreas como programación, negocios/consultoría e ideación creativa. Los primeros evaluadores destacaron su rigor analítico como un socio de pensamiento y enfatizaron su capacidad para generar y evaluar críticamente hipótesis novedosas, particularmente en contextos de biología, matemáticas e ingeniería. OpenAI o4-mini es un modelo más pequeño, optimizado para un razonamiento rápido y rentable. Logra un rendimiento notable para su tamaño y costo, especialmente en matemáticas, programación y tareas visuales . Es el modelo de referencia con mejor rendimiento en AIME 2024 y 2025. Si bien el acceso a una computadora reduce significativamente la dificultad del examen AIME, también destacamos que o4-mini logra un 99.5% de aprobados a 1 (100% de consenso a 8) en AIME 2025 al tener acceso a un intérprete de Python. Si bien estos resultados no deben compararse con el rendimiento de modelos sin acceso a herramientas, son un ejemplo de la eficacia con la que o4-mini aprovecha las herramientas disponibles; o3 muestra mejoras similares en AIME 2025 gracias al uso de herramientas (98.4% de aprobados a 1, 100% de consenso a 8). En evaluaciones de expertos, o4-mini también supera a su predecesor, o3-mini, en tareas no STEM, así como en dominios como la ciencia de datos. Gracias a su eficiencia, o4-mini admite límites de uso significativamente mayores que o3, lo que lo convierte en una opción sólida para preguntas de alto volumen y alto rendimiento que se benefician del razonamiento. Evaluadores expertos externos calificaron ambos modelos por demostrar un mejor seguimiento de instrucciones y respuestas más útiles y verificables que sus predecesores, gracias a una inteligencia mejorada y a la inclusión de fuentes web. En comparación con versiones anteriores de nuestros modelos de razonamiento, estos dos modelos también deberían resultar más naturales y conversacionales, especialmente porque hacen referencia a la memoria y a conversaciones pasadas para que las respuestas sean más personalizadas y relevantes.o1o3-minio3 (no tools)o4-mini (no tools)Accuracy (%)74.387.391.693.4AIME 2024Competition Matho1o3-minio3 (no tools)o4-mini (no tools)Accuracy (%)79.286.588.992.7AIME 2025Competition Matho1o3-minio3 (with terminal)o4-mini (with terminal)ELO1891207327062719CodeforcesCompetition Codeo1o3-minio3 (no tools)o4-mini (no tools)Accuracy (%)78.077.083.381.4GPQA DiamondPhD-Level Science Questionso1-proo3-minio3 (no tools)o3 (python + browsing** tools)o4-mini (no tools)o4-mini (with python + browsin…Deep researchAccuracy (%)8.1213.4020.3224.9014.2817.7026.60Humanity’s Last ExamExpert-Level Questions Across Subjects Multimodal o1o3o4-miniAccuracy (%)77.682.981.6MMMUCollege-level visual problem-solvingo1o3o4-miniAccuracy (%)71.886.884.3MathVistaVisual Math Reasoningo1o3o4-miniAccuracy (%)55.178.672.0CharXiv-ReasoningScientific Figure Reasoning Codificación o1-higho3-mini-higho3-higho4-mini-high$0$59,000$118,000$177,000$236,000Dollars earned$28,500$17,375$65,250$56,375SWE-Lancer: IC SWE DiamondFreelance Coding Taskso1o3-minio3o4-miniAccuracy (%)48.949.369.168.1SWE-Bench VerifiedSoftware Engineeringo1-higho3-mini-higho3-higho4-mini-highAccuracy (%)64.4%(whole)61.7%(diff)66.7%(whole)60.4%(diff)81.3%(whole)79.6%(diff)68.9%(whole)58.2%(diff)Aider PolyglotCode Editing Seguimiento de instrucciones y uso de herramientas de forma agente o1o3-minio3o4-miniAccuracy (%)44.9339.8956.5142.99Scale MultiChallengeMulti-turn instruction following4o + browsingo3 with python + browsing*o4-mini with python + browsin…Deep researchAccuracy (%)1.949.728.351.5BrowseCompAgentic Browsingo1-higho3-mini-higho3-higho4-mini-highAccuracy (%)50.0%(Airline)70.8%(Retail)32.4%(Airline)57.6%(Retail)52.0%(Airline)70.4%(Retail)49.2%(Airline)65.6%(Retail)Tau-benchFunction Calling Todos los modelos se evalúan con configuraciones de «esfuerzo de razonamiento» elevado, similares a variantes como «o4-mini-high» en ChatGPT. Continuamos ampliando el aprendizaje de refuerzo Durante el desarrollo de OpenAI o3, hemos observado que el aprendizaje por refuerzo a gran escala exhibe la misma tendencia de «mayor cómputo = mejor rendimiento » observada en el preentrenamiento de la serie GPT. Al repasar la trayectoria de escalado, esta vez en aprendizaje por refuerzo (RL), hemos impulsado un orden de magnitud adicional tanto el cómputo de entrenamiento como el razonamiento en tiempo de inferencia, y aun así observamos claras mejoras de rendimiento, lo que confirma que el rendimiento de los modelos continúa mejorando cuanto más se les permite pensar. Con la misma latencia y coste que OpenAI o1, o3 ofrece un mayor rendimiento en ChatGPT, y hemos confirmado que, si le permitimos pensar durante más tiempo, su rendimiento sigue aumentando. También entrenamos a ambos modelos para usar herramientas mediante aprendizaje por refuerzo , enseñándoles no solo cómo usarlas, sino también a razonar sobre cuándo usarlas. Su capacidad para implementar herramientas según los resultados deseados los hace más competentes en situaciones abiertas, especialmente aquellas que implican razonamiento visual y flujos de trabajo de varios pasos. Esta mejora se refleja tanto en los puntos de referencia académicos como en las tareas del mundo real, según informaron los primeros evaluadores. Pensar con imágenes Por primera vez, estos modelos pueden integrar imágenes directamente en su cadena de pensamiento. No solo ven una imagen, sino que piensan con ella. Esto abre un nuevo tipo de resolución de problemas que combina el razonamiento visual y textual, lo que se refleja en su rendimiento de vanguardia en pruebas multimodales. Se puede subir una foto de una pizarra, un

Leer más »

Introduciendo GPT-4.1 en la API

Una nueva serie de modelos GPT con mejoras importantes en codificación, seguimiento de instrucciones y contexto largo, más nuestro primer modelo nano. Hoy lanzamos tres nuevos modelos en la API: GPT‑4.1, GPT‑4.1 mini y GPT‑4.1 nano. Estos modelos superan a GPT‑4o y GPT‑4o mini en todos los aspectos, con importantes mejoras en la codificación y el seguimiento de instrucciones. Además, cuentan con ventanas de contexto más amplias (admiten hasta un millón de tokens de contexto) y permiten un mejor uso de dicho contexto gracias a una mejor comprensión de contextos extensos. Presentan un límite de conocimiento actualizado de junio de 2024. GPT‑4.1 destaca en las siguientes medidas estándar de la industria:  Si bien los benchmarks proporcionan información valiosa, entrenamos estos modelos centrándonos en su utilidad en el mundo real. La estrecha colaboración con la comunidad de desarrolladores nos permitió optimizar estos modelos para las tareas más importantes para sus aplicaciones. Para ello, la familia de modelos GPT‑4.1 ofrece un rendimiento excepcional a un coste menor. Estos modelos optimizan el rendimiento en cada punto de la curva de latencia. GPT‑4.1 mini representa un avance significativo en el rendimiento de los modelos pequeños, superando incluso a GPT‑4o en numerosas pruebas de rendimiento. Iguala o supera a GPT‑4o en evaluaciones de inteligencia, a la vez que reduce la latencia casi a la mitad y el coste en un 83 %.  Para tareas que requieren baja latencia, GPT‑4.1 nano es nuestro modelo más rápido y económico disponible. Ofrece un rendimiento excepcional en un tamaño compacto gracias a su ventana de contexto de 1 millón de tokens, y obtiene una puntuación del 80,1 % en MMLU, del 50,3 % en GPQA y del 9,8 % en codificación políglota de Aider, incluso superior a la de GPT‑4o mini. Es ideal para tareas como la clasificación o el autocompletado. Estas mejoras en la fiabilidad del seguimiento de instrucciones y la comprensión de contextos extensos también hacen que los modelos GPT‑4.1 sean considerablemente más eficaces para impulsar agentes o sistemas que pueden realizar tareas de forma independiente en nombre de los usuarios. Al combinarse con primitivas como la API de Respuestas …(se abre en una nueva ventana)Los desarrolladores ahora pueden crear agentes que sean más útiles y confiables en la ingeniería de software del mundo real, extrayendo información de documentos grandes, resolviendo solicitudes de clientes con mínima asistencia y otras tareas complejas.  Tenga en cuenta que GPT‑4.1 solo estará disponible a través de la API. En ChatGPT, muchas de las mejoras en el seguimiento de instrucciones, la codificación y la inteligencia se han incorporado gradualmente a la última versión .(se abre en una nueva ventana)de GPT‑4o y continuaremos incorporando más en futuras versiones.  También comenzaremos a descontinuar la versión preliminar de GPT‑4.5 en la API, ya que GPT‑4.1 ofrece un rendimiento mejorado o similar en muchas funciones clave con un costo y una latencia mucho menores. La versión preliminar de GPT‑4.5 se desactivará dentro de tres meses, el 14 de julio de 2025, para dar tiempo a los desarrolladores para la transición. GPT‑4.5 se presentó como una versión preliminar de investigación para explorar y experimentar con un modelo grande y de alto consumo de recursos, y hemos aprendido mucho de los comentarios de los desarrolladores. Seguiremos incorporando la creatividad, la calidad de escritura, el humor y los matices que nos comentaron que apreciaban en GPT‑4.5 a los futuros modelos de API. A continuación, desglosamos el rendimiento de GPT-4.1 en varios puntos de referencia, junto con ejemplos de evaluadores alfa como Windsurf, Qodo, Hex, Blue J, Thomson Reuters y Carlyle que muestran su rendimiento en producción en tareas específicas del dominio. Codificación GPT-4.1 es significativamente mejor que GPT-4o en una variedad de tareas de codificación, incluidas la resolución de tareas de codificación de manera agente, codificación frontend, realizar menos ediciones extrañas, seguir formatos diff de manera confiable, garantizar el uso constante de la herramienta y más. En SWE-bench Verified, una medida de habilidades reales de ingeniería de software, GPT‑4.1 completa el 54,6 % de las tareas, en comparación con el 33,2 % de GPT‑4o (20/11/2024). Esto refleja mejoras en la capacidad del modelo para explorar un repositorio de código, finalizar una tarea y producir código que se ejecuta y supera las pruebas.GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)OpenAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4o mini55%33%41%49%38%24%9%SWE‑bench Verified accuracy Para SWE-bench Verified , se asigna a un modelo un repositorio de código y una descripción del problema, y ​​debe generar un parche para solucionarlo. El rendimiento depende en gran medida de las indicaciones y las herramientas utilizadas. Para facilitar la reproducción y contextualización de nuestros resultados, describimos nuestra configuración para GPT‑4.1 aquí .(se abre en una nueva ventana)Nuestras puntuaciones omiten 23 de 500 problemas cuyas soluciones no pudieron ejecutarse en nuestra infraestructura; si se les asigna una puntuación conservadora de 0, la puntuación del 54,6 % se convierte en 52,1 %. Para los desarrolladores de API que buscan editar archivos grandes, GPT‑4.1 es mucho más confiable en las comparaciones de código entre diversos formatos. GPT‑4.1 duplica con creces la puntuación de GPT‑4o en la prueba de comparación de diferencias políglotas de Aider .(se abre en una nueva ventana)e incluso supera a GPT‑4.5 en un 8% absoluto. Esta evaluación mide tanto la capacidad de codificación en varios lenguajes de programación como la capacidad del modelo para producir cambios en formatos completos y diferenciales. Hemos entrenado específicamente a GPT‑4.1 para que siga los formatos diferenciales con mayor fiabilidad, lo que permite a los desarrolladores ahorrar costes y latencia al modificar solo las líneas de salida del modelo, en lugar de reescribir un archivo completo. Para obtener el mejor rendimiento en la comparación de código, consulte nuestra guía de indicaciones .(se abre en una nueva ventana)Para los desarrolladores que prefieren reescribir archivos completos, hemos aumentado el límite de tokens de salida para GPT‑4.1 a 32 768 tokens (en comparación con los 16 384 tokens de GPT‑4o). También recomendamos usar las salidas predichas .(se abre en una nueva ventana)para reducir la latencia de las reescrituras de archivos completos.GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)OpenAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini52% (whole)53% (diff)31% (whole)18% (diff)64% (whole)62% (diff)67% (whole)60% (diff)35% (whole)32% (diff)10% (whole)6% (diff)4% (whole)3% (diff)N/A

Leer más »

Huawei Lanza Cinco Soluciones para Acelerar la Inteligencia Aeronáutica

 Durante la Terminal de Pasajeros Expo 2025 en Madrid, Huawei lanzó cinco soluciones de aviación, en particular el Smart Airport Intelligent Operation Center (IOC) para avanzar en las actualizaciones inteligentes de la industria. Ejecutivos de Huawei, entre ellos el Sr. Dong Fangshuo, Vicepresidente de Smart Transportation BU de Huawei, el Sr. Yang Guojie, Director de Transportation Industry Solution Domain de Data Communication Product Line de Huawei, Eric Liu, Ingeniero Jefe de Huawei Optical Network Business y el Dr. Rachad Nassar, Director de Negocios Globales y Socios Estratégicos de Smart Transportation BU de Huawei, asistió al evento de lanzamiento. Las cinco soluciones reveladas sentarán una base sólida para que la aviación “vaya de banda ancha, vaya a la nube y vaya AI.” Ellos son: Las soluciones reflejan que las TIC han evolucionado de un sistema de apoyo lateral a uno de los sistemas de producción de misión crítica básicos de carga aérea, con la inteligencia en el corazón de la transformación en curso del sector de la aviación. Esta evolución está impulsando a los aeropuertos a repensar cómo asignan recursos y evolucionan hacia aeropuertos inteligentes. Huawei trabaja con socios de aviación para integrar profundamente nuevas tecnologías y crear la arquitectura de gemelos digitales inteligentes que sinergiza la conectividad, la nube, la IA, la informática y las aplicaciones. Esta arquitectura tiene como objetivo mejorar significativamente la eficiencia operativa, el valor comercial, la seguridad y la experiencia del pasajero. Dr. Rachad Nassar, Director de Negocios Globales y Socios Estratégicos de Smart Transportation BU de Huawei, señaló en el evento de lanzamiento que el avance de la aviación se basa en tecnologías digitales e inteligentes. Afirmó que Huawei se compromete a construir aeropuertos más seguros y eficientes que brinden una experiencia perfecta. «En el futuro, colaboraremos con más socios de la industria que tengan las mejores prácticas para establecer un nuevo ecosistema para la innovación y el desarrollo aeroportuario. Juntos, podemos ayudar a los clientes a racionalizar los sistemas industriales existentes, maximizar el potencial de datos y mejorar la productividad dentro del sector de la aviación.» Discurso clave del Dr. Nassar Rachad Durante la exposición, Huawei también mostró su gama de soluciones basadas en escenarios para operaciones, seguridad y servicios aeroportuarios junto con los escenarios operativos de las aerolíneas. Las soluciones garantizan flujos de pasajeros y vuelos sin problemas, mejoran la experiencia de viaje y aumentan la eficiencia operativa tanto de los aeropuertos como de las aerolíneas. Hasta la fecha, más de 210 aeropuertos, aerolíneas y autoridades de gestión del tráfico aéreo de todo el mundo han elegido a Huawei. De cara al futuro, Huawei trabajará con clientes y socios de la industria para construir una base digital e inteligente para la aviación civil, desarrollar aeropuertos inteligentes que sean seguros, ecológicos y amigables con los pasajeros, y acelerar el desarrollo inteligente de la aviación. Para obtener más información sobre la Solución de Aviación Inteligente de Huawei, visite: https://e.huawei.com/en/industries/aviation Huawei News. Traducido al español

Leer más »

Más allá de CAD: Cómo nTop Utiliza la IA y la Computación Acelerada para Mejorar el Diseño del Producto

Una de las ideas clave de Rothenberg ha sido la estrecha correlación que existe entre la iteración a escala y la innovación, especialmente en el ámbito del diseño. Cuando era adolescente, Bradley Rothenberg estaba obsesionado con el CAD: software de diseño asistido por computadora. Antes de cumplir 30 años, Rothenberg canalizó ese interés en la creación de una empresa emergente, nTop , que hoy ofrece a los desarrolladores de productos (de industrias muy diferentes) herramientas rápidas y altamente iterativas que los ayudan a modelar y crear diseños innovadores y a menudo profundamente poco ortodoxos. Una de las ideas clave de Rothenberg ha sido la estrecha correlación que existe entre la iteración a escala y la innovación, especialmente en el ámbito del diseño. También se dio cuenta de que, al crear software de ingeniería para GPU, en lugar de CPU (que impulsaban (y siguen impulsando) prácticamente todas las herramientas CAD), nTop podía aprovechar los algoritmos de procesamiento paralelo y la IA para ofrecer a los diseñadores una iteración rápida y prácticamente ilimitada para cualquier proyecto de diseño. El resultado: oportunidades de innovación prácticamente ilimitadas. Los diseñadores de productos de todo tipo tomaron nota. Una década después de su fundación, nTop, miembro del programa NVIDIA Inception para startups de vanguardia, ahora emplea a más de 100 personas, principalmente en la ciudad de Nueva York, donde tiene su sede, así como en Alemania, Francia y el Reino Unido, con planes de crecer otro 10% para fin de año. Sus herramientas de diseño computacional iteran de forma autónoma junto con los diseñadores, probando diferentes formas virtuales y materiales potenciales para lograr productos, o partes de productos, de alto rendimiento. Es un proceso de ensayo y error a escala. Como diseñador, uno suele tener todos estos objetivos y preguntas contrapuestos: Si hago este cambio, ¿será mi diseño demasiado pesado? ¿Será demasiado grueso? —dijo Rothenberg—. Al realizar un cambio en el diseño, se busca ver cómo afecta al rendimiento, y nTop ayuda a evaluar esos cambios en tiempo real. La cadena de supermercados Ocado, con sede en el Reino Unido, que construye e implementa robots autónomos, es uno de los principales clientes de nTop. Ocado se distingue de otras grandes cadenas de supermercados europeas por su profunda integración de robots autónomos y la selección de productos. Sus robots, del tamaño de una silla de oficina, recorren almacenes gigantescos —casi tan grandes como ocho campos de fútbol americano— a una velocidad de unos 32 km/h, pasando a una distancia de un milímetro entre sí mientras seleccionan y clasifican los productos en estructuras tipo colmena. En los primeros diseños, los robots de Ocado solían averiarse o incluso incendiarse. Su peso también obligaba a Ocado a construir almacenes más robustos y costosos. Utilizando el software de nTop, el equipo de robótica de Ocado rediseñó rápidamente 16 piezas críticas de sus robots, reduciendo su peso total en dos tercios. El rediseño, crucialmente, tardó aproximadamente una semana. Los rediseños anteriores que no utilizaban las herramientas de nTop tardaban unos cuatro meses. “Ocado creó una versión más robusta de su robot, mucho más económica y rápida”, dijo Rothenberg. “Sus diseñadores pasaron por ciclos de diseño rápidos: bastaba con pulsar un botón para que toda la estructura del robot se rediseñara durante la noche con nTop, preparándolo para las pruebas del día siguiente”. El caso de uso de Ocado es típico de cómo los diseñadores utilizan las herramientas de nTop. El software nTop ejecuta cientos de simulaciones que analizan cómo diferentes condiciones podrían afectar el rendimiento de un diseño. La información obtenida de estas simulaciones se incorpora al algoritmo de diseño y todo el proceso se reinicia. Los diseñadores pueden ajustar fácilmente sus diseños según los resultados, hasta que las iteraciones alcancen un resultado óptimo. nTop ha comenzado a integrar modelos de IA en sus cargas de trabajo de simulación, junto con los datos de diseño personalizados de un cliente de nTop en su proceso de iteración. nTop utiliza el marco NVIDIA Modulus , la plataforma NVIDIA Omniverse y las bibliotecas NVIDIA CUDA-X para entrenar e inferir sus cargas de trabajo de computación acelerada y modelos de IA. “Contamos con redes neuronales que pueden entrenarse con la geometría y la física de los datos de una empresa”, afirmó Rothenberg. “Si una empresa tiene una forma específica de diseñar la estructura de un coche, puede construirlo en nTop, entrenar una IA en nTop e iterar rápidamente entre diferentes versiones de la estructura del coche o de cualquier diseño futuro, accediendo a todos los datos con los que el modelo ya está entrenado”. Las herramientas de nTop tienen una amplia aplicabilidad en todas las industrias. Un equipo de diseño de Fórmula 1 utilizó nTop para modelar virtualmente innumerables versiones de disipadores de calor antes de elegir un disipador poco ortodoxo pero de gran rendimiento para su automóvil. Tradicionalmente, los disipadores de calor están hechos de pequeñas piezas uniformes de metal alineadas una al lado de la otra para maximizar la interacción metal-aire y, por lo tanto, el intercambio de calor y el enfriamiento. Los ingenieros iteraron con nTop en un disipador ondulado de varios niveles que maximizaba la interacción aire-metal al mismo tiempo que optimizaba la aerodinámica, lo cual es crucial para las carreras. El nuevo disipador de calor logró tres veces la superficie de transferencia de calor que los modelos anteriores, al tiempo que redujo el peso en un 25%, brindando un rendimiento de enfriamiento superior y una eficiencia mejorada. En el futuro, nTop anticipa que sus herramientas de modelado implícito impulsarán una mayor adopción por parte de los diseñadores de productos que desean trabajar con un “socio” iterativo capacitado en los datos patentados de su empresa. “Trabajamos con numerosos socios que desarrollan diseños, ejecutan numerosas simulaciones con modelos y luego optimizan para obtener los mejores resultados”, afirmó Rothenberg. “Los avances que están logrando hablan por sí solos”. NVIDIA Blog. E. W. Traducido al español

Leer más »
Scroll al inicio