El Portal de las Tecnologías para la Innovación

Chubut Digital

Una startup protege a miles de daneses del fraude digital

Conozca la startup estudiantil del año 2025, Skjoldet (el Escudo), que lucha contra el phishing y las tiendas en línea falsas utilizando tecnología de inteligencia artificial avanzada. Hace un año, una amiga de la madre de Magnus Stjernborg Koch recibió un correo electrónico que parecía provenir de Brobizz, una solución danesa integral para el pago de peajes. El correo informaba de que su Brobizz había sido cancelado porque su información de pago no estaba actualizada. Rápidamente hizo clic en un enlace, introdujo los datos de su tarjeta de crédito y confirmó la operación con su contraseña MitID. Más tarde se descubrió que el sitio web era falso y que le habían robado 18.000 coronas danesas. Magnus Stjernborg Koch quedó tan indignado por la estafa que decidió crear una herramienta contra el fraude digital junto con su cofundadora, Natasha Hougaard. Inicialmente, la herramienta la usaban sus familiares y amigos. Hoy, la herramienta, a la que han llamado Skjoldet (el Escudo), protege a 13.000 usuarios de sitios web fraudulentos. 200.000 estafados anualmente Vivimos en un mundo digitalizado donde el fraude digital es un riesgo. Detectarlo puede ser difícil, especialmente al comprar en línea o recibir mensajes digitales por correo electrónico o SMS en nuestras ajetreadas vidas. “Según el Consejo Danés para la Prevención del Delito, casi 200.000 daneses son estafados cada año y queremos acabar con eso”, afirma Magnus Stjernborg Koch. “Nuestra misión es hacer que Internet sea más segura para todos”, añade Natasha Hougaard. Skjoldet ofrece protección proactiva analizando sitios web en tiempo real y alertando a los usuarios si un sitio web es fraudulento. Esto ocurre en segundos, por lo que los usuarios reciben una advertencia antes de ser víctimas de una posible estafa. En los últimos seis meses, Skjoldet ha emitido 25.000 advertencias a los usuarios sobre sitios web y tiendas online falsos. Combatir la IA poco ética con una IA responsable Natasha Hougaard completará su licenciatura en Inteligencia Artificial y Datos en la DTU este verano, mientras que Magnus Stjernborg Koch posee una licenciatura en Tecnología de Software y una maestría en Ingeniería Industrial y Gestión por la DTU. La colaboración es dinámica, ya que han podido aprovechar las habilidades de cada uno. “Natasha pudo ver desde una perspectiva de IA cómo combinar modelos para predecir tendencias, mientras que yo pude ver cómo tecnológicamente podríamos proteger al usuario contra el fraude”, dice Magnus Stjernborg Koch, quien también es socio de Natasha Hougaard fuera del trabajo. Se conocieron en la DTU cuando ambos trabajaban como voluntarios en la asociación de estudiantes Polyteknisk Forening (PF), donde Natasha Hougaard también actuó como presidenta durante un tiempo. El dúo emprendedor afirma que gran parte del fraude digital se genera mediante IA. Muchos de los sitios web falsos suelen estar diseñados con el mismo modelo, por lo que las páginas parecen casi idénticas, solo que con logotipos diferentes. Del sofá al espacio de oficina Uno de los criterios para la selección de la Startup Estudiantil del Año, anunciada en el Día de Conmemoración anual de la DTU, es que se trate de una startup que haya cosechado un gran éxito en su primer año de existencia. Se requiere un alto grado de dedicación y diligencia para lograr este objetivo, como lo demuestran Natasha Hougaard y Magnus Stjernborg Koch. El dúo fue aceptado en un programa de emprendimiento en septiembre de 2024, lo que les permitió trasladar la startup del sofá a una oficina en Skylab, el centro de innovación de la DTU. Natasha escribió su proyecto de grado sobre detección de phishing mediante IA, un componente clave de la tecnología de Skjoldet. Mientras tanto, Magnus escribió su tesis de máster, centrada en el lanzamiento de Skjoldet y el desarrollo de su modelo de negocio. Ambos destacan que la oportunidad de combinar sus estudios con su start-up ha tenido un impacto directo en el éxito de Skjoldet. Detener la cadena alimentaria Natasha y Magnus completan las frases del otro y comparten la misma visión del futuro. “Nuestra gran visión es convertirnos en el escudo digital en Europa y en el mundo”, dicen al unísono. Para ello, Skjoldet aspira a obtener un estatus especial como denunciante de confianza. Esto fortalecerá la cooperación con la industria de las telecomunicaciones, los proveedores de alojamiento y otras empresas a las que Skjoldet denuncia los sitios fraudulentos. Además, los empresarios también están explorando cómo los datos de Skjoldet pueden ayudar a las autoridades a investigar el fraude digital. «Vemos que los estafadores usan los mismos sitios web para estafar repetidamente bajo un nuevo nombre. Es increíble que puedan hacer eso», dice Natasha Hougaard. Los dos empresarios desean ver un esfuerzo coordinado entre los denunciantes, la industria de las telecomunicaciones y la tecnología y las autoridades para detener la cadena alimentaria de sitios web falsos. DTU News. Traducido al español

Una startup protege a miles de daneses del fraude digital Leer más »

Cómo hacer que los modelos de IA sean más confiables para entornos de alto riesgo

Un nuevo método ayuda a transmitir la incertidumbre con mayor precisión, lo que podría brindar a los investigadores y médicos clínicos mejor información para tomar decisiones. La ambigüedad en las imágenes médicas puede representar grandes desafíos para los médicos que intentan identificar enfermedades. Por ejemplo, en una radiografía de tórax, un derrame pleural (una acumulación anormal de líquido en los pulmones) puede parecerse mucho a los infiltrados pulmonares, que son acumulaciones de pus o sangre. Un modelo de inteligencia artificial podría asistir al médico en el análisis de rayos X, ayudándole a identificar detalles sutiles y optimizando el proceso de diagnóstico. Sin embargo, dado que una sola imagen puede contener tantas afecciones posibles, el médico probablemente preferiría considerar un conjunto de posibilidades, en lugar de evaluar solo una predicción de IA. Una forma prometedora de generar un conjunto de posibilidades, denominada clasificación conforme, es conveniente porque se puede implementar fácilmente sobre un modelo de aprendizaje automático existente. Sin embargo, puede generar conjuntos de un tamaño impráctico.  Los investigadores del MIT han desarrollado una mejora simple y efectiva que puede reducir el tamaño de los conjuntos de predicciones hasta en un 30 por ciento, haciendo al mismo tiempo que las predicciones sean más confiables. Disponer de un conjunto de predicciones más reducido puede ayudar al médico a identificar el diagnóstico correcto con mayor eficiencia, lo que podría mejorar y agilizar el tratamiento de los pacientes. Este método podría ser útil en diversas tareas de clasificación (por ejemplo, para identificar la especie de un animal en una imagen de un parque natural), ya que ofrece un conjunto de opciones más reducido pero más preciso. “Al tener menos clases a considerar, los conjuntos de predicciones son naturalmente más informativos, ya que se elige entre menos opciones. En cierto sentido, no se sacrifica nada en términos de precisión por algo más informativo”, afirma Divya Shanmugam, doctora en la promoción de 2024, posdoctora en Cornell Tech, quien realizó esta investigación mientras era estudiante de posgrado en el MIT. Shanmugam colabora en el artículo con Helen Lu (promoción de 2024); Swami Sankaranarayanan, exinvestigador posdoctoral del MIT y actual investigador en Lilia Biosciences; y el autor principal, John Guttag, profesor Dugald C. Jackson de Ciencias de la Computación e Ingeniería Eléctrica del MIT y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL). La investigación se presentará en la Conferencia sobre Visión por Computador y Reconocimiento de Patrones en junio. Garantías de predicción Los asistentes de IA implementados para tareas cruciales, como la clasificación de enfermedades en imágenes médicas, suelen estar diseñados para generar una puntuación de probabilidad junto con cada predicción, de modo que el usuario pueda evaluar la fiabilidad del modelo. Por ejemplo, un modelo podría predecir que existe un 20 % de probabilidad de que una imagen corresponda a un diagnóstico específico, como la pleuresía. Sin embargo, es difícil confiar en la confianza predicha de un modelo, ya que numerosas investigaciones previas han demostrado que estas probabilidades pueden ser inexactas. Con la clasificación conforme, la predicción del modelo se sustituye por un conjunto de los diagnósticos más probables, junto con la garantía de que el diagnóstico correcto se encuentra en algún punto del conjunto. Pero la incertidumbre inherente a las predicciones de la IA a menudo hace que el modelo genere conjuntos demasiado grandes para ser útiles. Por ejemplo, si un modelo clasifica un animal en una imagen como una de 10.000 especies potenciales, podría generar un conjunto de 200 predicciones para ofrecer una garantía sólida. “Son muchas clases las que hay que revisar para determinar cuál es la adecuada”, afirma Shanmugam. La técnica también puede ser poco confiable porque pequeños cambios en las entradas, como rotar levemente una imagen, pueden producir conjuntos de predicciones completamente diferentes. Para que la clasificación conforme sea más útil, los investigadores aplicaron una técnica desarrollada para mejorar la precisión de los modelos de visión por computadora llamada aumento del tiempo de prueba (TTA). TTA crea múltiples aumentos de una sola imagen en un conjunto de datos, tal vez recortándola, volteándola, acercándola, etc. Luego aplica un modelo de visión por computadora a cada versión de la misma imagen y agrega sus predicciones. De esta manera, se obtienen múltiples predicciones a partir de un solo ejemplo. Esta agregación de predicciones mejora la precisión y la robustez de las predicciones, explica Shanmugam. Maximizar la precisión Para aplicar el TTA, los investigadores presentan datos de imágenes etiquetadas utilizados en el proceso de clasificación conforme. Aprenden a agregar las mejoras de estos datos, ampliando automáticamente las imágenes para maximizar la precisión de las predicciones del modelo subyacente. Luego, ejecutan la clasificación conforme sobre las nuevas predicciones del modelo, transformadas mediante TTA. El clasificador conforme genera un conjunto más pequeño de predicciones probables para la misma garantía de confianza. “Combinar el aumento del tiempo de prueba con la predicción conforme es fácil de implementar, eficaz en la práctica y no requiere reentrenamiento del modelo”, afirma Shanmugam. En comparación con trabajos anteriores en predicción conforme en varios puntos de referencia de clasificación de imágenes estándar, su método aumentado con TTA redujo los tamaños de los conjuntos de predicción en los experimentos, del 10 al 30 por ciento. Es importante destacar que la técnica logra esta reducción en el tamaño del conjunto de predicciones manteniendo la garantía de probabilidad. Los investigadores también descubrieron que, aunque sacrifican algunos datos etiquetados que normalmente se utilizarían para el procedimiento de clasificación conforme, el TTA aumenta la precisión lo suficiente como para compensar el costo de perder esos datos. Esto plantea preguntas interesantes sobre cómo utilizamos los datos etiquetados después del entrenamiento del modelo. La asignación de datos etiquetados entre los diferentes pasos posteriores al entrenamiento es una dirección importante para el trabajo futuro, afirma Shanmugam. En el futuro, los investigadores buscan validar la eficacia de este enfoque en el contexto de modelos que clasifican texto en lugar de imágenes. Para mejorar aún más el trabajo, también están considerando maneras de reducir la cantidad de computación

Cómo hacer que los modelos de IA sean más confiables para entornos de alto riesgo Leer más »

Apple presenta la Edición Orgullo 2025

Con motivo del Mes del Orgullo y para celebrar la fuerza y la belleza del colectivo LGBTQ+ en todo el mundo, Apple ha presentado una nueva correa deportiva Edición Orgullo para el Apple Watch, una esfera a juego y fondos de pantalla para el iPhone y el iPad. Con motivo del Mes del Orgullo, Apple ha presentado una nueva correa deportiva Edición Orgullo para el Apple Watch, una esfera a juego y fondos de pantalla para el iPhone y el iPad, para celebrar la fuerza y la belleza del colectivo LGBTQ+ en todo el mundo. La correa deportiva Edición Orgullo está disponible desde hoy, y la esfera y el fondo de pantalla dinámicos a juego estarán disponibles próximamente mediante una actualización de software. Con franjas de los colores del arcoíris que varían en forma y tamaño, cada correa deportiva Edición Orgullo se ensambla a mano a partir de franjas individuales de vibrantes colores moldeadas por comprensión, creando variaciones tan sutiles como llamativas. No hay dos correas exactamente iguales, reflejando la individualidad de todas las personas que forman parte de la comunidad LGTBQ+. Pausar la reproducción del vídeo: Edición Orgullo 2025 para el Apple Watch La correa deportiva Edición Orgullo se ensambla a mano con franjas individuales en vivos colores que se moldean por compresión para crear variaciones tan sutiles como llamativas. Y la nueva esfera Orgullo y Armonía y los fondos de pantalla para el iPhone y iPad ofrecen un diseño complementario. La esfera analógica cuenta con vibrantes franjas arcoíris, que fluyen de manera dinámica por la pantalla para formar grandes dígitos cuando los usuarios levantan la muñeca para mirar la hora. Los colores del fondo de pantalla del iPhone y iPad cambian de lugar cuando los usuarios mueven, bloquean o desbloquean el dispositivo. La esfera Orgullo y Armonía y el fondo de pantalla para el iPhone y iPad estarán disponibles próximamente en una actualización de software de watchOS 11.5, iOS 18.5 y iPadOS 18.5. Apple se enorgullece de apoyar económicamente a organizaciones que trabajan con las comunidades LGBTQ+. Precio y disponibilidad Apple News. Traducido al español

Apple presenta la Edición Orgullo 2025 Leer más »

IBM Cloud es el primer proveedor de servicios en implementar Intel Gaudi 3

Los nuevos puntos de referencia de Signal65 muestran ahorros de costos en comparación con los competidores de GPU, lo que abre nuevas opciones para la infraestructura de IA empresarial. IBM es el primer proveedor de servicios en la nube que pone a disposición de sus clientes los aceleradores de inteligencia artificial Intel® Gaudi® 3 , una medida diseñada para hacer que las potentes capacidades de inteligencia artificial sean más accesibles y abordar directamente el alto costo del hardware de inteligencia artificial especializado. Para Intel, la implementación en IBM Cloud marca el primer gran despliegue comercial de Gaudi 3, lo que ofrece opciones al mercado. Al aprovechar Intel Gaudi 3 en IBM Cloud, ambas compañías buscan ayudar a sus clientes a probar, innovar e implementar soluciones GenAI de forma rentable. Según un pronóstico reciente de la firma de investigación Gartner, se espera que el gasto mundial en IA generativa (GenAI) alcance los 644 mil millones de dólares en 2025, lo que supone un aumento del 76,4 % con respecto a 2024. La investigación concluyó que «la GenAI tendrá un impacto transformador en todos los aspectos de los mercados de gasto en TI, lo que sugiere un futuro en el que las tecnologías de IA se volverán cada vez más integrales para las operaciones comerciales y los productos de consumo». Para muchos clientes empresariales, los beneficios son evidentes cuando herramientas como GenAI automatizan tareas, mejoran los flujos de trabajo e impulsan la innovación. Sin embargo, implementar aplicaciones de IA exige una gran potencia de procesamiento, que a menudo requiere procesadores especializados y costosos que pueden impedir que muchas empresas se beneficien de la IA. Los aceleradores de IA Gaudi 3 están diseñados específicamente para satisfacer la creciente demanda de GenAI, la inferencia de modelos grandes y el ajuste fino de modelos, a la vez que admiten un marco de desarrollo abierto. Gaudi 3 también es ideal para modelos de lenguaje grandes multimodales (LLM) y generación aumentada por recuperación (RAG). “Al incorporar los aceleradores de IA Intel Gaudi 3 a IBM Cloud, permitimos a las empresas escalar cargas de trabajo de IA generativa con un rendimiento optimizado para la inferencia y el ajuste preciso”, afirmó Saurabh Kulkarni, vicepresidente de Estrategia de IA para Centros de Datos de Intel. “Esta colaboración subraya nuestro compromiso compartido de hacer que la IA sea más accesible y rentable para las empresas de todo el mundo”. Cómo los clientes empresariales utilizan IBM Cloud IBM Cloud presta servicios a una variedad de clientes empresariales, particularmente aquellos en industrias reguladas, como servicios financieros, atención médica y ciencias biológicas, y el sector público. Los bancos y las aseguradoras utilizan la nube para la detección de fraudes o la atención al cliente personalizada, mientras que los proveedores de atención médica la utilizan para acelerar el descubrimiento y desarrollo de fármacos, el diagnóstico basado en IA, las plataformas de telemedicina y la monitorización de pacientes en tiempo real. Los minoristas utilizan la tecnología en la nube para plataformas de comercio electrónico o la gestión de inventario. También es una opción ideal para las empresas que buscan modernizar sistemas obsoletos sin sacrificar el control ni la seguridad. Gaudi 3 ahora está disponible en las regiones de IBM Cloud de Frankfurt, Alemania; Washington, DC; y Dallas, Texas. Gaudi 3 también se está integrando en la oferta más amplia de infraestructura de IA de IBM. Los clientes ya pueden usar Gaudi 3 a través de IBM Cloud Virtual Servers en IBM Virtual Private Cloud (VPC). También podrán implementarlo en diferentes arquitecturas a partir del segundo semestre de 2025. Se espera que la compatibilidad con Red Hat OpenShift y la plataforma de IA Watsonx de IBM esté disponible este trimestre. “La capacidad de gestionar más datos y un mayor rendimiento impulsará una mayor adopción de la IA por parte de clientes de todo el mundo”, afirma Satinder Sethi, director general de IBM Cloud Infrastructure Services. “Intel Gaudi 3 ofrece a los clientes más opciones, más libertad y una plataforma más rentable para elegir el hardware de IA que desean utilizar”. Comparaciones de costos y rendimiento Los aceleradores de IA Intel Gaudi 3 están diseñados para afrontar el reto del coste equilibrando rendimiento y precio. Nuevas pruebas de referencia de inferencia de IA , realizadas por la firma de investigación Signal65 y encargadas por Intel, revelaron que Gaudi 3 ofrece un 92 % más de rentabilidad (rendimiento por dólar) que la competencia al ejecutarse en el modelo Llama-3.1-405B-Instruct-FP8 de Meta con contextos de gran tamaño . La rentabilidad es una métrica crucial, ya que permite a las empresas realizar más procesamiento de IA con la misma inversión o la misma cantidad de procesamiento a un menor coste. Las mejoras de rendimiento buscan reducir la barrera de costes para las empresas que buscan implementar o perfeccionar modelos, especialmente a medida que se extiende la adopción de GenAI. (~0 KB) Las mediciones de rendimiento se refieren a la cantidad de procesamiento de IA que el acelerador puede realizar en cada instancia, también conocida como tokens por segundo. Gaudi 3 ofrece un procesamiento de IA significativamente más rápido que la competencia. En el modelo IBM Granite-3.1-8B-Instruct, Gaudi 3 proporcionó un 43 % más de tokens por segundo para cargas de trabajo de IA pequeñas¹ y un 36 % más de tokens por segundo con contextos de gran tamaño, en comparación con la competencia al ejecutar el modelo Llama-3.1-405B-Instruct-FP8 de Meta¹ . Intel News. Traducido al español

IBM Cloud es el primer proveedor de servicios en implementar Intel Gaudi 3 Leer más »

Evolución de la estructura de OpenAI

La Junta Directiva de OpenAI tiene un plan actualizado para evolucionar la estructura de OpenAI. Tomamos la decisión de que la organización sin fines de lucro mantuviera el control de OpenAI tras escuchar a líderes cívicos y entablar un diálogo constructivo con las Fiscalías Generales de Delaware y California. Agradecemos a ambas fiscalías y esperamos continuar estas importantes conversaciones para asegurar que OpenAI pueda seguir cumpliendo eficazmente su misión de garantizar que la IA general beneficie a toda la humanidad. Sam escribió la carta a continuación a nuestros empleados y partes interesadas, explicando por qué estamos tan entusiasmados con esta nueva dirección. —Bret Taylor * * * Carta de Sam a los empleados. OpenAI no es una empresa normal y nunca lo será. Nuestra misión es garantizar que la inteligencia artificial general (AGI) beneficie a toda la humanidad. Cuando iniciamos OpenAI, no teníamos una idea clara de cómo íbamos a lograr nuestra misión. Empezamos mirándonos fijamente en la mesa de la cocina, preguntándonos qué investigación debíamos llevar a cabo. En aquel entonces, no pensábamos en productos ni en un modelo de negocio. No podíamos contemplar los beneficios directos de la IA para el asesoramiento médico, el aprendizaje, la productividad y mucho más, ni las necesidades de cientos de miles de millones de dólares en computación para entrenar modelos y atender a los usuarios. No sabíamos realmente cómo se construiría ni se utilizaría la IA general. Mucha gente podía imaginar un oráculo que les dijera a científicos y presidentes qué hacer, y aunque podría ser increíblemente peligroso, tal vez se les pudiera confiar a esas pocas personas. En sus inicios, muchas personas del entorno de OpenAI pensaban que la IA solo debía estar en manos de unas pocas personas de confianza que pudieran “manejarla”.  Ahora vemos una manera de que la IA general empodere directamente a todos, convirtiéndola en la herramienta más poderosa de la historia de la humanidad. Si logramos esto, creemos que las personas construirán cosas increíbles para sí mismas y seguirán impulsando la sociedad y la calidad de vida. Claro que no todo se usará para el bien, pero confiamos en la humanidad y creemos que las cosas buenas superarán con creces las malas. Estamos comprometidos con este camino hacia la IA democrática. Queremos poner herramientas increíbles al alcance de todos. Nos sorprende y nos complace lo que crean con nuestras herramientas y cuánto desean usarlas. Queremos abrir el código fuente de modelos muy eficaces. Queremos dar a nuestros usuarios una amplia libertad para usar nuestras herramientas dentro de amplios límites, incluso si no siempre compartimos el mismo marco moral, y permitirles tomar decisiones sobre el comportamiento de ChatGPT. Creemos que este es el mejor camino a seguir: la IA general debe permitir que toda la humanidad se beneficie mutuamente. Somos conscientes de que algunas personas tienen opiniones muy diferentes. Queremos construir un cerebro para el mundo y hacer que sea súper fácil para que la gente lo use para lo que quiera (sujeto a algunas restricciones; la libertad no debería afectar la libertad de otras personas, por ejemplo).  La gente está usando ChatGPT para aumentar su productividad como científicos , codificadores y mucho más .(se abre en una nueva ventana)Las personas usan ChatGPT para resolver problemas graves de salud y aprender más que nunca. También usan ChatGPT para obtener consejos sobre cómo manejar situaciones difíciles. Nos enorgullece ofrecer un servicio que beneficia tanto a tantas personas; es uno de los logros más directos de nuestra misión que podemos imaginar.  Pero quieren usarla mucho más; actualmente no podemos suministrar tanta IA como el mundo necesita, y tenemos que limitar el uso de nuestros sistemas y operarlos lentamente. A medida que los sistemas se vuelvan más capaces, querrán usarla aún más, para cosas aún más maravillosas.  No teníamos ni idea de que este sería el panorama mundial cuando inauguramos nuestro laboratorio de investigación hace casi una década. Pero ahora que vemos esta imagen, estamos entusiasmados. Es hora de que evolucionemos nuestra estructura. Hay tres cosas que queremos lograr: Tomamos la decisión de que la organización sin fines de lucro mantenga el control tras escuchar a los líderes cívicos y mantener conversaciones con las Fiscalías Generales de California y Delaware. Esperamos avanzar en los detalles de este plan en conversaciones continuas con ellos, Microsoft y nuestros nuevos comisionados para organizaciones sin fines de lucro. OpenAI se fundó como una organización sin fines de lucro, hoy es una organización sin fines de lucro que supervisa y controla a las organizaciones con fines de lucro, y en el futuro seguirá siendo una organización sin fines de lucro que supervisa y controla a las organizaciones con fines de lucro. Esto no cambiará. La LLC con fines de lucro de la organización sin fines de lucro se transformará en una Corporación de Beneficio Público (CBP) con la misma misión. Las CBP se han convertido en la estructura con fines de lucro estándar para otros laboratorios de IA general como Anthropic y X.ai, así como para muchas empresas con un propósito definido como Patagonia. Creemos que esto también tiene sentido para nosotros. En lugar de nuestra compleja estructura actual de ganancias limitadas —que tenía sentido cuando parecía que podría haber una iniciativa dominante de IAG, pero que no es así en un mundo con tantas grandes empresas de IAG—, estamos cambiando a una estructura de capital normal donde todos tienen acciones. Esto no es una venta, sino un cambio de estructura hacia algo más simple. La organización sin fines de lucro seguirá controlando el PBC y se convertirá en un importante accionista de este , con una cantidad financiada por asesores financieros independientes, lo que le otorgará recursos para apoyar programas que permitan que la IA beneficie a diversas comunidades, en consonancia con su misión. A medida que el PBC crezca, sus recursos crecerán, lo que le permitirá lograr aún más. Nos entusiasma recibir pronto recomendaciones de nuestra comisión de organizaciones sin fines de lucro sobre cómo podemos garantizar que la IA beneficie a todos, no solo a unos pocos. Sus ideas se centrarán en

Evolución de la estructura de OpenAI Leer más »

Perfiles DJI: Por qué las películas de drones de Bashir Abu Shakra nos hacen dejarlo todo y mirar: una entrevista con el ganador de SkyPixel 2025

Hay algo magnético en la forma en que Bashir Abu Shakra filma el mundo: vasto, salvaje y profundamente personal.  Su cámara no solo vuela, sino que se siente … Y los espectadores de todo el mundo lo han notado. Con su última película, «The WAR – My Transformation Journey» , Bashir volvió a cautivar al jurado de SkyPixel, ganando el Premio al Mejor Vídeo Aéreo en el 10.º Concurso Anual . La película, que se ha producido durante cinco años, es más que una cinematografía impresionante: es un viaje emocional desde la soledad hasta el empoderamiento, narrado a través de impresionantes tomas aéreas de paisajes crudos e infinitos. Mira “ La GUERRA – Mi viaje de transformación” aquí: SkyPixel – La GUERRA Lo que hace que esta victoria sea aún más notable es que no es la primera. De hecho, es la segunda vez que Bashir se alza con el máximo galardón en SkyPixel , tras su éxito anterior con «Por qué viajo solo por el mundo» , que ganó el Premio Anual a la Mejor Obra en la octava edición del concurso. Esa primera película ya era una obra maestra de narrativa, combinando majestuosas imágenes tomadas con drones durante cuatro años con tiernos vídeos caseros de la infancia. Era una exploración poética de la identidad, la independencia y la conexión con la naturaleza, narrada desde la perspectiva de un viajero solitario en busca de significado en la inmensidad del mundo. Lo que distingue a Bashir no es solo la brillantez técnica de su trabajo aéreo, sino también la gravedad emocional que le imprime. Sus películas parecen cartas personales escritas al cielo, y el espectador no puede evitar detenerse, observar y sentir algo. Descubre « Por qué viajo solo por el mundo» : SkyPixel – Primer vídeo ganador En ambas películas, lo que realmente distingue a Bashir es su forma de trabajar . Solo, a menudo en silencio, en una vasta naturaleza virgen, aporta una profundidad emocional a la narrativa monótona, inusual e inolvidable. Sus imágenes no solo impresionan, sino que resuenan . Pero tras estas impactantes imágenes se esconde una historia de increíble perseverancia . El trabajo de Abu Shakra exige no solo creatividad y maestría técnica, sino también una paciencia y motivación que pocos pueden mantener. Ya sea esperando días por la luz perfecta, escalando montañas solo con el equipo o regresando al mismo lugar año tras año para capturar una sola imagen, su compromiso es absoluto. Cada fotograma se gana —lenta y deliberadamente— y se nota. En esta entrevista, te invitamos a conocer su proceso creativo tras bambalinas para comprender cómo Bashir concibe, captura y edita sus viajes para convertirlos en historias. Bashir Abu Shakra hace películas con drones que resultan profundamente personales y emotivas. Acampada en solitario en los Dolomitas en un lugar de difícil acceso. @ Bashir Abu Shakra ¿Cuándo empezaste con la fotografía aérea? ¿Qué te llevó a ello?Empecé con la fotografía aérea en 2016, cuando me mudé solo a Múnich, lejos de mi familia y amigos. Me sentía solo por aquel entonces, y lo único que llenaba ese vacío eran los Alpes, que estaban cerca. Fue entonces cuando me enamoré de ellos. Por aquel entonces, iba cada fin de semana a la montaña e intentaba encontrar lugares interesantes y capturarlos usando solo una cámara normal, pero sentía que mi imaginación y creatividad eran limitadas, hasta que descubrí que sí existía un dron con cámara. Fue una sorpresa, para bien, porque siempre pensé que todas las imágenes aéreas se tomaban desde un helicóptero. Nunca pensé que pudieras comprar un dron y volarlo donde quisieras. Siempre estuve obsesionado con explorar lo desconocido y capturarlo desde una perspectiva nunca antes vista, y comprar el costoso dron se convirtió en mi objetivo más importante. Fue entonces cuando decidí trabajar como repartidor de comida en bicicleta durante meses —horas al día en verano e invierno, con sol, viento y nieve— solo para poder comprar el dron. Ya veía el potencial y las infinitas oportunidades de captura que me brindaría, incluso antes de comprarlo, y las combinaba con la música que siempre me ha inspirado desde pequeño. Trabajé como repartidor de comida para poder comprar mi primer Phantom 4 Pro en 2017. ¿Cuál fue tu primer dron DJI? ¿Cuál fue tu favorito? ¿Por qué?El DJI Phantom 4 Pro fue mi primer dron. Gracias a su sensor de 20 MP y 1 pulgada y a su capacidad para grabar vídeo hasta en 4K a 60 fps, era un dron de nivel profesional en aquel entonces. No era un dron pequeño, pero en aquel entonces priorizaba la calidad de la cámara sobre el tamaño. Esto dificultaba las aventuras de escalada y senderismo; hacía que mi mochila , que podía llegar a pesar hasta 25 kg, fuera mucho más pesada. Pero en cuanto salió el Mavic 3 Pro, me sorprendieron las diferentes tomas creativas que se podían hacer con las distintas distancias focales con los mínimos cambios de calidad. Me vi usando las distancias focales de 70 mm y 166 mm con más frecuencia, lo que resultó en tomas más cinematográficas, efectos de escala y paralaje, que finalmente superaron a la cámara del Phantom 4 Pro , y lo más importante, su menor tamaño. Fue un gran paso y una gran transición, y pude sentir la diferencia al instante. Pude meter más cosas en mi mochila que me ayudaran en mis excursiones de camping y senderismo, y pude contar mi historia de forma más creativa. ¡DJI siempre sorprende con sus productos! ¿Cuándo oíste hablar del Concurso SkyPixel? ¿Qué te llevó a participar?Desde que empecé a hacer vídeos aéreos, siempre me interesó competir en concursos internacionales de filmación con drones. Para mí, es como una prueba de calidad de mi trabajo. Siempre quise ver hasta dónde podía llegar y, sobre todo, cómo podía mejorar e inspirarme con los ganadores. Durante mi investigación en aquel momento, me topé con el concurso SkyPixel y recuerdo haber visto el vídeo ganador del 5.º Concurso de Fotografía y Vídeo Aéreo SkyPixel, NATURAL MYSTIC, de Sam Favret . Me sorprendió la calidad de los ganadores y del concurso, que es, sin duda, el mayor concurso de drones del mundo, uno en

Perfiles DJI: Por qué las películas de drones de Bashir Abu Shakra nos hacen dejarlo todo y mirar: una entrevista con el ganador de SkyPixel 2025 Leer más »

Hybrid AI model crafts smooth, high-quality videos in seconds

The CausVid generative AI tool uses a diffusion model to teach an autoregressive (frame-by-frame) system to rapidly produce stable, high-resolution videos. What would a behind-the-scenes look at a video generated by an artificial intelligence model be like? You might think the process is similar to stop-motion animation, where many images are created and stitched together, but that’s not quite the case for “diffusion models” like OpenAl’s SORA and Google’s VEO 2. Instead of producing a video frame-by-frame (or “autoregressively”), these systems process the entire sequence at once. The resulting clip is often photorealistic, but the process is slow and doesn’t allow for on-the-fly changes.  Scientists from MIT’s Computer Science and Artificial Intelligence Laboratory (CSAIL) and Adobe Research have now developed a hybrid approach, called “CausVid,” to create videos in seconds. Much like a quick-witted student learning from a well-versed teacher, a full-sequence diffusion model trains an autoregressive system to swiftly predict the next frame while ensuring high quality and consistency. CausVid’s student model can then generate clips from a simple text prompt, turning a photo into a moving scene, extending a video, or altering its creations with new inputs mid-generation. This dynamic tool enables fast, interactive content creation, cutting a 50-step process into just a few actions. It can craft many imaginative and artistic scenes, such as a paper airplane morphing into a swan, woolly mammoths venturing through snow, or a child jumping in a puddle. Users can also make an initial prompt, like “generate a man crossing the street,” and then make follow-up inputs to add new elements to the scene, like “he writes in his notebook when he gets to the opposite sidewalk.” A video produced by CausVid illustrates its ability to create smooth, high-quality content. AI-generated animation courtesy of the researchers. The CSAIL researchers say that the model could be used for different video editing tasks, like helping viewers understand a livestream in a different language by generating a video that syncs with an audio translation. It could also help render new content in a video game or quickly produce training simulations to teach robots new tasks. Tianwei Yin SM ’25, PhD ’25, a recently graduated student in electrical engineering and computer science and CSAIL affiliate, attributes the model’s strength to its mixed approach. “CausVid combines a pre-trained diffusion-based model with autoregressive architecture that’s typically found in text generation models,” says Yin, co-lead author of a new paper about the tool. “This AI-powered teacher model can envision future steps to train a frame-by-frame system to avoid making rendering errors.” Yin’s co-lead author, Qiang Zhang, is a research scientist at xAI and a former CSAIL visiting researcher. They worked on the project with Adobe Research scientists Richard Zhang, Eli Shechtman, and Xun Huang, and two CSAIL principal investigators: MIT professors Bill Freeman and Frédo Durand. Caus(Vid) and effect Many autoregressive models can create a video that’s initially smooth, but the quality tends to drop off later in the sequence. A clip of a person running might seem lifelike at first, but their legs begin to flail in unnatural directions, indicating frame-to-frame inconsistencies (also called “error accumulation”). Error-prone video generation was common in prior causal approaches, which learned to predict frames one by one on their own. CausVid instead uses a high-powered diffusion model to teach a simpler system its general video expertise, enabling it to create smooth visuals, but much faster. Play video CausVid enables fast, interactive video creation, cutting a 50-step process into just a few actions.Video courtesy of the researchers. CausVid displayed its video-making aptitude when researchers tested its ability to make high-resolution, 10-second-long videos. It outperformed baselines like “OpenSORA” and “MovieGen,” working up to 100 times faster than its competition while producing the most stable, high-quality clips. Then, Yin and his colleagues tested CausVid’s ability to put out stable 30-second videos, where it also topped comparable models on quality and consistency. These results indicate that CausVid may eventually produce stable, hours-long videos, or even an indefinite duration. A subsequent study revealed that users preferred the videos generated by CausVid’s student model over its diffusion-based teacher. “The speed of the autoregressive model really makes a difference,” says Yin. “Its videos look just as good as the teacher’s ones, but with less time to produce, the trade-off is that its visuals are less diverse.” CausVid also excelled when tested on over 900 prompts using a text-to-video dataset, receiving the top overall score of 84.27. It boasted the best metrics in categories like imaging quality and realistic human actions, eclipsing state-of-the-art video generation models like “Vchitect” and “Gen-3.” While an efficient step forward in AI video generation, CausVid may soon be able to design visuals even faster — perhaps instantly — with a smaller causal architecture. Yin says that if the model is trained on domain-specific datasets, it will likely create higher-quality clips for robotics and gaming. Experts say that this hybrid system is a promising upgrade from diffusion models, which are currently bogged down by processing speeds. “[Diffusion models] are way slower than LLMs [large language models] or generative image models,” says Carnegie Mellon University Assistant Professor Jun-Yan Zhu, who was not involved in the paper. “This new work changes that, making video generation much more efficient. That means better streaming speed, more interactive applications, and lower carbon footprints.” The team’s work was supported, in part, by the Amazon Science Hub, the Gwangju Institute of Science and Technology, Adobe, Google, the U.S. Air Force Research Laboratory, and the U.S. Air Force Artificial Intelligence Accelerator. CausVid will be presented at the Conference on Computer Vision and Pattern Recognition in June. MIT News. A. S.

Hybrid AI model crafts smooth, high-quality videos in seconds Leer más »

El modelo de IA híbrido crea videos fluidos y de alta calidad en segundos

La herramienta de inteligencia artificial generativa CausVid utiliza un modelo de difusión para enseñar a un sistema autorregresivo (cuadro por cuadro) a producir rápidamente videos estables y de alta resolución. ¿Cómo sería una mirada entre bastidores a un vídeo generado por un modelo de inteligencia artificial? Podrías pensar que el proceso es similar a la animación stop-motion, donde se crean y unen muchas imágenes, pero no es así con los «modelos de difusión» como SORA de OpenAl y VEO 2 de Google. En lugar de producir un video fotograma a fotograma (o «autorregresivamente»), estos sistemas procesan toda la secuencia a la vez. El clip resultante suele ser fotorrealista, pero el proceso es lento y no permite cambios sobre la marcha.  Científicos del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT y Adobe Research han desarrollado un enfoque híbrido, llamado «CausVid», para crear videos en segundos. Al igual que un estudiante ingenioso que aprende de un profesor experto, un modelo de difusión de secuencia completa entrena un sistema autorregresivo para predecir rápidamente el siguiente fotograma, garantizando al mismo tiempo alta calidad y consistencia. El modelo de estudiante de CausVid puede entonces generar clips a partir de una simple instrucción de texto, convirtiendo una foto en una escena en movimiento, extendiendo un video o alterando sus creaciones con nuevas entradas a mitad de generación. Esta herramienta dinámica permite la creación rápida e interactiva de contenido, reduciendo un proceso de 50 pasos a solo unas pocas acciones. Permite crear numerosas escenas imaginativas y artísticas, como un avión de papel transformándose en cisne, mamuts lanudos aventurándose en la nieve o un niño saltando en un charco. Los usuarios también pueden crear una indicación inicial, como «generar un hombre cruzando la calle», y luego añadir elementos adicionales a la escena, como «escribe en su cuaderno al llegar a la acera de enfrente». Un vídeo producido por CausVid ilustra su capacidad para crear contenido fluido y de alta calidad.Animación generada por IA cortesía de los investigadores. Los investigadores de CSAIL afirman que el modelo podría utilizarse para diversas tareas de edición de vídeo, como ayudar a los espectadores a comprender una transmisión en directo en otro idioma mediante la generación de un vídeo sincronizado con la traducción del audio. También podría ayudar a renderizar nuevo contenido en un videojuego o a producir rápidamente simulaciones de entrenamiento para enseñar nuevas tareas a los robots. Tianwei Yin SM ’25, PhD ’25, estudiante recién graduado de ingeniería eléctrica e informática y afiliado de CSAIL, atribuye la solidez del modelo a su enfoque mixto. “CausVid combina un modelo basado en difusión pre-entrenado con arquitectura autorregresiva que típicamente se encuentra en modelos de generación de texto”, dice Yin, co-autor principal de un nuevo  artículo sobre la herramienta. “Este modelo de profesor potenciado por IA puede prever pasos futuros para entrenar un sistema cuadro por cuadro para evitar cometer errores de renderizado”. El co-autor principal de Yin, Qiang Zhang, es un científico investigador en xAI y un ex investigador visitante de CSAIL. Trabajaron en el proyecto con los científicos de Adobe Research Richard Zhang, Eli Shechtman y Xun Huang, y dos investigadores principales de CSAIL: los profesores del MIT Bill Freeman y Frédo Durand. Caus(Vid) y efecto Muchos modelos autorregresivos pueden crear un video que es fluido inicialmente, pero la calidad tiende a caer más adelante en la secuencia. Un clip de una persona corriendo puede parecer realista al principio, pero sus piernas comienzan a agitarse en direcciones poco naturales, lo que indica inconsistencias cuadro por cuadro (también llamado “acumulación de errores”). La generación de video propensa a errores era común en los enfoques causales anteriores, que aprendían a predecir fotogramas uno por uno por sí solos. En cambio, CausVid utiliza un modelo de difusión de alta potencia para enseñar a un sistema más simple su experiencia general en video, lo que le permite crear imágenes fluidas, pero con mucha más rapidez. Reproducir vídeoCausVid permite la creación rápida de videos interactivos, simplificando un proceso de 50 pasos a solo unas pocas acciones.Video cortesía de los investigadores. CausVid demostró su capacidad para crear videos cuando los investigadores probaron su capacidad para crear videos de alta resolución de 10 segundos. Superó a plataformas como OpenSORA y MovieGen , trabajando hasta 100 veces más rápido que la competencia y produciendo clips de la más alta calidad y estabilidad. Posteriormente, Yin y sus colegas probaron la capacidad de CausVid para generar videos estables de 30 segundos, donde también superó a modelos comparables en calidad y consistencia. Estos resultados indican que CausVid podría eventualmente producir videos estables de varias horas de duración, o incluso indefinidamente. Un estudio posterior reveló que los usuarios preferían los videos generados por el modelo de estudiantes de CausVid a su modelo de profesores basado en la difusión. “La velocidad del modelo autorregresivo realmente marca la diferencia”, afirma Yin. “Sus videos se ven igual de bien que los del profesor, pero al tener menos tiempo para producirlos, la desventaja es que sus elementos visuales son menos diversos”. CausVid también destacó en pruebas con más de 900 indicaciones utilizando un conjunto de datos de texto a video, obteniendo la máxima puntuación general de 84,27. Obtuvo las mejores métricas en categorías como calidad de imagen y acciones humanas realistas, eclipsando modelos de generación de video de vanguardia como » Vchitect » y » Gen-3 » . Si bien CausVid representa un avance eficiente en la generación de video con IA, pronto podrá diseñar imágenes aún más rápido, quizás al instante, con una arquitectura causal más pequeña. Yin afirma que si el modelo se entrena con conjuntos de datos específicos del dominio, probablemente creará clips de mayor calidad para robótica y videojuegos. Los expertos afirman que este sistema híbrido es una mejora prometedora respecto a los modelos de difusión, que actualmente se ven limitados por la velocidad de procesamiento. «[Los modelos de difusión] son ​​mucho más lentos que los modelos de lenguaje extenso (LLM) o los modelos de imágenes generativas», afirma el profesor adjunto de la Universidad Carnegie Mellon, Jun-Yan Zhu,

El modelo de IA híbrido crea videos fluidos y de alta calidad en segundos Leer más »

Breakthrough uses artificial intelligence to identify different brain cells in action

A decades-old challenge in neuroscience has been solved by harnessing artificial intelligence (AI) to identify the electrical signatures of different types of brain cells for the first time, as part of a study in mice led by researchers from UCL. Brains are made up of many different types of neurons (nerve cells in the brain), each of which are thought to play different roles in processing information. Scientists have long been able to use electrodes to record the activity of neurons by detecting the electrical ‘spikes’ that they generate while performing brain functions. Although recording spikes has proved invaluable for monitoring the activity of individual neurons deep in the brain, until now the method has been ‘blind’ to the type of neuron being recorded – making it impossible to identify how different neurons contribute to the brain’s overall operation. In a new study, published in Cell, the research team have overcome this problem by identifying the distinct ‘electrical signatures’ of different neuron types in the mouse brain, using brief pulses of blue light to trigger spikes in specific cell types (a method called optogenetics). They created a library of the different electrical signatures for each type of neuron, which then allowed them to train an AI algorithm that can automatically recognise five different types of neurons with 95% accuracy without further need for genetic tools. The algorithm was also validated on brain recording data from monkeys. The researchers say they have overcome a major hurdle in being able to use the technology to study neurological conditions such as epilepsy, but that there is still “a long way” to go before it can be used in practical applications. Dr Maxime Beau, co-first author of the study from the UCL Wolfson Institute for Biomedical Research, said: “For decades, neuroscientists have struggled with the fundamental problem of reliably identifying the many different types of neurons that are simultaneously active during behaviour. Our approach now enables us to identify neuron types with over 95% accuracy in mice and in monkeys. “This advance will enable researchers to record brain circuits as they perform complex behaviours such as movement. Like logic gates on a computer chip, neurons in the brain are elementary computing units that come in several types. Our method provides a tool to identify many of the brain’s logic gates in action at the same time. Before, it could only be done one at a time, and at much greater cost.» The authors say the fact that the algorithm can be applied across different species gives it huge potential for being expanded to other animals and, eventually, to humans. In the short term, the new technique means that, instead of requiring complex genetic engineering to study the brain, researchers could use any normal animal to study what different neurons do and how they interact with one another to generate behaviour. One of the ultimate aims is to be able to study neurological and neuropsychiatric disorders such as epilepsy, autism and dementia, many of which are thought to involve changes to the way different cell types in the brain interact. Professor Beverley Clark a senior author of the study from UCL Wolfson Institute for Biomedical Research, said: “Just as many different instruments in an orchestra contribute to the sound of a symphony, the brain relies on many distinct neuron types to create the complex behaviour that humans and other animals exhibit. Our work is analogous to learning the sound that each instrument makes and then teaching an algorithm to recognise the contribution of each of them to a symphony. “Being able to observe this ‘neural symphony’ of the brain in action has been a fundamental challenge in neuroscience for over 100 years, and we now have a method for reliably doing this. “Although the technology is a long way from being able to be used to study neurological conditions such as epilepsy, we’ve now overcome a major hurdle to reaching that goal. In fact, some recordings of living human brain activity have already been recorded in patients during surgery, and our technique could be used to study those recordings to better understand how our brains work, first in health and then in disease.” Improved understanding of how our brains work could pave the way for some ground-breaking advances in medical science, some of which are already on the horizon. Human brain-to-computer interfaces, or neural implants, are one such possibility. Ongoing research at the UCSF Weill Institute for Neurosciences, for example, has enabled a paralysed man to control a robotic arm using a neural implant for a record seven months. Like the current study, this work was also informed by studying the electrical patterns in the brains of animals and using AI to automatically recognise these patterns. The authors say the new technique to differentiate neuron types could help to improve neural implants by more accurately recording which types of cells are involved in particular actions, so that the implant can more easily recognise specific signals and generate the appropriate response. Key to this technology is understanding how our brains work when they’re healthy, so that any damage can be compensated for. If a person had a stroke and part of their brain was damaged, for example, you would need to understand how that bit worked before you could consider designing an implant to replicate that functionality. Professor Michael Häusser, a senior author of the study from UCL Division of Medicine and The University of Hong Kong, said: «This project came to life thanks to the convergence of three critical innovations: using molecular biology to successfully ‘tag’ different neuron types using light, developments in silicon probe recording technology, and of course the fast-paced improvements in deep learning. “Crucially, the synergy in our team was absolutely instrumental. The partner labs at UCL, Baylor, Duke and Bar Ilan University have all contributed critical pieces to the puzzle. Just like the brain, the whole is larger than the sum of its parts.» The database gathered by the team is freely

Breakthrough uses artificial intelligence to identify different brain cells in action Leer más »

Scroll al inicio