El Portal de las Tecnologías para la Innovación

Categoría: Papers de Investigación Científica

Cuatro formas en las que la inteligencia artificial está preparada para transformar la medicina

Hoy en día, la IA no está reemplazando a los especialistas en imágenes, pero su uso está llevando a los proveedores de atención médica a reinventar el campo. El radiólogo estaba muerto. O al menos eso es lo que los expertos en inteligencia artificial (IA) profetizaron en 2016 cuando dijeron que la IA superaría a los radiólogos dentro de una década. Hoy en día, la IA no está reemplazando a los especialistas en imágenes, pero su uso está llevando a los proveedores de atención médica a reinventar el campo. Es por eso que la UC San Francisco fue una de las primeras universidades de EE. UU. en combinar la IA y el aprendizaje automático con las imágenes médicas en la investigación y la educación al abrir su Centro de Imágenes Inteligentes . Eche un vistazo a cómo los investigadores de la UCSF están siendo pioneros en soluciones de inteligencia artificial centradas en el ser humano para algunos de los mayores desafíos de la medicina. Detectar enfermedades de forma temprana Decenas de miles de estadounidenses sufren neumotórax, un tipo de colapso pulmonar, cada año. La afección es causada por un traumatismo o una enfermedad pulmonar, y los casos graves pueden ser mortales si se diagnostican tarde o no se tratan. El problema: Este tipo de colapso pulmonar es difícil de identificar: la enfermedad puede imitar a otras tanto en los síntomas como en las radiografías, en las que sólo pistas sutiles pueden indicar su presencia. Mientras tanto, los radiólogos deben interpretar cientos de imágenes diariamente y algunos hospitales no cuentan con radiólogos las 24 horas. La solución: Los investigadores de la UCSF crearon el primer programa de IA en la cabecera del paciente para ayudar a señalar posibles casos a los radiólogos. En 2019, la herramienta fue la primera innovación de IA de este tipo en obtener la licencia de la Administración de Alimentos y Medicamentos de los Estados Unidos. Hoy en día, se utiliza en miles de máquinas de GE Healthcare en todo el mundo. ¿Cómo lo hicieron? Los investigadores del Departamento de Radiología e Imágenes Biomédicas crearon una base de datos de miles de radiografías de tórax anónimas. Algunas de estas imágenes mostraban casos de  colapso pulmonar  y otras no. A continuación, los investigadores entrenaron la herramienta de inteligencia artificial en esta base de datos antes de probarla en miles de otras imágenes para asegurarse de que pudiera señalar los casos potenciales con precisión. El detector de inteligencia artificial funciona con máquinas de rayos X portátiles, por lo que los médicos pueden usarlo directamente al lado de la cama del paciente sin realizar grandes inversiones en infraestructura. «Considero que se trata de un control de seguridad adicional que puede permitir realizar diagnósticos y brindar atención al paciente más rápidamente», explicó el presidente asociado de Informática Traslacional  , el Dr.  John Mongan , quien co-desarrolló el algoritmo de IA con el profesor de Radiología, el Dr. Andrew Taylor . Mongan también es director del Centro de Imágenes Inteligentes. Mejore la calidad de la imagen para diagnosticar mejor las lesiones cerebrales traumáticas La resonancia magnética es especialmente útil para estudiar los tejidos blandos que forman el hígado, el corazón y el cerebro. A diferencia de los rayos X, la resonancia magnética puede producir imágenes muy detalladas de estos órganos y, en el caso del cerebro, ayuda a los médicos a detectar tumores, signos sutiles de accidentes cerebrovasculares y cambios a lo largo del tiempo. El problema: La mayoría de las resonancias magnéticas en los EE. UU. se realizan con sistemas de resonancia magnética de 1,5 T (Tesla) o 3 T de menor resolución que pueden pasar por alto los signos y síntomas de afecciones como la esclerosis múltiple y la lesión cerebral traumática. Las máquinas de 7 T, más potentes y que producen imágenes de mayor resolución, podrían ayudar, pero su alto costo es la razón por la que solo se utilizaban unas 110 en todo el mundo en 2022. La solución: El profesor adjunto de Neurología de la UCSF, Reza Abbasi-Asl, Ph.D., dirigió un equipo que utilizó una forma de IA para mejorar la resolución de las imágenes de resonancia magnética estándar que mostraban lesiones cerebrales traumáticas. La técnica mejoró drásticamente las imágenes de resonancia magnética de 3T, colocándolas aproximadamente a la par de las imágenes de 7T, al tiempo que superaba a otros tipos de imágenes de resonancia magnética mejoradas con IA. Estos resultados podrían, algún día, ayudar a mejorar la atención a quienes sufren lesiones cerebrales traumáticas y otras afecciones neurológicas. ¿Cómo lo hicieron? Abbasi-Asl y su equipo construyeron pequeñas bases de datos anónimas de pares de imágenes por resonancia magnética de lesiones cerebrales traumáticas. Cada par contenía imágenes por resonancia magnética de la misma lesión: una versión de 3 T de baja resolución y otra de 7 T de alta resolución. El equipo creó modelos de aprendizaje automático que conectan bits de información basados ​​en patrones de datos para mejorar las imágenes de baja resolución antes de compararlas con sus pares de alta resolución. Los resultados de estos modelos identificaron patrones y características que eran difíciles de detectar para el ojo humano en imágenes por resonancia magnética de 3T, y los utilizaron para comprender cómo mejorar la calidad de la imagen, potenciando detalles específicos y minimizando el “ruido”, como las motas granulosas. “Nuestros hallazgos resaltan la promesa de la IA y el aprendizaje automático para mejorar la calidad de las imágenes médicas capturadas por sistemas de imágenes menos avanzados”, afirmó Abbasi-Asl. Detecta problemas cardíacos sin pruebas invasivas Los angiogramas como éste, algún día podrían usarse para diagnosticar problemas cardíacos más graves sin necesidad de realizar pruebas adicionales riesgosas. La enfermedad de las arterias coronarias es una de las principales causas de muerte de adultos en todo el mundo. Esta enfermedad, causada por la acumulación de depósitos grasos en las arterias, es una causa común de ataques cardíacos. Los médicos suelen utilizar una prueba llamada angiografía coronaria para diagnosticar la enfermedad. Como parte de la angiografía, los médicos inyectan un tinte especial en los vasos

Leer más »

RAIBO2 de KAIST se convierte en el primer perro robot del mundo en completar con éxito una maratón de recorrido completo

El robot caminante cuadrúpedo «RAIBO» de KAIST, que puede correr sin problemas en playas de arena, ahora ha evolucionado a «RAIBO2» y ha logrado un hito revolucionario al convertirse en el primer robot cuadrúpedo del mundo en completar con éxito una maratón de recorrido completo en un evento oficial. KAIST (Presidente Kwang Hyung Lee) anunció el 17 de noviembre que el equipo de investigación del Profesor Je Min Hwangbo del Departamento de Ingeniería Mecánica participó en el 22º Maratón de Caquis Secos de Sangju y completó la carrera completa (42,195 km) con un tiempo de 4 horas, 19 minutos y 52 segundos. < Foto 2. RAIBO2 tras completar el recorrido completo del maratón con su récord oficial presentado en el muro fotográfico > El Maratón del Caqui Seco de Sangju es conocido por su desafiante recorrido, que incluye dos subidas de 50 m, cada una en el kilómetro 14 y el kilómetro 28, lo que lo hace difícil para los corredores aficionados. Esto lo convirtió en un desafío especialmente exigente para el robot caminante, ya que podrían producirse pérdidas inesperadas en la eficiencia. < Foto 3. RAIBO2 con la medalla de finalización colgada del cuello > Para preparar RAIBO2, el equipo del profesor Hwangbo desarrolló un controlador de marcha utilizando algoritmos de aprendizaje por refuerzo dentro de su entorno de simulación patentado «RaiSim». Este simulador permitió al equipo simular diversos terrenos, como pendientes, escaleras y caminos helados, para garantizar un rendimiento estable al caminar. En particular, el mecanismo de articulación de transparencia de alto torque de RAIBO2 permite que el robot recolecte energía de manera eficiente en las pendientes descendentes para recuperar parte de la energía utilizada al subir colinas empinadas. Además, la estabilidad del robot se mejoró enormemente gracias a la colaboración con RAION ROBOTICS Inc., una empresa fundada por los investigadores del laboratorio del profesor Hwangbo. < Figura 1. Diagrama conceptual del flujo de potencia empleado por el robot cuadrúpedo > < Figura 2. Proceso de cambio de postura de las piernas de RAIBO2 caminando a la velocidad más eficiente de 3 m/s. Al reducir la velocidad de contacto de los pies con el suelo, se redujo la pérdida de energía de la colisión y, al minimizar la resbaladizabilidad del pie al entrar en contacto, la energía cinética del cuerpo se mantuvo en la dirección del movimiento. > Debido a la naturaleza de la marcha, los robots a pedales deben emplear sistemas muy complejos que puedan soportar las vibraciones periódicas de los impactos frecuentes que se producen al entrar en contacto con la superficie del suelo. Inmediatamente después del desarrollo, ya se registró una alta eficiencia en experimentos de corta distancia en el laboratorio a principios de año, pero la tecnología de fabricación de RAION ROBOTICS mejoró significativamente el rendimiento de RAIBO al correr  de forma segura durante un tiempo prolongado de más de 4 horas entre un grupo aleatorio de personas en una maratón real.  En comparación con estudios anteriores sobre la mejora de la eficiencia al caminar, donde no se podían cambiar las piezas externas ni el software y solo se hicieron mejoras limitadas en algunas áreas, el equipo de investigación del profesor Hwangbo citó el hecho de que pudieron resolver problemas de manera integral desarrollando todos los pasos y piezas internamente, incluido el diseño de mecanismos, el diseño eléctrico, el software y la inteligencia artificial, como un factor clave para mejorar la eficiencia. Tras el desarrollo de RAIBO1, el equipo de investigación desarrolló RAIBO2 y optimizó todos los aspectos del robot. En particular, el equipo integró el circuito del controlador del motor directamente en el robot para minimizar las pérdidas del actuador y aumentar el ancho de banda de control, mejorando enormemente la eficiencia y la estabilidad de la marcha. < Foto 4. RAIBO2 recorre el maratón completo junto a participantes humanos > Choongin Lee, estudiante de doctorado y coautor principal de los estudios sobre RAIBO, dijo: “A través del proyecto de maratón, demostramos que RAIBO2 tiene el rendimiento de marcha para ejecutar de manera estable servicios como entrega y patrullaje en entornos urbanos con muchas personas y objetos aleatorios”, y “En la investigación de seguimiento, agregaremos funciones de navegación autónoma a RAIBO y nos esforzaremos por lograr el mejor rendimiento de marcha del mundo en entornos montañosos y de desastres”. < Foto 5. RAIBO2 y coautores principales de la investigación relacionada en el programa de doctorado del Departamento de Ingeniería Mecánica del KAIST. (De izquierda a derecha) Choongin Lee, Donghoon Youm y Jeongsoo Park > Esta investigación se realizó con el apoyo del Centro de Promoción de Tecnología Futura de Samsung Electronics y RAION ROBOTICS Inc. Instituto Avanzado de Ciencia y Tecnología de Corea News. Traducido al español

Leer más »

Robot que observa videos de cirugías actúa con la habilidad de un médico humano

Un innovador sistema de entrenamiento que utiliza el aprendizaje por imitación abre una ‘nueva frontera’ en la robótica médica. Un robot, entrenado por primera vez viendo vídeos de cirujanos experimentados, ejecutó los mismos procedimientos quirúrgicos con tanta habilidad como los médicos humanos. El uso exitoso del aprendizaje por imitación para entrenar robots quirúrgicos elimina la necesidad de programar a los robots con cada movimiento individual requerido durante un procedimiento médico y acerca el campo de la cirugía robótica a la verdadera autonomía, donde los robots podrían realizar cirugías complejas sin ayuda humana. Los hallazgos , dirigidos por investigadores de la Universidad Johns Hopkins, se destacan esta semana en la Conferencia sobre Aprendizaje Robótico en Múnich, un evento de primer nivel sobre robótica y aprendizaje automático. «Es realmente mágico tener este modelo. Todo lo que hacemos es introducirle datos de la cámara y puede predecir los movimientos robóticos necesarios para la cirugía», dijo el autor principal Axel Krieger , profesor adjunto del Departamento de Ingeniería Mecánica de la JHU . «Creemos que esto marca un importante paso adelante hacia una nueva frontera en la robótica médica». Videocrédito:Universidad Johns Hopkins El equipo, que incluía a investigadores de la Universidad de Stanford, utilizó el aprendizaje por imitación para entrenar al robot del sistema quirúrgico da Vinci a realizar tres tareas fundamentales necesarias en los procedimientos quirúrgicos: manipular una aguja, levantar tejido corporal y suturar. En cada caso, el robot entrenado en el modelo del equipo realizó los mismos procedimientos quirúrgicos con la misma destreza que los médicos humanos. El modelo combinó el aprendizaje por imitación con la misma arquitectura de aprendizaje automático que sustenta ChatGPT. Sin embargo, mientras que ChatGPT trabaja con palabras y texto, este modelo habla «robot» con cinemática, un lenguaje que descompone los ángulos del movimiento robótico en matemáticas. Los investigadores alimentaron su modelo con cientos de vídeos grabados con cámaras de muñeca colocadas en los brazos de robots Da Vinci durante procedimientos quirúrgicos. Estos vídeos, grabados por cirujanos de todo el mundo, se utilizan para análisis posoperatorios y luego se archivan. Se utilizan casi 7.000 robots Da Vinci en todo el mundo y más de 50.000 cirujanos reciben formación sobre el sistema, lo que crea un gran archivo de datos que los robots pueden «imitar». Si bien el sistema Da Vinci se utiliza ampliamente, los investigadores afirman que es notoriamente impreciso. Pero el equipo encontró una manera de hacer que la entrada defectuosa funcionara. La clave fue entrenar al modelo para que realizara movimientos relativos en lugar de acciones absolutas, que son inexactas. «Todo lo que necesitamos es una imagen para que este sistema de inteligencia artificial encuentre la acción correcta», dijo el autor principal Ji Woong «Brian» Kim, investigador postdoctoral en Johns Hopkins. «Descubrimos que incluso con unos pocos cientos de demostraciones, el modelo es capaz de aprender el procedimiento y generalizar nuevos entornos con los que no se ha encontrado».»Creemos que esto marca un importante paso adelante hacia una nueva frontera en la robótica médica».Axel KriegerProfesor asistente, Departamento de Ingeniería Mecánica Krieger agregó: «El modelo es muy bueno a la hora de aprender cosas que no le hemos enseñado. Por ejemplo, si deja caer la aguja, automáticamente la recogerá y continuará. Esto no es algo que yo le haya enseñado a hacer». Según los investigadores, el modelo podría utilizarse para entrenar rápidamente a un robot para que realice cualquier tipo de procedimiento quirúrgico. El equipo ahora está utilizando el aprendizaje por imitación para entrenar a un robot para que realice no solo pequeñas tareas quirúrgicas, sino una cirugía completa. Antes de este avance, programar un robot para que realizara incluso un aspecto simple de una cirugía requería codificar manualmente cada paso. Alguien podría pasar una década tratando de modelar la sutura, dijo Krieger. Y eso es suturar solo para un tipo de cirugía. «Es muy limitado», dijo Krieger. «Lo nuevo aquí es que sólo tenemos que recopilar el aprendizaje por imitación de diferentes procedimientos y podemos entrenar a un robot para que lo aprenda en un par de días. Esto nos permite acelerar el camino hacia el objetivo de autonomía, al tiempo que reducimos los errores médicos y logramos cirugías más precisas». Entre los autores de Johns Hopkins se encuentran el estudiante de doctorado Samuel Schmidgall, el ingeniero de investigación asociado Anton Deguet y el profesor asociado de ingeniería mecánica Marin Kobilarov. Los autores de la Universidad de Stanford son el estudiante de doctorado Tony Z. Zhao y la profesora adjunta Chelsea Finn. Universidad Johns Hopkins News. J. R. Traducido la español

Leer más »

En busca de sesgos ocultos en el contenido multilingüe de Wikipedia

Una nueva herramienta analiza y aborda las disparidades culturales en las distintas versiones lingüísticas, allanando el camino para una información más equilibrada. Los sesgos culturales y sociales influyen significativamente en el contenido multilingüe de Wikipedia, según un equipo de investigadores que incluye a un científico informático de la Universidad Johns Hopkins. Al crear e implementar una nueva herramienta llamada INFOGAP, los investigadores utilizaron inteligencia artificial para observar cómo se presenta la información biográfica sobre las personas LGBT en las versiones en inglés, ruso y francés de Wikipedia y encontraron inconsistencias en cómo se las retrata. Puntos clave Las disparidades muestran cuán profundamente las actitudes culturales pueden influir en la información, lo que enfatiza la necesidad de herramientas y estrategias para identificar y abordar los sesgos para un intercambio de conocimientos más equitativo, dijo la miembro del equipo de estudio Anjalie Field , profesora asistente en el Departamento de Ciencias de la Computación de la Escuela de Ingeniería Whiting , y afiliada a su Centro de Procesamiento del Lenguaje y el Habla . «Nuestra herramienta muestra cómo se puede utilizar la tecnología para estudiar los sesgos culturales a gran escala», dijo Field. «Más allá de Wikipedia, puede ayudar a analizar cómo diferentes regiones o idiomas presentan los mismos temas en las noticias u otros medios. Creemos que los educadores y los responsables de las políticas también podrían utilizarla para identificar y abordar los sesgos en recursos de uso generalizado, promoviendo una información más equilibrada». El equipo presentó sus resultados en la Conferencia 2024 sobre Métodos Empíricos en Procesamiento del Lenguaje Natural celebrada en noviembre en Miami.»Nuestra herramienta muestra cómo se puede utilizar la tecnología para estudiar los sesgos culturales a gran escala».Campo AnjalieProfesor asistente, Departamento de Ciencias de la Computación INFOGAP fue creado para analizar y comparar grandes cantidades de texto en diferentes idiomas de manera detallada y precisa, identificando lagunas y desequilibrios fácticos y arrojando luz sobre las influencias culturales, sociales y políticas. «Muchos de los métodos existentes para estudiar las diferencias entre idiomas se basan en medidas simples como la longitud del texto o el tono general, que no proporcionan suficientes detalles para identificar lagunas o inconsistencias específicas», dijo Field. «INFOGAP resuelve este problema al comparar datos del mismo artículo escrito en diferentes idiomas y verificar que la información sea coherente. Este proceso permite examinar y medir cuidadosamente las diferencias en cómo se presentan los datos y el tono utilizado en los distintos idiomas, incluso cuando se trabaja con grandes cantidades de datos». La herramienta demostró sus capacidades utilizando LGBTBIOCORPUS, una colección de más de 2.700 biografías de figuras públicas LGBT y no LGBT de Wikipedia en inglés, ruso y francés. El análisis reveló que las biografías de Wikipedia en ruso omitían el 77% del contenido presente en las versiones en inglés. Además, las entradas sobre personas LGBT no solo omitían más contenido, sino que también enfatizaban aspectos negativos en una mayor proporción. En promedio, el 50,87% de los datos negativos sobre personas LGBT en Wikipedia en ruso coincidían con sus contrapartes en inglés, en comparación con el 38,53% de las biografías no LGBT, lo que sugiere un sesgo significativo. Field dice que este enfoque en los detalles negativos resalta cómo las actitudes y los prejuicios culturales influyen en el contenido en diferentes idiomas. «Al medir estas diferencias, INFOGAP ofrece evidencia clara de sesgo sistémico, apoyando hallazgos previos de que el contenido ruso a menudo retrata los temas LGBT de manera más negativa que las versiones en inglés o francés», dijo. El equipo señala que INFOGAP no se limita a identificar diferencias, sino que también ofrece soluciones al señalar datos o secciones faltantes en distintos idiomas, lo que ofrece a los editores una hoja de ruta clara para las actualizaciones. Por ejemplo, puede señalar cuándo faltan detalles positivos sobre una figura LGBT en la Wikipedia en ruso o en francés, lo que permite abordar esas lagunas. Además, los investigadores destacan su versatilidad, señalando que puede analizar variaciones en los medios, debates políticos y narrativas culturales más allá de Wikipedia. Los coautores del artículo incluyen a Farhan Samir y Vered Shwartz de la Universidad de Columbia Británica; y Chan Young Park y Yulia Tsvetkov de la Universidad de Washington. Universidad Johns Hopkins News. D. L. Traducido al español

Leer más »

Un sistema de IA puede visualizar un mundo entero a partir de una sola imagen

Un modelo de IA creado por científicos informáticos de Johns Hopkins imagina escenarios detallados basados ​​en una sola imagen para tomar decisiones informadas. Los científicos informáticos de Johns Hopkins han creado un sistema de inteligencia artificial capaz de “imaginar” su entorno sin tener que explorarlo físicamente, acercando la IA al razonamiento humano. El nuevo sistema, llamado Generative World Explorer o GenEx, necesita solamente una imagen fija para crear un mundo entero, lo que le da una ventaja significativa sobre los sistemas anteriores que requerían que un robot o agente se moviera físicamente a través de una escena para mapear el entorno circundante, lo que puede ser costoso, inseguro y llevar mucho tiempo. Los resultados del equipo aparecen en el archivo de acceso abierto arXiv.org . Puntos clave «Supongamos que estás en un lugar en el que nunca has estado antes: como ser humano, utilizas señales ambientales, experiencias pasadas y tu conocimiento del mundo para imaginar lo que podría estar a la vuelta de la esquina», dice el autor principal Alan Yuille , profesor distinguido de Bloomberg de Ciencias Cognitivas Computacionales en Johns Hopkins. «GenEx ‘imagina’ y razona sobre su entorno de la misma manera que lo hacen los humanos, tomando decisiones informadas sobre los pasos que debe dar a continuación sin tener que comprobar físicamente su entorno primero». GenEx utiliza un conocimiento sofisticado del mundo para generar múltiples posibilidades de lo que podría existir más allá de la imagen visible, asignando diferentes probabilidades a cada escenario en lugar de hacer una única suposición definitiva. Esta capacidad de mapear mentalmente el entorno a partir de datos visuales limitados es crucial para muchas aplicaciones del mundo real, incluso en escenarios como la respuesta a desastres. Por ejemplo, los equipos de rescate podrían usar una sola imagen de vigilancia para ayudar a explorar sitios peligrosos desde lejos sin riesgo para los humanos o el equipo valioso. «Esta tecnología también puede mejorar las aplicaciones de navegación, ayudar en el entrenamiento de robots autónomos y potenciar experiencias de juegos y realidad virtual inmersivas», afirma el autor principal Jieneng Chen , estudiante de doctorado en informática. Videocrédito: Centro de procesamiento del lenguaje y del habla de la JHU A partir de una única imagen, GenEx genera un mundo virtual sintético y realista en el que los agentes de IA pueden navegar y tomar decisiones mediante el razonamiento y la planificación. El agente solo necesita una vista de su escena actual, una dirección de movimiento y la distancia que debe recorrer. Como se muestra en la animación a continuación, el agente puede avanzar, cambiar de dirección y explorar su entorno con una flexibilidad ilimitada. Título de la imagen:Representación digital de una IA que navega en un mundo virtual sintético Imagencrédito:Cortesía de la Escuela de Ingeniería Whiting Y a diferencia de las aplicaciones de exploración de mundos oníricos con IA que ahora están ganando popularidad (como Oasis , un simulador de Minecraft generado por IA), los entornos de GenEx son consistentes. Esto se debe a que el modelo se entrenó con datos a gran escala con una técnica llamada «aprendizaje de consistencia esférica», que garantiza que sus predicciones de nuevos entornos encajen dentro de una esfera panorámica. «Para medir esto, hacemos que GenEx recorra una ruta cerrada seleccionada al azar y regrese al origen en un bucle fijo», explica Chen. «Nuestro objetivo era lograr que las vistas de inicio y fin fueran idénticas, garantizando así la coherencia en el modelado del mundo de GenEx». Si bien esta consistencia no es exclusiva de GenEx, el equipo de investigación dice que es el primer y único explorador mundial generativo que permite a los agentes de IA tomar decisiones lógicas basadas en nuevas observaciones sobre el mundo que están explorando en un proceso que los científicos informáticos llaman «política aumentada por la imaginación». Por ejemplo, supongamos que usted está conduciendo y la luz de adelante está en verde, pero se da cuenta de que el taxi que va delante de usted se ha detenido de forma abrupta e inesperada. Salir del coche para investigar sería peligroso, pero si imagina la escena desde la perspectiva del taxista, puede pensar en una posible razón para su parada repentina: tal vez se esté acercando un vehículo de emergencia y usted también debería ceder el paso. Título de la imagen:Representación de un modelo de IA que toma una decisión basada en la observación Imagencrédito:Cortesía de la Escuela de Ingeniería Whiting «Si bien los humanos pueden usar otras señales, como las sirenas, para identificar este tipo de situaciones, los modelos de IA actuales desarrollados para la conducción autónoma y otras tareas similares solo tienen acceso a imágenes y lenguaje, lo que hace necesaria la exploración imaginativa en ausencia de otra información multimodal», afirma Chen. El equipo de Hopkins evaluó la consistencia y la calidad de los resultados de GenEx en comparación con los parámetros de generación de video estándar. Los investigadores también realizaron experimentos con usuarios humanos para determinar si GenEx podía aumentar sus capacidades lógicas y de planificación y de qué manera, y descubrieron que los usuarios tomaban decisiones más precisas e informadas cuando tenían acceso a las capacidades de exploración del modelo. «Nuestros resultados experimentales demuestran que GenEx puede generar observaciones consistentes y de alta calidad durante una exploración prolongada de un gran mundo físico virtual», afirma Chen. «Además, las creencias actualizadas con las observaciones generadas pueden informar a un modelo de toma de decisiones existente, como un agente de modelo de lenguaje de gran tamaño, e incluso a usuarios humanos para hacer mejores planes». Junto con Tianmin Shu y Daniel Khashabi , ambos profesores adjuntos de informática, y el estudiante de grado TaiMing Lu , Yuille y Chen incorporarán datos de sensores del mundo real y escenas dinámicas para escenarios de planificación más realistas e inmersivos. Rama Chellappa, profesor distinguido de Bloomberg de Visión artificial e inteligencia artificial, y Cheng Peng , profesor adjunto de investigación en el Instituto de Matemáticas para la Ciencia de Datos , ayudarán a seleccionar los datos de sensores del mundo real. El proyecto interdisciplinario, que involucra visión por computadora, procesamiento del lenguaje natural y ciencia cognitiva, marca un logro

Leer más »

Un marco de capacitación de código abierto para promover la IA multimodal

Los investigadores de la EPFL han desarrollado 4M , un marco de código abierto de próxima generación para entrenar modelos básicos multimodales versátiles y escalables que van más allá del lenguaje. Los modelos de lenguaje de gran tamaño, como ChatGPT de OpenAI, ya han transformado la forma en que muchos de nosotros realizamos algunas de nuestras tareas diarias. Estos chatbots de inteligencia artificial generativa están entrenados con lenguaje: cientos de terabytes de texto «extraidos» de Internet y con miles de millones de parámetros. De cara al futuro, muchos creen que los «motores» que impulsarán la inteligencia artificial generativa serán modelos multimodales que no solo estarán entrenados con texto, sino que también podrán procesar otras modalidades de información, incluidas imágenes, vídeos, sonidos y modalidades de otros dominios, como datos biológicos o atmosféricos. Sin embargo, hasta hace poco, el entrenamiento de un único modelo para manejar una amplia gama de modalidades (entradas) y tareas (salidas) planteaba importantes desafíos. Por ejemplo, el entrenamiento a menudo conducía a una reducción del rendimiento en comparación con los modelos de una sola tarea y, por lo general, requería estrategias cuidadosas para reducir las pérdidas de calidad y maximizar la precisión. Además, el entrenamiento de una red en diferentes modalidades (o entradas), como el lenguaje, las imágenes o los vídeos que varían enormemente, presentaba complejidades adicionales y el modelo a menudo ignoraba incorrectamente la información esencial en ciertas modalidades. Modelado multimodal En un proyecto de varios años llevado a cabo con el apoyo de Apple en California, investigadores de la EPFL del Laboratorio de Inteligencia Visual y Aprendizaje (VILAB) en la Escuela de Ciencias de la Computación y la Comunicación (IC) han desarrollado 4M, para Massively Masked Multimodal Modeling, una de las redes neuronales individuales más avanzadas del mundo para manejar una amplia y variada gama de tareas y modalidades. En su último artículo de investigación sobre 4M, presentado en diciembre en NeurIPS 2024, la Conferencia Anual sobre Sistemas de Procesamiento de Información Neural, los investigadores describen cómo amplía las capacidades de los modelos existentes de múltiples maneras (consulte el cuadro a continuación para obtener más detalles técnicos). “Con 4M, ahora tenemos un modelo completo que puede interpretar más que solo el lenguaje. Pero, ¿por qué es importante esto? Una crítica común a los LLM es que su conocimiento no está fundamentado porque los datos de entrenamiento se limitan solo al lenguaje”, explicó el profesor adjunto Amir Zamir, director de VILAB. “Cuando avanzamos hacia el modelado multimodal, no tenemos que limitarnos al lenguaje. Incorporamos otras modalidades, incluidos los sensores. Por ejemplo, podemos comunicar una naranja a través de la palabra ‘naranja’, al igual que en los modelos de lenguaje, pero también a través de una colección de píxeles, es decir, cómo se ve la naranja, o a través del sentido del tacto, capturando cómo se siente al tocar una naranja. Si reúnes varias modalidades, tienes una encapsulación más completa de la realidad física que estamos tratando de modelar”, continuó. Hacia un modelo genérico de código abierto para un uso amplio A pesar de estos impresionantes avances, Zamir dice que el desarrollo de 4M ha presentado algunos desafíos intrigantes, incluido el hecho de que el modelo no desarrolla una representación verdaderamente unificada en todas las modalidades, y él tiene su propia teoría de por qué. “Creemos que, en secreto, los modelos hacen trampa y crean un pequeño conjunto de modelos independientes. Un conjunto de parámetros resuelve un problema, otro conjunto de parámetros resuelve otro y, en conjunto, parecen resolver el problema general. Pero no están unificando verdaderamente su conocimiento de una manera que permita una representación conjunta compacta del entorno que sería un buen portal al mundo”. El equipo de VILAB sigue trabajando en la construcción de una mayor estructura y unificación de 4M, con el objetivo de desarrollar una arquitectura genérica de código abierto, que permita a los expertos de otros dominios adaptarla a sus necesidades específicas, como la modelización climática o la investigación biomédica. El equipo también trabaja en abordar otros aspectos importantes, como aumentar aún más la escalabilidad y los métodos para la especialización de los modelos en contextos de implementación. “El objetivo del código abierto es que la gente pueda adaptar el modelo a sus necesidades con sus propios datos y especificaciones. 4M llega en el momento adecuado y estamos especialmente entusiasmados con la posibilidad de que otros dominios adopten esta línea de modelado para sus casos de uso específicos. Estamos entusiasmados por ver a dónde nos lleva esto. Pero todavía quedan muchos desafíos y mucho por hacer”, afirmaron Oguzhan Fatih Kar y Roman Bachmann, asistentes de doctorado en VILAB y coautores del artículo. Basándose en la experiencia del equipo en el desarrollo de 4M y los intrigantes problemas en los que siguen trabajando, Zamir cree que hay algunas preguntas interesantes en torno al desarrollo futuro de los modelos de cimentación. “Los seres humanos tenemos cinco sentidos clave y, además, aprendemos el lenguaje de manera eficiente, lo que añade etiquetas y estructura al conocimiento que ya estaba basado en estos otros sentidos. Con la IA actual, sucede lo contrario: tenemos modelos de lenguaje sin acceso sensorial al mundo, pero que se entrenan utilizando datos y recursos informáticos colosales. Nuestro objetivo es estudiar el papel de la multimodalidad y desarrollar de manera eficiente un modelo del mundo fundamentado que pueda utilizarse de manera efectiva para usos posteriores”. 4M amplía las capacidades de los modelos existentes en varios ejes clave, entre ellos: EPFL News. T. P. Traducido al español

Leer más »

La economía impulsada por la IA venderá tus decisiones antes de que las tomes, advierten los investigadores

Los agentes de IA conversacional pueden desarrollar la capacidad de influir de forma encubierta en nuestras intenciones, creando una nueva frontera comercial que los investigadores llaman la “economía de la intención”. En un futuro cercano podríamos ver asistentes de IA que pronostiquen e influyan en nuestra toma de decisiones en una etapa temprana, y vendan estas «intenciones» en desarrollo en tiempo real a empresas que puedan satisfacer la necesidad, incluso antes de que hayamos tomado una decisión. Así lo afirman los especialistas en ética de la IA de la Universidad de Cambridge, que afirman que nos encontramos en los albores de un “nuevo mercado lucrativo pero problemático para las señales digitales de intención”, desde la compra de entradas de cine hasta la votación de candidatos. Lo denominan la economía de la intención. Los investigadores del Centro Leverhulme para el Futuro de la Inteligencia (LCFI) de Cambridge sostienen que la explosión de la IA generativa y nuestra creciente familiaridad con los chatbots abren una nueva frontera de «tecnologías persuasivas», insinuada en recientes anuncios corporativos de los gigantes tecnológicos. Los agentes de IA «antropomórficos», desde asistentes de chatbot hasta tutores digitales y novias, tendrán acceso a grandes cantidades de datos psicológicos y de comportamiento íntimos, a menudo obtenidos a través de diálogos hablados informales y conversacionales. Esta IA combinará el conocimiento de nuestros hábitos en línea con una asombrosa capacidad de sintonizarse con nosotros de maneras que nos resulten reconfortantes (imitando personalidades y anticipando respuestas deseadas) para generar niveles de confianza y comprensión que permitan la manipulación social a escala industrial, dicen los investigadores. “Se están gastando enormes recursos para colocar asistentes de IA en todas las áreas de la vida, lo que debería plantear la cuestión de a qué intereses y propósitos están destinados a servir estos supuestos asistentes”, dijo el Dr. Yaqub Chaudhary, investigador visitante de LCFI. “Lo que la gente dice cuando conversa, cómo lo dice y el tipo de inferencias que se pueden hacer en tiempo real como resultado, son mucho más íntimos que los simples registros de interacciones en línea” “Advertimos que ya se están desarrollando herramientas de inteligencia artificial para obtener, inferir, recopilar, registrar, comprender, pronosticar y, en última instancia, manipular y mercantilizar los planes y propósitos humanos”. El Dr. Jonnie Penn, historiador de tecnología de la LCFI de Cambridge, afirmó: “Durante décadas, la atención ha sido la moneda de cambio de Internet. Compartir la atención con plataformas de redes sociales como Facebook e Instagram impulsó la economía en línea”. “A menos que se regule, la economía de las intenciones tratará las motivaciones como la nueva moneda. Será una fiebre del oro para quienes se centran en las intenciones humanas, las dirigen y las venden”. “Deberíamos empezar a considerar el posible impacto que un mercado de estas características tendría sobre las aspiraciones humanas, incluidas elecciones libres y justas, una prensa libre y una competencia justa en el mercado, antes de convertirnos en víctimas de sus consecuencias no deseadas”. En un nuevo artículo de Harvard Data Science Review , Penn y Chaudhary escriben que la economía de la intención será la economía de la atención «graficada en el tiempo»: perfilando cómo la atención del usuario y el estilo comunicativo se conectan con los patrones de comportamiento y las elecciones que terminamos haciendo. “Si bien algunas intenciones son fugaces, clasificar y enfocar las intenciones que persisten será extremadamente rentable para los anunciantes”, afirmó Chaudhary. En una economía de intención, los grandes modelos de lenguaje o LLM podrían usarse para identificar, a bajo costo, la cadencia, la política, el vocabulario, la edad, el género, el historial en línea e incluso las preferencias de un usuario por los halagos y la congraciación, escriben los investigadores. Esta recopilación de información se vincularía con redes de subastas negociadas para maximizar la probabilidad de lograr un objetivo determinado, como vender un viaje al cine («Mencionaste que te sentías sobrecargado de trabajo, ¿te reservo esa entrada de cine de la que hablamos?»). Esto podría incluir dirigir conversaciones al servicio de determinadas plataformas, anunciantes, empresas e incluso organizaciones políticas, argumentan Penn y Chaudhary. Si bien los investigadores dicen que la economía de la intención es actualmente una «aspiración» para la industria tecnológica, rastrean los primeros signos de esta tendencia a través de investigaciones publicadas y las pistas lanzadas por varios actores tecnológicos importantes. Estos incluyen una convocatoria abierta de «datos que expresen la intención humana… en cualquier idioma, tema y formato» en una publicación del blog de OpenAI de 2023, mientras que el director de producto de Shopify, un socio de OpenAI, habló de chatbots que llegan «para obtener explícitamente la intención del usuario» en una conferencia el mismo año. El CEO de Nvidia ha hablado públicamente sobre el uso de LLM para descubrir la intención y el deseo, mientras que Meta lanzó la investigación ‘Intentonomy’, un conjunto de datos para comprender la intención humana, en 2021. En 2024, el nuevo marco para desarrolladores ‘App Intents’ de Apple para conectar aplicaciones a Siri (el asistente personal controlado por voz de Apple), incluye protocolos para «predecir acciones que alguien podría realizar en el futuro» y «sugerir la intención de la aplicación a alguien en el futuro utilizando predicciones que usted [el desarrollador] proporcione». “Se dice que los agentes de IA como CICERO de Meta logran un nivel de juego humano en el juego Diplomacia, que depende de inferir y predecir intenciones y de usar un diálogo persuasivo para avanzar en la propia posición”, dijo Chaudhary. “Estas empresas ya venden nuestra atención. Para obtener una ventaja comercial, el siguiente paso lógico es utilizar la tecnología que claramente están desarrollando para predecir nuestras intenciones y vender nuestros deseos antes de que los comprendamos por completo”. Penn señala que estos acontecimientos no son necesariamente malos, pero tienen el potencial de ser destructivos. “La conciencia pública de lo que se avecina es la clave para garantizar que no sigamos el camino equivocado”, afirmó. Universidad de Cambridge News. Traducido al español

Leer más »

Un equipo dirigido por IBM está explorando cómo la IA puede preparar la red eléctrica para la era baja en carbono

La tecnología del modelo de base está preparada para transformar el sistema de ingeniería más sofisticado del mundo: la red eléctrica. A principios del nuevo milenio, la Academia Nacional de Ingeniería calificó la red eléctrica como el mayor logro de ingeniería del siglo XX . Un cuarto de siglo después, esta columna vertebral de la civilización moderna está mostrando su edad. La electrificación aún hace posible la alimentación, la atención sanitaria, las comunicaciones y los sistemas de transporte, por no hablar de la energía que suministra a las empresas, la informática y el ocio que impulsan la vida moderna. Pero tampoco es ningún secreto que la red eléctrica de Estados Unidos y de otros países del mundo está sometida a una gran presión. Los fenómenos meteorológicos extremos han inutilizado las redes eléctricas locales, el envejecimiento de los equipos ha contribuido a algunos de los incendios forestales más destructivos de los últimos tiempos y los ataques a la red eléctrica se han convertido en una importante preocupación para la seguridad nacional. A medida que entramos en la era de la energía con bajas emisiones de carbono, las nuevas fuentes de generación de energía y los programas de distribución impulsarán la red eléctrica de maneras para las que no estaba diseñada inicialmente. Ahí es donde entran en juego los investigadores de IBM. En un nuevo artículo , que aparece en la portada de Joule este mes, IBM y sus socios conceptualizaron el papel fundamental de los modelos en la transformación de las redes eléctricas a medida que la humanidad avanza hacia una nueva era energética.1Estos modelos, llamados GridFM, tienen el potencial de ayudar a mejorar las operaciones, la planificación y el control de la red eléctrica para el siglo XXI y más allá. El documento también describe una hoja de ruta práctica para GridFM comenzando con un entrenamiento previo en más de 300.000 problemas de flujo de potencia óptimo resueltos en redes de varios tamaños. Se espera que una primera versión de GridFM esté disponible en el segundo trimestre de 2025. Los investigadores imaginan que este modelo utilizará datos espaciales, temporales y de texto multimodales para respaldar una red más resistente. Las tareas posteriores de GridFM podrían incluir análisis de contingencias, predicción de interrupciones, pronóstico de carga, pronóstico de energía renovable, adecuación del sistema, flujo de potencia óptimo dinámico (OPF), seguridad del sistema, recuperación ante desastres y estimaciones de estado dinámico. Para el ciudadano medio, esto significa una red eléctrica con menos cortes, menos costes para los usuarios y un mejor uso de los recursos energéticos renovables, según Hendrik Hamann, director científico de clima y sostenibilidad de IBM Research. “Esta enorme red de cables solo funciona si se entiende exactamente cuánta energía fluye por cada pequeño tramo de ella”, afirma Hamann. “Es enormemente compleja, y mejorar esa información es exactamente lo que aporta GridFM”. Para abordar el cambio climático, la única forma práctica de descarbonizarnos es mediante energía limpia, afirmó Hamann. Y la energía limpia requiere una transición energética en la red eléctrica. Para ello, se necesita una infusión masiva de inteligencia. “Las tecnologías de modelos de base son ideales para abordar la complejidad subyacente de los sistemas de energía”, afirmó Juan Bernabé-Moreno, responsable de la estrategia de clima y sostenibilidad de IBM Research. Estas incluyen no solo la integración de fuentes renovables, sino también la seguridad del suministro, la electrificación y más. “Los modelos de GridFM pueden capturar las dependencias de todos los datos que encontramos en las redes modernas en una representación de IA y ofrecer nuevas posibilidades”, afirmó. Y IBM no lo está haciendo solo. Este documento seminal comenzó con un grupo de trabajo que IBM convocó junto con el Imperial College de Londres este año en su sede de investigación global en Yorktown Heights, Nueva York. Y para hacer avanzar esta visión, IBM está trabajando con socios en la industria energética para construir lo que se diseñó en el documento. Estos socios incluyen Linux Foundation for Energy (LF Energy), que está apoyando el desarrollo de código abierto de una base tecnológica GridFM común; la empresa eléctrica de Quebec Hydro-Québec, que innovará sobre la base del modelo de código abierto mediante la validación y el ajuste de las aplicaciones específicas de la empresa. Otros colaboradores que contribuyeron a este trabajo incluyen ETH Zurich, Argonne National Laboratory, la empresa eléctrica del Reino Unido SSEN Transmission y un operador del sistema eléctrico suizo. La evolución de nuestra red Uno de los problemas crecientes que enfrenta el mundo es que las fuentes de energía renovable son más variables que las de combustibles fósiles convencionales, lo que hace más difícil predecir y hacer coincidir la demanda de los consumidores con lo que las empresas de servicios públicos pueden suministrar. Por ejemplo, la producción de una planta de energía a carbón es predecible y confiable, mientras que la energía producida por instalaciones eólicas y solares está sujeta a patrones climáticos cambiantes. Los inversores de energía que utilizan las energías renovables también plantean problemas sin precedentes para la red. Los inversores controlados por software en el borde de la red son cruciales para que la producción de energía renovable sea asequible, pero la red eléctrica actual no fue diseñada para manejar sus fluctuaciones de fase, voltaje y frecuencia, cambios cuya ocurrencia y consecuencias son difíciles de predecir. “Descarbonizar la red ha sido una de las tareas más difíciles de los últimos años”, afirmó Bernabé-Moreno. “No solo tenemos que tener en cuenta la naturaleza volátil de las fuentes de energía renovable, sino también la complejidad añadida que genera la descentralización y los nuevos desafíos que plantea la digitalización”. Incluso la forma en que la gente usa la electricidad está cambiando, ya que los paneles solares domésticos devuelven energía a la red y los propietarios de vehículos eléctricos cargan sus coches en casa, en el trabajo y en cualquier lugar. El drástico aumento de la demanda de energía que sustenta las cargas de trabajo de la IA también ha añadido nuevas variables a la red eléctrica, afirmó Bryan Sacks, director de tecnología

Leer más »

Edificar 3D

Generación de activos 3D escalables y de alta calidad NVIDIA La creación de activos 3D de alta calidad es fundamental para industrias como el diseño de videojuegos, la realidad extendida, la producción cinematográfica y la simulación, donde el contenido 3D debe cumplir con estándares de producción estrictos, como estructuras de malla precisas, texturas de alta resolución y mapas de materiales. Cumplir con estos estándares requiere mucho tiempo y conocimientos especializados, una demanda que ha impulsado la investigación sobre la generación de activos 3D impulsada por IA. Sin embargo, la disponibilidad limitada de activos 3D para el entrenamiento de modelos plantea desafíos, lo que resalta la necesidad de soluciones escalables y eficientes. Edify 3D aborda estos desafíos generando activos 3D detallados y listos para producción en dos minutos, lo que produce mapas UV organizados, texturas 4K y materiales PBR. Mediante el uso de modelos de difusión de múltiples vistas y reconstrucción basada en Transformer, Edify 3D puede sintetizar activos 3D de alta calidad a partir de indicaciones de texto o imágenes de referencia, logrando una eficiencia y escalabilidad superiores. Resultados Edify 3D genera mallas con geometría detallada, texturas nítidas y colores de albedo claros que representan el color base de la superficie. Visualizamos las representaciones PBR, los colores de albedo base y las normales de la superficie. Una mochila completa con espacio para colgar herramientas. Un fonógrafo de madera y oro. Un brazo robótico de fábrica de color naranja. Una armadura de caballero sobre un soporte. Una silla de piloto de nave espacial. Bonita casa isométrica, estilo adobe, color bronce del desierto. Topologías de malla cuádruple Los activos generados también son mallas cuádruples con topologías adaptativas y organizadas, lo que permite una fácil manipulación para edición y renderizado, y se integra perfectamente en flujos de trabajo 3D con alta fidelidad visual y flexibilidad. Aplicación: Generación de escenas 3D Demostramos una aplicación de Edify 3D para generar escenas 3D complejas a partir de indicaciones de texto simples. Aprovechando Edify 3D como una API de generación de activos, nuestro sistema utiliza LLM para definir diseños de escenas, posiciones de objetos y tamaños para composiciones coherentes y realistas. Esto permite crear escenas 3D fácilmente editables que se adaptan a aplicaciones de diseño artístico, modelado 3D y simulaciones de IA incorporadas. Tubería A partir de una descripción de texto, un modelo de difusión de múltiples vistas genera imágenes RGB del objeto especificado desde múltiples puntos de vista. Estas imágenes sirven como entrada para una ControlNet de múltiples vistas, que sintetiza las normales de superficie correspondientes. Luego, un modelo de reconstrucción combina estas imágenes RGB y normales para predecir una representación neuronal en 3D como tokens latentes, seguido de la extracción de isosuperficies y el posprocesamiento de la malla para crear la geometría del objeto. Para mejorar la calidad de la textura, un condicionamiento de ControlNet de escalado ascendente en rasterizaciones de malla produce imágenes RGB de múltiples vistas de alta resolución, que luego se retroproyectan en el mapa de textura. Modelo de difusión de múltiples vistas El proceso de generación de imágenes multivista adapta los modelos de difusión de texto a imagen a modelos de difusión multivista que reconocen la pose, al condicionarlos a las poses de la cámara. Dado un mensaje de texto y la orientación de la cámara, estos modelos sintetizan la apariencia de un objeto desde múltiples perspectivas. Las variantes incluyen un modelo base que genera la apariencia RGB, un modelo ControlNet que produce normales de superficie basados ​​en la síntesis RGB y el texto, y un ControlNet de escalado para una salida de alta resolución condicionada a la textura y las normales de superficie. Basado en el modelo Edify Image, las mejoras a la capa de autoatención permiten la atención entre vistas, mientras que las poses de la cámara codificadas a través de un MLP liviano se integran como incrustaciones de tiempo. Nuestro modelo de difusión de múltiples vistas se escala de manera efectiva, y el entrenamiento en una mayor cantidad de puntos de vista produce imágenes más naturales y consistentes. Durante la inferencia, el modelo puede tomar muestras de una cantidad arbitraria de puntos de vista mientras preserva la consistencia de múltiples vistas, lo que facilita una cobertura integral de objetos y mejora la calidad de las reconstrucciones 3D posteriores. Modelo de reconstrucción La extracción de la estructura 3D de las imágenes, conocida comúnmente como fotogrametría, es fundamental para muchas tareas de reconstrucción 3D. Nuestro enfoque utiliza un modelo basado en Transformer para generar geometría de malla 3D, textura y mapas de materiales a partir de imágenes de múltiples vistas, con una fuerte generalización a objetos invisibles, incluidas las salidas de difusión 2D sintetizadas. El modelo condiciona las imágenes RGB y normales para predecir representaciones de triplano latente, lo que permite la representación de volumen basada en SDF de las propiedades PBR. El SDF neuronal se convierte en una malla 3D a través de la extracción de isosuperficies, con propiedades PBR incorporadas en mapas de textura y materiales. El posprocesamiento incluye retopología de malla cuádruple, mapeo UV y propiedades PBR incorporadas, lo que da como resultado un activo editable y listo para el diseño, adecuado para aplicaciones artísticas. Nuestro modelo de reconstrucción demuestra una escalabilidad eficaz, ya que el rendimiento mejora a medida que aumenta la cantidad de puntos de vista de entrada. La calidad de la reconstrucción también se beneficia de una mayor cantidad de puntos de vista de entrenamiento, lo que mejora aún más la precisión. Además, la calidad de la reconstrucción escala con los tamaños de tokens de tres planos utilizando el mismo modelo, lo que demuestra su adaptabilidad a los recursos computacionales disponibles. Pérdida de albedo por LPIPS Vistas de validación Vistas de entrada 4 4 (diagrama) 8 16 4 0,0732 0,0791 0,0762 0,0768 4 (diagrama) 0,0802 0,0756 0,0779 0,0783 8 0,0691 0,0698 0,0695 0,0699 16 0,0687 0,0689 0,0688 0,0687 Pérdida de material L2 Vistas de validación Vistas de entrada 4 4 (diagrama) 8 16 4 0,0015 0,0020 0,0017 0,0018 4 (diagrama) 0,0024 0,0019 0,0022

Leer más »
Scroll al inicio