El Portal de las Tecnologías para la Innovación

Categoría: La IA aplicada a la Educación

Las nuevas GPU GeForce RTX serie 50 duplican el rendimiento creativo en 3D, video e IA generativa

Anunciada en CES, la serie GeForce RTX 50 presenta FP4 para un potente rendimiento de IA y hasta tres codificadores con soporte para el formato de color 4:2:2; además, las nuevas herramientas de IA mejoran la transmisión en vivo, DLSS 4 impulsa la representación 3D y los microservicios NVIDIA NIM y Blueprints potencian la IA en las PC. Las GPU para computadoras de escritorio y portátiles GeForce RTX serie 50, presentadas hoy en la feria comercial CES, están preparadas para impulsar la próxima era de creación de contenido de IA generativa y agente, ofreciendo nuevas herramientas y capacidades para video, transmisión en vivo, 3D y más. Las GPU GeForce RTX Serie 50, basadas en la arquitectura NVIDIA Blackwell , pueden ejecutar modelos de IA generativos creativos hasta dos veces más rápido en un espacio de memoria más pequeño, en comparación con la generación anterior. Cuentan con codificadores NVIDIA de novena generación para edición de video avanzada y transmisión en vivo, y vienen con NVIDIA DLSS 4 y hasta 32 GB de VRAM para abordar proyectos 3D masivos. Estas GPU vienen con varias actualizaciones de software, incluidos dos nuevos efectos NVIDIA Broadcast impulsados ​​por IA , actualizaciones de RTX Video y RTX Remix , y microservicios NVIDIA NIM : modelos preempaquetados y optimizados diseñados para impulsar los flujos de trabajo de creación de contenido de IA en PC con RTX AI. Creado para la era de la IA generativa La IA generativa puede generar resultados sensacionales para los creadores, pero como los modelos crecen tanto en complejidad como en escala, puede resultar difícil ejecutarla incluso en el hardware más reciente. La serie GeForce RTX 50 agrega compatibilidad con FP4 para ayudar a solucionar este problema. FP4 es un método de cuantificación más bajo, similar a la compresión de archivos, que reduce el tamaño de los modelos. En comparación con FP16 (el método predeterminado que presentan la mayoría de los modelos), FP4 usa menos de la mitad de la memoria y las GPU de la serie 50 brindan un rendimiento más del doble en comparación con la generación anterior. Esto se puede hacer prácticamente sin pérdida de calidad con los métodos de cuantificación avanzados que ofrece NVIDIA TensorRT Model Optimizer . Por ejemplo, el modelo FLUX.1 [dev] de Black Forest Labs en FP16 requiere más de 23 GB de VRAM, lo que significa que solo puede ser compatible con la GeForce RTX 4090 y las GPU profesionales. Con FP4, FLUX.1 [dev] requiere menos de 10 GB, por lo que puede ejecutarse localmente en más GPU GeForce RTX. Con una GeForce RTX 4090 con FP16, el modelo FLUX.1 [dev] puede generar imágenes en 15 segundos con 30 pasos. Con una GeForce RTX 5090 con FP4, las imágenes se pueden generar en poco más de cinco segundos. Un nuevo modelo de NVIDIA AI para la IA generativa guiada en 3D basado en FLUX.1 [dev], que se ofrecerá como un microservicio NVIDIA NIM, ofrece a los artistas un mayor control sobre la generación de imágenes basadas en texto. Con este modelo, los creadores pueden usar objetos 3D simples (creados a mano o generados con IA) y colocarlos en un renderizador 3D como Blender para guiar la generación de imágenes con IA. Luego, un flujo de trabajo preempaquetado impulsado por el microservicio FLUX NIM y ComfyUI puede generar imágenes de alta calidad que coincidan con la composición de la escena 3D. Se espera que el plan NVIDIA para la IA generativa guiada en 3D esté disponible a través de GitHub mediante un instalador de un solo clic en febrero. Stability AI anunció que su modelo Stable Point Aware 3D, o SPAR3D, estará disponible este mes en las PC con RTX AI. Gracias a la aceleración RTX, el nuevo modelo de Stability AI ayudará a transformar el diseño 3D, brindando un control excepcional sobre la creación de contenido 3D al permitir la edición en tiempo real y la capacidad de generar un objeto en menos de un segundo a partir de una sola imagen. Vídeo de calidad profesional para todos Las GPU GeForce RTX serie 50 ofrecen un salto generacional en codificadores y decodificadores NVIDIA con soporte para el formato de color de calidad profesional 4:2:2, multiview-HEVC (MV-HEVC) para video 3D y de realidad virtual (VR), y el nuevo modo AV1 Ultra High Quality. La mayoría de las cámaras de consumo se limitan a la compresión de color 4:2:0, lo que reduce la cantidad de información de color. 4:2:0 suele ser suficiente para la reproducción de vídeo en navegadores, pero no puede proporcionar la profundidad de color necesaria para que los editores de vídeo avanzados realicen la gradación de color de los vídeos. El formato 4:2:2 proporciona el doble de información de color con solo un aumento de 1,3 veces en el tamaño de archivo RAW, lo que ofrece un equilibrio ideal para los flujos de trabajo de edición de vídeo. La decodificación de videos 4:2:2 puede ser un desafío debido al aumento del tamaño de los archivos. Las GPU GeForce RTX Serie 50 incluyen compatibilidad con hardware 4:2:2 que puede decodificar hasta ocho veces más fuentes de video 4K a 60 cuadros por segundo (fps) por decodificador, lo que permite una edición de video fluida con múltiples cámaras. La GPU GeForce RTX 5090 está equipada con tres codificadores y dos decodificadores, la GPU GeForce RTX 5080 incluye dos codificadores y dos decodificadores, las GPU 5070 Ti tienen dos codificadores con un solo decodificador y la GPU GeForce RTX 5070 incluye un solo codificador y decodificador. Estas configuraciones de múltiples codificadores y decodificadores, combinadas con GPU más rápidas, permiten que la GeForce RTX 5090 exporte video un 60% más rápido que la GeForce RTX 4090 y a una velocidad 4 veces mayor que la GeForce RTX 3090. Las GPU GeForce RTX Serie 50 también cuentan con el codificador de video NVIDIA de novena generación, NVENC, que ofrece una mejora del 5 % en la calidad de video en la codificación HEVC y AV1 (BD-BR), así como un nuevo modo AV1 Ultra Quality que logra un 5 % más de compresión

Leer más »

Cuatro formas en las que la inteligencia artificial está preparada para transformar la medicina

Hoy en día, la IA no está reemplazando a los especialistas en imágenes, pero su uso está llevando a los proveedores de atención médica a reinventar el campo. El radiólogo estaba muerto. O al menos eso es lo que los expertos en inteligencia artificial (IA) profetizaron en 2016 cuando dijeron que la IA superaría a los radiólogos dentro de una década. Hoy en día, la IA no está reemplazando a los especialistas en imágenes, pero su uso está llevando a los proveedores de atención médica a reinventar el campo. Es por eso que la UC San Francisco fue una de las primeras universidades de EE. UU. en combinar la IA y el aprendizaje automático con las imágenes médicas en la investigación y la educación al abrir su Centro de Imágenes Inteligentes . Eche un vistazo a cómo los investigadores de la UCSF están siendo pioneros en soluciones de inteligencia artificial centradas en el ser humano para algunos de los mayores desafíos de la medicina. Detectar enfermedades de forma temprana Decenas de miles de estadounidenses sufren neumotórax, un tipo de colapso pulmonar, cada año. La afección es causada por un traumatismo o una enfermedad pulmonar, y los casos graves pueden ser mortales si se diagnostican tarde o no se tratan. El problema: Este tipo de colapso pulmonar es difícil de identificar: la enfermedad puede imitar a otras tanto en los síntomas como en las radiografías, en las que sólo pistas sutiles pueden indicar su presencia. Mientras tanto, los radiólogos deben interpretar cientos de imágenes diariamente y algunos hospitales no cuentan con radiólogos las 24 horas. La solución: Los investigadores de la UCSF crearon el primer programa de IA en la cabecera del paciente para ayudar a señalar posibles casos a los radiólogos. En 2019, la herramienta fue la primera innovación de IA de este tipo en obtener la licencia de la Administración de Alimentos y Medicamentos de los Estados Unidos. Hoy en día, se utiliza en miles de máquinas de GE Healthcare en todo el mundo. ¿Cómo lo hicieron? Los investigadores del Departamento de Radiología e Imágenes Biomédicas crearon una base de datos de miles de radiografías de tórax anónimas. Algunas de estas imágenes mostraban casos de  colapso pulmonar  y otras no. A continuación, los investigadores entrenaron la herramienta de inteligencia artificial en esta base de datos antes de probarla en miles de otras imágenes para asegurarse de que pudiera señalar los casos potenciales con precisión. El detector de inteligencia artificial funciona con máquinas de rayos X portátiles, por lo que los médicos pueden usarlo directamente al lado de la cama del paciente sin realizar grandes inversiones en infraestructura. «Considero que se trata de un control de seguridad adicional que puede permitir realizar diagnósticos y brindar atención al paciente más rápidamente», explicó el presidente asociado de Informática Traslacional  , el Dr.  John Mongan , quien co-desarrolló el algoritmo de IA con el profesor de Radiología, el Dr. Andrew Taylor . Mongan también es director del Centro de Imágenes Inteligentes. Mejore la calidad de la imagen para diagnosticar mejor las lesiones cerebrales traumáticas La resonancia magnética es especialmente útil para estudiar los tejidos blandos que forman el hígado, el corazón y el cerebro. A diferencia de los rayos X, la resonancia magnética puede producir imágenes muy detalladas de estos órganos y, en el caso del cerebro, ayuda a los médicos a detectar tumores, signos sutiles de accidentes cerebrovasculares y cambios a lo largo del tiempo. El problema: La mayoría de las resonancias magnéticas en los EE. UU. se realizan con sistemas de resonancia magnética de 1,5 T (Tesla) o 3 T de menor resolución que pueden pasar por alto los signos y síntomas de afecciones como la esclerosis múltiple y la lesión cerebral traumática. Las máquinas de 7 T, más potentes y que producen imágenes de mayor resolución, podrían ayudar, pero su alto costo es la razón por la que solo se utilizaban unas 110 en todo el mundo en 2022. La solución: El profesor adjunto de Neurología de la UCSF, Reza Abbasi-Asl, Ph.D., dirigió un equipo que utilizó una forma de IA para mejorar la resolución de las imágenes de resonancia magnética estándar que mostraban lesiones cerebrales traumáticas. La técnica mejoró drásticamente las imágenes de resonancia magnética de 3T, colocándolas aproximadamente a la par de las imágenes de 7T, al tiempo que superaba a otros tipos de imágenes de resonancia magnética mejoradas con IA. Estos resultados podrían, algún día, ayudar a mejorar la atención a quienes sufren lesiones cerebrales traumáticas y otras afecciones neurológicas. ¿Cómo lo hicieron? Abbasi-Asl y su equipo construyeron pequeñas bases de datos anónimas de pares de imágenes por resonancia magnética de lesiones cerebrales traumáticas. Cada par contenía imágenes por resonancia magnética de la misma lesión: una versión de 3 T de baja resolución y otra de 7 T de alta resolución. El equipo creó modelos de aprendizaje automático que conectan bits de información basados ​​en patrones de datos para mejorar las imágenes de baja resolución antes de compararlas con sus pares de alta resolución. Los resultados de estos modelos identificaron patrones y características que eran difíciles de detectar para el ojo humano en imágenes por resonancia magnética de 3T, y los utilizaron para comprender cómo mejorar la calidad de la imagen, potenciando detalles específicos y minimizando el “ruido”, como las motas granulosas. “Nuestros hallazgos resaltan la promesa de la IA y el aprendizaje automático para mejorar la calidad de las imágenes médicas capturadas por sistemas de imágenes menos avanzados”, afirmó Abbasi-Asl. Detecta problemas cardíacos sin pruebas invasivas Los angiogramas como éste, algún día podrían usarse para diagnosticar problemas cardíacos más graves sin necesidad de realizar pruebas adicionales riesgosas. La enfermedad de las arterias coronarias es una de las principales causas de muerte de adultos en todo el mundo. Esta enfermedad, causada por la acumulación de depósitos grasos en las arterias, es una causa común de ataques cardíacos. Los médicos suelen utilizar una prueba llamada angiografía coronaria para diagnosticar la enfermedad. Como parte de la angiografía, los médicos inyectan un tinte especial en los vasos

Leer más »

Amplíe y potencie la creatividad con los nuevos dispositivos Lenovo Yoga e IdeaPad con inteligencia artificial

Los anuncios del CES 2025 muestran cómo la tecnología avanzada puede permitir a los creadores, estudiantes y profesionales superar los límites de lo posible. Las Vegas, EE. UU. – 7 de enero de 2025 – Hoy, Lenovo anunció una línea de nuevos dispositivos y software Lenovo Yoga™ e IdeaPad™ en CES® 2025 que están diseñados para transformar la forma en que la tecnología más inteligente se adapta y optimiza las tareas creativas y de productividad. Las computadoras portátiles Lenovo Yoga cuentan con formatos innovadores, innovaciones nunca antes vistas, ecosistemas intuitivos e implementaciones de inteligencia artificial funcionales diseñadas para canalizar las pasiones creativas de los usuarios y maximizar su potencial. Encarnando esta búsqueda se encuentran: Lenovo también anunció las últimas laptops convertibles 2 en 1 Yoga 7i con opciones versátiles de 14 y 16 pulgadas, una nueva IdeaPad Pro 5i con pantalla OLED opcional y otras dos tabletas: Idea Tab Pro y Lenovo Tab . Además, Lenovo presentó dos nuevas computadoras de escritorio, la primera computadora de escritorio para consumidores del mundo impulsada por el procesador Qualcomm Snapdragon ® X Plus de 8 núcleos 3 : la IdeaCentre Mini x (1L, 10) , y la IdeaCentre Tower (17L, 10) que cuenta con los últimos procesadores Intel Core Ultra. Por último, Lenovo presentó dos innovadoras pruebas de concepto: la pantalla con IA de Lenovo gira, se levanta y se inclina automáticamente según los movimientos del usuario, y el Lenovo AI Travel Set ofrece seguimiento y análisis de datos personalizados mientras se está en movimiento. “En Lenovo, estamos redefiniendo la creatividad y la productividad con dispositivos que aprovechan el poder de la IA para mejorar la experiencia de cada usuario. Nuestros nuevos dispositivos Yoga e IdeaPad muestran cómo la tecnología avanzada puede adaptarse a las necesidades individuales, lo que permite a los creadores, estudiantes y profesionales superar los límites de lo posible”, afirmó Jun Ouyang, vicepresidente sénior y gerente general del segmento de consumo del grupo de dispositivos inteligentes de Lenovo.   “Con innovaciones como la relación pantalla-cuerpo sin precedentes del 98 % de la Yoga Slim 9i y las experiencias mejoradas con Lenovo Aura Edition, estamos orgullosos de ofrecer soluciones que permitan a los usuarios trabajar de forma más inteligente, crear libremente y adoptar una nueva era de tecnología transformadora”. Lenovo Yoga Slim 9i (14”, 10): creatividad sin límites Crea sin fronteras con Lenovo Yoga Slim 9i (14”, 10) : la primera computadora portátil CUD (cámara debajo de la pantalla) disponible en el mundo 1 mejorada con la tecnología de procesamiento de imágenes Visionary.ai, lo que permite un bisel extremadamente fino que alberga una pantalla OLED PureSight Pro 4K de 14” 120Hz 4 . Ocultar la cámara debajo del panel de la pantalla hasta que se necesite significa una pantalla pura e ininterrumpida sin muesca para la cámara, lo que convierte a Lenovo Yoga Slim 9i (14”, 10) en la primera computadora portátil del mundo con una relación pantalla-cuerpo del 98 % 1 , lo que da la impresión de una pantalla más grande que la que se ve habitualmente en las computadoras portátiles de 14”. La pantalla PureSight Pro cuenta con compatibilidad con Delta E <1, 100 % sRGB, P3 y Adobe RGB para una precisión de color superior que garantiza que cada tono sea perfecto sin importar dónde se publique el arte y está certificada por TÜV Low Blue Light y Eyesafe® Display, por lo que crear durante más tiempo es agradable para la vista. La cubierta de la pantalla está protegida por un vidrio resistente a los impactos, diseñado para soportar presión, caídas y rayones, al mismo tiempo que mantiene la computadora portátil segura y hermosa con su brillo 3D tipo ojo de gato. La Lenovo Yoga Slim 9i (14”, 10) es una PC con Windows 11 Copilot+ equipada con un procesador Intel Core Ultra 7 con una NPU de 48 TOPS. Lenovo AI Core utiliza la NPU para potenciar las aplicaciones creativas y ajustar dinámicamente las configuraciones con administración de energía adaptativa en tiempo real. Equipada con una batería de 75 WHr y un par de puertos Thunderbolt™ 4, esta Lenovo Yoga Slim 9i (14”, 10) es una computadora portátil sumamente portátil de 2,62 lb (1,19 kg) que ofrece un rendimiento potente, hasta 17 horas de duración de la batería5 y eficiencia acelerada por IA para que los creadores puedan permanecer en su estado de flujo creativo sin interrupciones durante más tiempo y pasar menos tiempo compilando, rasterizando y otras tareas de flujo de trabajo que consumen mucho tiempo. Lenovo Yoga Book 9i (14”, 10): un estudio creativo portátil Más delgada, liviana y con una batería más grande este año, la Lenovo Yoga Book 9i (14”, 10) es una laptop convertible de doble pantalla, diseñada para ser una potencia creativa y productiva que se adapta fácilmente a cualquier entorno y caso de uso. Las dos pantallas táctiles OLED PureSight de 14” tienen soporte 100% DCI-P3, VRR 4 de 120 Hz (frecuencia de actualización variable) y brillo de 500 nits y cuentan con una relación de aspecto activa del 94 % (), un aumento del 2,1 % con respecto a la última generación . Las pantallas están unidas por una barra de sonido giratoria de 360 ​​grados con cuatro parlantes Dolby™ Atmos para un sonido más completo y graves más profundos. El diseño de doble pantalla permite casos de uso únicos, como usar una pantalla como lienzo mientras la otra se usa como un bloc de dibujo o para ejecutar un software de generación de imágenes de IA que se puede arrastrar al lienzo de manera rápida y sencilla. La productividad y la comunicación también se mejoran con el diseño de doble pantalla: realice una videollamada en una pantalla mientras usa la otra como un bloc de notas o para realizar ediciones en vivo de las obras de arte. Use el teclado Bluetooth® incluido o el teclado en pantalla, el lápiz Yoga Pen y el Folio incluido que también funciona como soporte para canalizar la creatividad de manera ilimitada. Las funciones de inteligencia artificial de la Yoga Book 9i (14”, 10) optimizan los flujos de trabajo y aumentan la duración de la batería. Las funciones impulsadas por inteligencia artificial incluyen: El dispositivo también admite Air Gestures , gestos con las manos que el usuario puede usar para mover ventanas entre pantallas, desplazarse por páginas y

Leer más »

Un sistema de IA puede visualizar un mundo entero a partir de una sola imagen

Un modelo de IA creado por científicos informáticos de Johns Hopkins imagina escenarios detallados basados ​​en una sola imagen para tomar decisiones informadas. Los científicos informáticos de Johns Hopkins han creado un sistema de inteligencia artificial capaz de “imaginar” su entorno sin tener que explorarlo físicamente, acercando la IA al razonamiento humano. El nuevo sistema, llamado Generative World Explorer o GenEx, necesita solamente una imagen fija para crear un mundo entero, lo que le da una ventaja significativa sobre los sistemas anteriores que requerían que un robot o agente se moviera físicamente a través de una escena para mapear el entorno circundante, lo que puede ser costoso, inseguro y llevar mucho tiempo. Los resultados del equipo aparecen en el archivo de acceso abierto arXiv.org . Puntos clave «Supongamos que estás en un lugar en el que nunca has estado antes: como ser humano, utilizas señales ambientales, experiencias pasadas y tu conocimiento del mundo para imaginar lo que podría estar a la vuelta de la esquina», dice el autor principal Alan Yuille , profesor distinguido de Bloomberg de Ciencias Cognitivas Computacionales en Johns Hopkins. «GenEx ‘imagina’ y razona sobre su entorno de la misma manera que lo hacen los humanos, tomando decisiones informadas sobre los pasos que debe dar a continuación sin tener que comprobar físicamente su entorno primero». GenEx utiliza un conocimiento sofisticado del mundo para generar múltiples posibilidades de lo que podría existir más allá de la imagen visible, asignando diferentes probabilidades a cada escenario en lugar de hacer una única suposición definitiva. Esta capacidad de mapear mentalmente el entorno a partir de datos visuales limitados es crucial para muchas aplicaciones del mundo real, incluso en escenarios como la respuesta a desastres. Por ejemplo, los equipos de rescate podrían usar una sola imagen de vigilancia para ayudar a explorar sitios peligrosos desde lejos sin riesgo para los humanos o el equipo valioso. «Esta tecnología también puede mejorar las aplicaciones de navegación, ayudar en el entrenamiento de robots autónomos y potenciar experiencias de juegos y realidad virtual inmersivas», afirma el autor principal Jieneng Chen , estudiante de doctorado en informática. Videocrédito: Centro de procesamiento del lenguaje y del habla de la JHU A partir de una única imagen, GenEx genera un mundo virtual sintético y realista en el que los agentes de IA pueden navegar y tomar decisiones mediante el razonamiento y la planificación. El agente solo necesita una vista de su escena actual, una dirección de movimiento y la distancia que debe recorrer. Como se muestra en la animación a continuación, el agente puede avanzar, cambiar de dirección y explorar su entorno con una flexibilidad ilimitada. Título de la imagen:Representación digital de una IA que navega en un mundo virtual sintético Imagencrédito:Cortesía de la Escuela de Ingeniería Whiting Y a diferencia de las aplicaciones de exploración de mundos oníricos con IA que ahora están ganando popularidad (como Oasis , un simulador de Minecraft generado por IA), los entornos de GenEx son consistentes. Esto se debe a que el modelo se entrenó con datos a gran escala con una técnica llamada «aprendizaje de consistencia esférica», que garantiza que sus predicciones de nuevos entornos encajen dentro de una esfera panorámica. «Para medir esto, hacemos que GenEx recorra una ruta cerrada seleccionada al azar y regrese al origen en un bucle fijo», explica Chen. «Nuestro objetivo era lograr que las vistas de inicio y fin fueran idénticas, garantizando así la coherencia en el modelado del mundo de GenEx». Si bien esta consistencia no es exclusiva de GenEx, el equipo de investigación dice que es el primer y único explorador mundial generativo que permite a los agentes de IA tomar decisiones lógicas basadas en nuevas observaciones sobre el mundo que están explorando en un proceso que los científicos informáticos llaman «política aumentada por la imaginación». Por ejemplo, supongamos que usted está conduciendo y la luz de adelante está en verde, pero se da cuenta de que el taxi que va delante de usted se ha detenido de forma abrupta e inesperada. Salir del coche para investigar sería peligroso, pero si imagina la escena desde la perspectiva del taxista, puede pensar en una posible razón para su parada repentina: tal vez se esté acercando un vehículo de emergencia y usted también debería ceder el paso. Título de la imagen:Representación de un modelo de IA que toma una decisión basada en la observación Imagencrédito:Cortesía de la Escuela de Ingeniería Whiting «Si bien los humanos pueden usar otras señales, como las sirenas, para identificar este tipo de situaciones, los modelos de IA actuales desarrollados para la conducción autónoma y otras tareas similares solo tienen acceso a imágenes y lenguaje, lo que hace necesaria la exploración imaginativa en ausencia de otra información multimodal», afirma Chen. El equipo de Hopkins evaluó la consistencia y la calidad de los resultados de GenEx en comparación con los parámetros de generación de video estándar. Los investigadores también realizaron experimentos con usuarios humanos para determinar si GenEx podía aumentar sus capacidades lógicas y de planificación y de qué manera, y descubrieron que los usuarios tomaban decisiones más precisas e informadas cuando tenían acceso a las capacidades de exploración del modelo. «Nuestros resultados experimentales demuestran que GenEx puede generar observaciones consistentes y de alta calidad durante una exploración prolongada de un gran mundo físico virtual», afirma Chen. «Además, las creencias actualizadas con las observaciones generadas pueden informar a un modelo de toma de decisiones existente, como un agente de modelo de lenguaje de gran tamaño, e incluso a usuarios humanos para hacer mejores planes». Junto con Tianmin Shu y Daniel Khashabi , ambos profesores adjuntos de informática, y el estudiante de grado TaiMing Lu , Yuille y Chen incorporarán datos de sensores del mundo real y escenas dinámicas para escenarios de planificación más realistas e inmersivos. Rama Chellappa, profesor distinguido de Bloomberg de Visión artificial e inteligencia artificial, y Cheng Peng , profesor adjunto de investigación en el Instituto de Matemáticas para la Ciencia de Datos , ayudarán a seleccionar los datos de sensores del mundo real. El proyecto interdisciplinario, que involucra visión por computadora, procesamiento del lenguaje natural y ciencia cognitiva, marca un logro

Leer más »

Edificar 3D

Generación de activos 3D escalables y de alta calidad NVIDIA La creación de activos 3D de alta calidad es fundamental para industrias como el diseño de videojuegos, la realidad extendida, la producción cinematográfica y la simulación, donde el contenido 3D debe cumplir con estándares de producción estrictos, como estructuras de malla precisas, texturas de alta resolución y mapas de materiales. Cumplir con estos estándares requiere mucho tiempo y conocimientos especializados, una demanda que ha impulsado la investigación sobre la generación de activos 3D impulsada por IA. Sin embargo, la disponibilidad limitada de activos 3D para el entrenamiento de modelos plantea desafíos, lo que resalta la necesidad de soluciones escalables y eficientes. Edify 3D aborda estos desafíos generando activos 3D detallados y listos para producción en dos minutos, lo que produce mapas UV organizados, texturas 4K y materiales PBR. Mediante el uso de modelos de difusión de múltiples vistas y reconstrucción basada en Transformer, Edify 3D puede sintetizar activos 3D de alta calidad a partir de indicaciones de texto o imágenes de referencia, logrando una eficiencia y escalabilidad superiores. Resultados Edify 3D genera mallas con geometría detallada, texturas nítidas y colores de albedo claros que representan el color base de la superficie. Visualizamos las representaciones PBR, los colores de albedo base y las normales de la superficie. Una mochila completa con espacio para colgar herramientas. Un fonógrafo de madera y oro. Un brazo robótico de fábrica de color naranja. Una armadura de caballero sobre un soporte. Una silla de piloto de nave espacial. Bonita casa isométrica, estilo adobe, color bronce del desierto. Topologías de malla cuádruple Los activos generados también son mallas cuádruples con topologías adaptativas y organizadas, lo que permite una fácil manipulación para edición y renderizado, y se integra perfectamente en flujos de trabajo 3D con alta fidelidad visual y flexibilidad. Aplicación: Generación de escenas 3D Demostramos una aplicación de Edify 3D para generar escenas 3D complejas a partir de indicaciones de texto simples. Aprovechando Edify 3D como una API de generación de activos, nuestro sistema utiliza LLM para definir diseños de escenas, posiciones de objetos y tamaños para composiciones coherentes y realistas. Esto permite crear escenas 3D fácilmente editables que se adaptan a aplicaciones de diseño artístico, modelado 3D y simulaciones de IA incorporadas. Tubería A partir de una descripción de texto, un modelo de difusión de múltiples vistas genera imágenes RGB del objeto especificado desde múltiples puntos de vista. Estas imágenes sirven como entrada para una ControlNet de múltiples vistas, que sintetiza las normales de superficie correspondientes. Luego, un modelo de reconstrucción combina estas imágenes RGB y normales para predecir una representación neuronal en 3D como tokens latentes, seguido de la extracción de isosuperficies y el posprocesamiento de la malla para crear la geometría del objeto. Para mejorar la calidad de la textura, un condicionamiento de ControlNet de escalado ascendente en rasterizaciones de malla produce imágenes RGB de múltiples vistas de alta resolución, que luego se retroproyectan en el mapa de textura. Modelo de difusión de múltiples vistas El proceso de generación de imágenes multivista adapta los modelos de difusión de texto a imagen a modelos de difusión multivista que reconocen la pose, al condicionarlos a las poses de la cámara. Dado un mensaje de texto y la orientación de la cámara, estos modelos sintetizan la apariencia de un objeto desde múltiples perspectivas. Las variantes incluyen un modelo base que genera la apariencia RGB, un modelo ControlNet que produce normales de superficie basados ​​en la síntesis RGB y el texto, y un ControlNet de escalado para una salida de alta resolución condicionada a la textura y las normales de superficie. Basado en el modelo Edify Image, las mejoras a la capa de autoatención permiten la atención entre vistas, mientras que las poses de la cámara codificadas a través de un MLP liviano se integran como incrustaciones de tiempo. Nuestro modelo de difusión de múltiples vistas se escala de manera efectiva, y el entrenamiento en una mayor cantidad de puntos de vista produce imágenes más naturales y consistentes. Durante la inferencia, el modelo puede tomar muestras de una cantidad arbitraria de puntos de vista mientras preserva la consistencia de múltiples vistas, lo que facilita una cobertura integral de objetos y mejora la calidad de las reconstrucciones 3D posteriores. Modelo de reconstrucción La extracción de la estructura 3D de las imágenes, conocida comúnmente como fotogrametría, es fundamental para muchas tareas de reconstrucción 3D. Nuestro enfoque utiliza un modelo basado en Transformer para generar geometría de malla 3D, textura y mapas de materiales a partir de imágenes de múltiples vistas, con una fuerte generalización a objetos invisibles, incluidas las salidas de difusión 2D sintetizadas. El modelo condiciona las imágenes RGB y normales para predecir representaciones de triplano latente, lo que permite la representación de volumen basada en SDF de las propiedades PBR. El SDF neuronal se convierte en una malla 3D a través de la extracción de isosuperficies, con propiedades PBR incorporadas en mapas de textura y materiales. El posprocesamiento incluye retopología de malla cuádruple, mapeo UV y propiedades PBR incorporadas, lo que da como resultado un activo editable y listo para el diseño, adecuado para aplicaciones artísticas. Nuestro modelo de reconstrucción demuestra una escalabilidad eficaz, ya que el rendimiento mejora a medida que aumenta la cantidad de puntos de vista de entrada. La calidad de la reconstrucción también se beneficia de una mayor cantidad de puntos de vista de entrenamiento, lo que mejora aún más la precisión. Además, la calidad de la reconstrucción escala con los tamaños de tokens de tres planos utilizando el mismo modelo, lo que demuestra su adaptabilidad a los recursos computacionales disponibles. Pérdida de albedo por LPIPS Vistas de validación Vistas de entrada 4 4 (diagrama) 8 16 4 0,0732 0,0791 0,0762 0,0768 4 (diagrama) 0,0802 0,0756 0,0779 0,0783 8 0,0691 0,0698 0,0695 0,0699 16 0,0687 0,0689 0,0688 0,0687 Pérdida de material L2 Vistas de validación Vistas de entrada 4 4 (diagrama) 8 16 4 0,0015 0,0020 0,0017 0,0018 4 (diagrama) 0,0024 0,0019 0,0022

Leer más »

Aceleración del análisis de GPU con RAPIDS y Ray

RAPIDS es un conjunto de bibliotecas de inteligencia artificial y ciencia de datos aceleradas por GPU de código abierto que cuentan con un buen soporte para la escalabilidad con motores distribuidos como Spark y Dask .   Ray es un popular marco de Python distribuido de código abierto que se usa comúnmente para escalar aplicaciones de inteligencia artificial y aprendizaje automático (ML). Ray se destaca particularmente en la simplificación y escalabilidad de los procesos de entrenamiento e inferencia y puede apuntar fácilmente a dispositivos tanto de CPU como de GPU.  En esta publicación, exploramos cómo se pueden usar Ray y RAPIDS para acelerar nuevos procesos de análisis. Actores de Ray Si bien Ray ofrece abstracciones de alto nivel para entrenar y ofrecer modelos de ML, experimentaremos con el núcleo de Ray , específicamente con los actores de Ray . Los actores son trabajadores con estado, lo que significa que cada trabajador puede almacenar, administrar y modificar cualquier dato almacenado. Por ejemplo, si desea utilizar cuDF para cargar algunos datos en la GPU, puede hacer lo siguiente: @ray.remote(num_gpus=1)classcuDFActor:    def__init__(self):        …    defread_parquet(self, filepath: str, columns: list=None) -> cudf.DataFrame:        returncudf.read_parquet(filepath, columns=columns)# Start 4 Workers pool_size =4actor_pool =[cuDFActor.remote() fori inrange(pool_size)] Este ejemplo utiliza Ray para crear cuatro actores en cuatro GPU y cuDF para acelerar la entrada y salida. Este ejemplo se puede utilizar con otras optimizaciones de RAPIDS (configuración de memoria con RMM) o rutinas ETL comunes como funciones de filtrado/personalizadas y definidas por el usuario: ejemplo de cudf ray-actor . Los actores Ray son increíblemente generales y se pueden aprovechar rápidamente para paralelizar bibliotecas de Python y también se pueden integrar fácilmente con algoritmos distribuidos existentes. Además, con Ray, puedes escalar fácilmente este trabajo en múltiples GPU y múltiples nodos.   NCCL y cuGraph Ya se han creado muchas implementaciones de algoritmos populares de RAPIDS para computación acelerada distribuida en GPU en C++. Estas implementaciones están altamente optimizadas y se basan en comunicaciones aceleradas con NCCL y primitivas y solucionadores que se encuentran en RAFT (distancias por pares, agrupamiento de k-medias, solucionadores iterativos y más). Las primitivas de RAFT se utilizan en varias bibliotecas de RAPIDS, incluidas cuML y cuGraph. Por ejemplo, la implementación de componentes débilmente conectados (WCC) de cuGraph se basa en gran medida en la canalización de datos ya limpios lo más rápido posible desde el disco a la implementación de CUDA C++ de nivel inferior. WCC es un buen objetivo para demostrar cómo los desarrolladores pueden usar RAPIDS (cuGraph) y Ray juntos para obtener acceso a algoritmos potentes, distribuidos y acelerados.  Para implementar el CMI se requiere lo siguiente: Se ha demostrado el primer paso. Y aunque Ray tiene ganchos NCCL , dependeremos de las interfaces NCCL de RAFT debido a la fuerte dependencia de cuGraph para administrar las comunicaciones. A continuación, se resumen los requisitos que se acaban de describir: classRAFTActor:    def__init__(self, index, pool_size, session_id):        …    defbroadcast_root_unique_id(self):        # broadcast root/rank-0 to all actors    def_setup_nccl(self):        # start NCCL with identified rank-0 actor    def_setup_raft(self):        # configure RAFT and NCCL together    defset_root_unique_id(self, root_uniqueId):        # To be set rank-0 for all actors@ray.remote(num_gpus=1)classWCCActor(RAFTActor):    def__init__(self, index, pool_size, session_id):        super().__init__(index=index, pool_size=pool_size, session_id=session_id, actor_name_prefix=»WCC»)    defweakly_connected_components(self, df):        «»»        1. Each actor loads in a chunk        2. Each actor has a NCCL/RAFT Handle        3. Pass each chunk and handle to MGGraph        «»»        src_array =df[‘src’]        dst_array =df[‘dst’]        weights =df[‘wgt’]        # Configure and setup a Multi-GPU cuGraph Object with         # edge list data and NCCL     graph =MGGraph(src_array, dst_array, weights, …)             # Execute WCC     weakly_connected_components(graph)# Initialize Ray and Run WCC algorithm Esto cubre las dos clases necesarias para ejecutar los componentes débilmente conectados de cuGraph. Para obtener más información, consulte una implementación de componentes débilmente conectados . Gran parte del trabajo consiste en configurar NCCL/RAFT. Este mismo patrón funciona para otras bibliotecas como cuML, como se demuestra con la implementación de k-means de cuML . Conclusión Ray proporciona una interfaz de actor expresable y escalable que se puede aprovechar fácilmente con RAPIDS. Hemos explorado cómo conectar actores Ray para usar implementaciones optimizadas de CUDA C++ y NCCL. Esta exploración se ha centrado principalmente en la integración de nivel 1 de actores Ray como lanzadores.  Para obtener más información sobre el procesamiento de datos acelerado por GPU, únase a los más de 3500 miembros de la comunidad RAPIDS Slack . Recursos relacionados NVIDIA Blog. P. E., A. D. y B. Z. Traducido al español

Leer más »

Potenciando el potencial: el papel de la IA en la inclusión de la discapacidad

Cada año, el 3 de diciembre , celebramos el Día Internacional de las Personas con Discapacidad. Este año, nos complace compartir cómo la IA es una herramienta poderosa para el empoderamiento, la accesibilidad y la independencia, y compartir los resultados de un nuevo estudio colaborativo con EY que exploró el impacto de Microsoft 365 Copilot para las personas neurodiversas y las personas con discapacidad en el lugar de trabajo. A nivel mundial, 1 de cada 5 personas se identifica como neurodivergente [1] , un término general que se refiere a las variaciones en la forma en que el cerebro procesa la información. La neurodiversidad incluye afecciones como el autismo, el TDAH (trastorno por déficit de atención e hiperactividad), la dislexia, la dispraxia, la discalculia, la disgrafía y el síndrome de Tourette. Con el 53% de la Generación Z identificándose como neurodivergente, una tendencia que se prevé que se intensifique con la Generación Alfa, llegando hasta el 70% o más, necesitamos tecnologías para apoyar y empoderar más a esta fuerza laboral [2] .   El estudio revela conocimientos sobre cómo las herramientas impulsadas por IA, como Microsoft 365 Copilot, están transformando las experiencias de las personas neurodiversas en el lugar de trabajo.  Rompiendo barreras, creando oportunidades En el estudio participaron más de 300 empleados que se identificaron como neurodivergentes o discapacitados de 17 organizaciones de siete sectores, la mayoría de los participantes con sede en Europa. Los resultados identifican cómo Copilot está derribando barreras para los empleados neurodivergentes y discapacitados. Como herramienta que puede mejorar la comunicación, la memoria y la concentración, Copilot empodera a los empleados para que participen plenamente y prosperen en sus funciones. Esto puede ayudar a crear nuevas oportunidades de crecimiento individual y fomentar un entorno de trabajo más inclusivo y productivo.  Los hallazgos clave resaltan varias áreas críticas de impacto:  Un compromiso con la mejora continua Este estudio forma parte de nuestro trabajo continuo para aumentar la comprensión de cómo Copilot y otras herramientas de Microsoft pueden mejorar el lugar de trabajo. Estamos comprometidos con el diálogo continuo con la comunidad neurodivergente y con discapacidades, con la comprensión de las necesidades y con la evolución de nuestras tecnologías para empoderar aún más a todos en el lugar de trabajo. Al centrarnos en el increíble potencial humano y en lo que las personas pueden lograr con las herramientas adecuadas, nuestro objetivo es crear un entorno en el que todos puedan prosperar.   Nuestro viaje está guiado por un principio simple pero poderoso: la tecnología debe empoderar a todos.  Al conmemorar el Día Internacional de las Personas con Discapacidad, celebremos los avances, reconozcamos el trabajo que queda por delante y reafirmemos nuestro compromiso de crear un mundo más accesible.  Lea el estudio completo de EY: GenAI para accesibilidad: más humano, no menos.  Microsoft Blog. N. B. Traducido al español

Leer más »

El equipo de Chen Yuqian de la Escuela de Graduados de Shenzhen publicó un artículo de revisión centrado en la inteligencia artificial que potencia el desarrollo innovador de la medicina tradicional china.

Recientemente, Chen Yuqian, director del Centro de Plataforma AI4S de la Escuela de Ingeniería de la Información de la Escuela de Graduados de Shenzhen de la Universidad de Pekín, y Chen Yuqian, investigador conjunto de la Escuela de Biología Química y Biotecnología, publicaron un artículo de revisión centrado en el tema de la tecnología artificial. inteligencia (IA) que potencia la investigación de la medicina tradicional china (MTC). Resume el proceso de establecimiento, mantenimiento y actualización de la base de datos de medicina tradicional china (TCMBank) más grande del mundo durante las últimas dos décadas y analiza en profundidad la aplicación integrada de la MTC y la IA en la medicina tradicional china. múltiples campos de investigación, incluida la detección de medicinas herbarias, el descubrimiento de nuevos fármacos, los principios de diagnóstico y tratamiento, los mecanismos farmacológicos y la farmacología en red, etc. Esta revisión también explora en detalle el proceso de la IA que revela los ingredientes activos y los mecanismos de acción de las fórmulas complejas de la medicina tradicional china a través de la extracción de datos, el reconocimiento de patrones y el análisis predictivo. La combinación de IA y MTC no sólo ayuda a las personas a comprender el conocimiento de la medicina tradicional china desde una nueva perspectiva, sino que también abre nuevos métodos de investigación y estrategias de tratamiento. Los resultados se publicaron en Chemical Science en septiembre de 2024. Los primeros autores son Song Zhilin, estudiante de doctorado en la Escuela de Biología Química y Biotecnología de la Universidad de Pekín, y Chen Guanxing, estudiante de doctorado en la Escuela de Ingeniería Inteligente, Sun Yat- Sen University El autor correspondiente es Chen Yuqian Otros trabajos relacionados también incluyen publicaciones en Ciencias Químicas y Transducción de señales y terapia dirigida (STTT, IF = 40,8) en 2023 . La medicina tradicional china es una fuente importante de productos naturales. De 1981 a 2019, más del 60 % de los medicamentos de molécula pequeña aprobados por la FDA se derivaron directa o indirectamente de productos naturales. Además, la MTC ofrece una variedad de opciones de tratamiento basadas en las necesidades y preferencias específicas de los pacientes. En los últimos años, el desarrollo de la tecnología de inteligencia artificial (IA) ha aportado un gran potencial a la investigación de la MTC. Al acelerar el descubrimiento de fármacos, optimizar las formulaciones y promover la modernización de la medicina tradicional china, la tecnología de inteligencia artificial puede garantizar que la medicina tradicional china se desarrolle al ritmo de los últimos avances científicos y, al mismo tiempo, conserve sus raíces tradicionales. Actualmente, en la investigación de tratamientos clínicos en hospitales de medicina tradicional china, la introducción de la IA no solo mejora la precisión del diagnóstico, sino que también promueve el desarrollo de la medicina personalizada, haciendo que la investigación de la MTC sea más eficiente y precisa. El análisis basado en inteligencia artificial de los datos químicos de la medicina tradicional china promueve la identificación de componentes químicos, el descubrimiento de fármacos, el tratamiento personalizado y la elucidación de los efectos farmacológicos, y promueve la modernización y el desarrollo sostenible de la medicina tradicional china. En la actualidad, la investigación en farmacología de redes en la medicina tradicional china se centra principalmente en probar la teoría de la medicina tradicional china y carece de una definición clara de los principios de optimización y diseño de redes. El diseño de prescripción racional se puede dividir en dos tipos: de arriba hacia abajo y de abajo hacia arriba. Los métodos de arriba hacia abajo diseñan nuevas recetas basadas en recetas antiguas, mientras que los métodos ascendentes no consideran las recetas antiguas y diseñan recetas nuevas basándose enteramente en redes de enfermedades. El equipo de Chen Yuqian combinó una variedad de métodos factibles y primero definió varios modelos de optimización de arriba hacia abajo que serán los más comunes en el futuro. Tanto los métodos de diseño de arriba hacia abajo como los de abajo hacia arriba utilizan redes biológicas para establecer correlaciones basadas en los principios de la biología de sistemas computacionales, pero consideran las diferencias entre las prescripciones existentes y la teoría de la medicina tradicional china antes de que la teoría de la medicina tradicional china no se haya expresado cuantitativamente. No se considerarán las recetas antiguas. Es más probable que los nuevos diseños de fórmulas entren en conflicto con los principios de la medicina tradicional china. En los últimos años, la medicina tradicional china ha ido evolucionando hacia la clasificación y organización de los productos naturales. En el contexto de la sobreexplotación humana, muchas variedades de la medicina tradicional china están en peligro de extinción. Por lo tanto, el equipo de Chen Yuqian estableció un método para calcular la correlación entre los productos naturales y las especies individuales de MTC y utilizó modelos de alta confiabilidad para buscar rápidamente alternativas. Ingredientes recetados optimizables y extraíbles. El autor cree que el diseño de nuevas fórmulas de prescripción seguramente se convertirá en un área central de investigación y tendrá un impacto importante en el desarrollo sostenible de la medicina tradicional china. Una descripción general de los métodos de optimización y diseño de redes de prescripción de medicina tradicional china En el campo de la medicina tradicional china, comprender las interacciones entre las hierbas medicinales y los medicamentos convencionales es fundamental para garantizar la seguridad del paciente y la eficacia del tratamiento. El autor ofrece una propuesta para una investigación clínica integral sobre la interacción entre la medicina tradicional china y la medicina occidental. La propuesta establece un sistema integrado de investigación clínica diseñado para explorar de manera integral estas interacciones, como se muestra en la figura siguiente. El sistema se divide en tres módulos principales: sistema de investigación clínica, sistema integrado e investigación básica, y cada módulo se centra en el análisis químico y. Diferentes aspectos de la integración de datos para predecir y analizar incompatibilidades de medicamentos. Los sistemas de investigación clínica son los principales responsables de recopilar y analizar datos clínicos para evaluar las propiedades

Leer más »
Scroll al inicio