El Portal de las Tecnologías para la Innovación

Investigadores del KAIST presentan una IA que genera diseños inesperadamente originales

Recientemente, los modelos de generación de imágenes basados ​​en texto pueden crear automáticamente imágenes de alta resolución y calidad únicamente a partir de descripciones en lenguaje natural. Sin embargo, cuando a un ejemplo típico, como el modelo de Difusión Estable, se le asigna el texto «creativo», su capacidad para generar imágenes verdaderamente creativas es limitada. 

 Los investigadores de KAIST han desarrollado una tecnología que puede potenciar la creatividad de los modelos de generación de imágenes basados ​​en texto, como Difusión Estable, sin necesidad de entrenamiento adicional, lo que permite a la IA crear diseños de sillas creativos que se alejan de lo común.

El equipo de investigación del profesor Jaesik Choi en la Escuela de Posgrado de IA Kim Jaechul de KAIST, en colaboración con NAVER AI Lab, desarrolló esta tecnología para mejorar la generación creativa de modelos generativos de IA sin la necesidad de capacitación adicional.

Foto 2. Gayoung Lee, investigadora del Laboratorio de IA de NAVER; Dahee Kwon, candidata a doctorado de la Escuela de Posgrado de IA Kim Jaechul del KAIST; Jiyeon Han, candidata a doctorado de la Escuela de Posgrado de IA Kim Jaechul del KAIST; Junho Kim, investigador del Laboratorio de IA de NAVER.

El equipo de investigación del profesor Choi desarrolló una tecnología para mejorar la generación creativa mediante la amplificación de los mapas de características internos de los modelos de generación de imágenes basados ​​en texto. También descubrieron que los bloques superficiales dentro del modelo desempeñan un papel crucial en la generación creativa. Confirmaron que la amplificación de valores en la región de alta frecuencia tras convertir los mapas de características al dominio de la frecuencia puede generar ruido o patrones de color fragmentados. En consecuencia, el equipo de investigación demostró que la amplificación de la región de baja frecuencia de los bloques superficiales puede mejorar eficazmente la generación creativa.

Considerando la originalidad y la utilidad como dos elementos clave que definen la creatividad, el equipo de investigación propuso un algoritmo que selecciona automáticamente el valor de amplificación óptimo para cada bloque dentro del modelo generativo.

Mediante el algoritmo desarrollado, la amplificación adecuada de los mapas de características internas de un modelo de difusión estable previamente entrenado fue posible mejorar la generación creativa sin datos de clasificación ni entrenamiento adicionales.

Figura 1. Resumen de la metodología investigada por el equipo de desarrollo. Tras convertir el mapa de características interno de un modelo generativo preentrenado al dominio de la frecuencia mediante la Transformada Rápida de Fourier, la región de baja frecuencia del mapa de características se amplifica y luego se vuelve a transformar al espacio de características mediante la Transformada Rápida Inversa de Fourier para generar una imagen.

El equipo de investigación demostró cuantitativamente, utilizando diversas métricas, que el algoritmo desarrollado puede generar imágenes más novedosas que las de los modelos existentes, sin comprometer significativamente la utilidad.

En particular, confirmaron un aumento en la diversidad de imágenes al mitigar el problema de colapso de modos que se produce en el modelo SDXL-Turbo, desarrollado para mejorar significativamente la velocidad de generación de imágenes del modelo Stable Diffusion XL (SDXL). Además, los estudios de usuarios mostraron que la evaluación humana también confirmó una mejora significativa en la novedad en relación con la utilidad, en comparación con los métodos existentes.

Jiyeon Han y Dahee Kwon, candidatas a doctorado en KAIST y coautoras principales del artículo, afirmaron: «Esta es la primera metodología que mejora la generación creativa de modelos generativos sin necesidad de nuevo entrenamiento ni ajustes. Hemos demostrado que la creatividad latente dentro de los modelos generativos de IA entrenados se puede potenciar mediante la manipulación de mapas de características».

Agregaron: «Esta investigación facilita la generación de imágenes creativas utilizando únicamente texto de modelos entrenados existentes. Se espera que brinde nueva inspiración en diversos campos, como el diseño creativo de productos, y contribuya a la aplicación práctica y útil de los modelos de IA en el ecosistema creativo».

Figura 2. Ejemplos de aplicación de la metodología investigada por el equipo de desarrollo. Diversos modelos de Difusión Estable generan imágenes innovadoras en comparación con las generaciones existentes, manteniendo el significado del objeto generado.

Esta investigación, coautorada por Jiyeon Han y Dahee Kwon, candidatas a doctorado en la Escuela de Posgrado de IA Kim Jaechul del KAIST, se presentó el 16 de junio en la Conferencia Internacional sobre Visión Artificial y Reconocimiento de Patrones (CVPR), un congreso académico internacional.
* Título del artículo: Mejora de la generación creativa en modelos estables basados ​​en la difusión
* DOI: https://doi.org/10.48550/arXiv.2503.23538

Esta investigación contó con el apoyo del Centro de Investigación de IA Ultracreativa KAIST-NAVER, el Proyecto de Motor de Crecimiento e Innovación «IA Explicable», el Proyecto del Centro de Investigación de IA y la investigación sobre el desarrollo de tecnologías de IA flexibles y evolutivas, en consonancia con políticas éticas cada vez más consolidadas. Todos estos proyectos fueron financiados por el Ministerio de Ciencia y TIC a través del Instituto para la Promoción de las Tecnologías de la Información y las Comunicaciones. También contó con el apoyo del Programa de Posgrado en IA de KAIST y se llevó a cabo en el Centro de Investigación Especializada en IA de Defensa Futura de KAIST, con el apoyo de la Administración del Programa de Adquisiciones de Defensa y la Agencia para el Desarrollo de la Defensa. KAIST News. Traducido al español

Artículos relacionados

Huawei

Huawei presenta su visión de sinergia submarino-terrestre y orquestación óptica-inteligente

Huawei presentó su visión de sinergia submarino-terrestre y orquestación óptica-inteligente. En su debut en Submarine Networks World 2025, el principal evento de comunicaciones submarinas en Singapur, la compañía presentó una solución innovadora y productos estrella diseñados para facilitar la integración y la sinergia eficiente entre las redes submarinas y terrestres.

Continuar leyendo...
Nintendo

¡Despega con Mario en dos aventuras que desafían la gravedad!

¿Listo para explorar los confines del espacio? Super Mario Galaxy™ y Super Mario Galaxy 2 son dos aventuras icónicas de Mario, conocidas por sus plataformas desenfrenadas, sorpresas cósmicas y una banda sonora orquestada y envolvente. (Ah, y un dato curioso: ¡Super Mario Galaxy también fue la primera aparición de Rosalina y los Lumas!)

Continuar leyendo...
Scroll al inicio