SketchAgent, un sistema de dibujo desarrollado por investigadores de MIT CSAIL, esboza conceptos trazo a trazo, enseñando modelos lingüísticos para expresar conceptos visualmente por sí mismos y colaborar con los humanos.
Al intentar comunicar o comprender ideas, las palabras no siempre son suficientes. A veces, el enfoque más eficiente es hacer un simple boceto de ese concepto; por ejemplo, diagramar un circuito podría ayudar a comprender el funcionamiento del sistema.
Pero ¿y si la inteligencia artificial pudiera ayudarnos a explorar estas visualizaciones? Si bien estos sistemas suelen ser competentes en la creación de pinturas realistas y dibujos caricaturescos, muchos modelos no logran captar la esencia del boceto: su proceso iterativo, trazo a trazo, que ayuda a los humanos a generar ideas y editar cómo quieren representarlas.
Un nuevo sistema de dibujo del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT y la Universidad de Stanford permite dibujar de forma más parecida a como lo hacemos nosotros. Su método, llamado «SketchAgent», utiliza un modelo de lenguaje multimodal (sistemas de IA que se entrenan con texto e imágenes, como el Claude 3.5 Sonnet de Anthropic) para convertir indicaciones de lenguaje natural en bocetos en segundos. Por ejemplo, puede dibujar una casa de forma independiente o en colaboración, dibujando con una persona o incorporando información textual para dibujar cada parte por separado.
Los investigadores demostraron que SketchAgent puede crear dibujos abstractos de diversos conceptos, como un robot, una mariposa, una hélice de ADN, un diagrama de flujo e incluso la Ópera de Sídney. Algún día, la herramienta podría convertirse en un juego de arte interactivo que ayude a profesores e investigadores a diagramar conceptos complejos o a ofrecer a los usuarios una breve lección de dibujo.
SketchAgent: un sistema colaborativo que enseña a los modelos de IA a dibujar de forma más parecida a como lo hacen los humanos.Vídeo: MIT CSAIL
Yael Vinker, investigadora posdoctoral de CSAIL y autora principal de un artículo que presenta SketchAgent, señala que el sistema introduce una forma más natural para que los humanos se comuniquen con la IA.
No todos son conscientes de cuánto dibujan en su vida diaria. Podemos dibujar nuestros pensamientos o ideas de taller con bocetos —dice—. Nuestra herramienta busca emular ese proceso, haciendo que los modelos de lenguaje multimodal sean más útiles para ayudarnos a expresar ideas visualmente.
SketchAgent enseña a estos modelos a dibujar trazo a trazo sin entrenamiento con datos. En su lugar, los investigadores desarrollaron un «lenguaje de dibujo» en el que un boceto se traduce en una secuencia numerada de trazos en una cuadrícula. El sistema recibió un ejemplo de cómo se dibujarían cosas como una casa, con cada trazo etiquetado según lo que representaba (por ejemplo, el séptimo trazo es un rectángulo etiquetado como «puerta principal») para ayudar al modelo a generalizar nuevos conceptos.
Vinker escribió el artículo junto con tres afiliados de CSAIL: la investigadora posdoctoral Tamar Rott Shaham, el investigador de pregrado Alex Zhao y el profesor del MIT Antonio Torralba, así como la investigadora de la Universidad de Stanford Kristine Zheng y la profesora adjunta Judith Ellen Fan. Presentarán su trabajo en la Conferencia sobre Visión Artificial y Reconocimiento de Patrones (CVPR) de 2025 este mes.
Evaluación de las capacidades de dibujo de la IA
Si bien los modelos de texto a imagen como DALL-E 3 pueden crear dibujos intrigantes, carecen de un componente crucial del dibujo: el proceso espontáneo y creativo donde cada trazo puede impactar el diseño general. Por otro lado, los dibujos de SketchAgent se modelan como una secuencia de trazos, pareciendo más naturales y fluidos, como bocetos humanos.
Trabajos anteriores también han imitado este proceso, pero entrenaron sus modelos en conjuntos de datos dibujados por humanos, que a menudo son limitados en escala y diversidad. SketchAgent utiliza modelos de lenguaje preentrenados en su lugar, que tienen conocimiento de muchos conceptos, pero no saben cómo dibujar. Cuando los investigadores enseñaron a los modelos de lenguaje este proceso, SketchAgent comenzó a dibujar diversos conceptos en los que no se había entrenado explícitamente.
Aun así, Vinker y sus colegas querían ver si SketchAgent estaba trabajando activamente con humanos en el proceso de dibujo, o si estaba trabajando independientemente de su socio de dibujo. El equipo probó su sistema en modo de colaboración, donde un humano y un modelo de lenguaje trabajan para dibujar un concepto particular en tándem. Al eliminar las contribuciones de SketchAgent, se reveló que los trazos de su herramienta eran esenciales para el dibujo final. En el dibujo de un velero, por ejemplo, al eliminar los trazos artificiales que representaban un mástil, el boceto general resultó irreconocible.
En otro experimento, investigadores de CSAIL y Stanford incorporaron diferentes modelos de lenguaje multimodal a SketchAgent para determinar cuál podía crear los bocetos más reconocibles. Su modelo principal predeterminado, Claude 3.5 Sonnet, generó los gráficos vectoriales más realistas (esencialmente archivos de texto que se pueden convertir en imágenes de alta resolución). Superó a modelos como GPT-4o y Claude 3 Opus.
«El hecho de que Claude 3.5 Sonnet superara a otros modelos como GPT-4o y Claude 3 Opus sugiere que este modelo procesa y genera la información visual de forma diferente», afirma la coautora Tamar Rott Shaham.
Añade que SketchAgent podría convertirse en una interfaz útil para colaborar con modelos de IA más allá de la comunicación estándar basada en texto. «A medida que los modelos avanzan en la comprensión y la generación de otras modalidades, como los bocetos, abren nuevas vías para que los usuarios expresen ideas y reciban respuestas más intuitivas y humanas», afirma Rott Shaham. «Esto podría enriquecer significativamente las interacciones, haciendo que la IA sea más accesible y versátil».
Si bien la capacidad de dibujo de SketchAgent es prometedora, aún no permite realizar bocetos profesionales. Representa conceptos de forma sencilla mediante monigotes y garabatos, pero tiene dificultades para dibujar logotipos, frases, criaturas complejas como unicornios y vacas, y figuras humanas específicas. En
ocasiones, su modelo malinterpretaba las intenciones de los usuarios en dibujos colaborativos, como cuando SketchAgent dibujó un conejo con dos cabezas. Según Vinker, esto podría deberse a que el modelo divide cada tarea en pasos más pequeños (también conocido como razonamiento de «cadena de pensamiento»). Al trabajar con personas, el modelo crea un plan de dibujo, lo que podría malinterpretar la parte del esquema a la que contribuye una persona. Los investigadores podrían perfeccionar estas habilidades de dibujo entrenando con datos sintéticos de modelos de difusión.
Además, SketchAgent suele requerir varias rondas de indicaciones para generar dibujos con apariencia humana. En el futuro, el equipo busca facilitar la interacción y el dibujo con modelos de lenguaje multimodal, incluyendo el perfeccionamiento de su interfaz.
Aun así, la herramienta sugiere que la IA podría dibujar diversos conceptos como lo hacen los humanos, con una colaboración paso a paso entre humanos e IA que resulta en diseños finales más coordinados.
Este trabajo fue financiado, en parte, por la Fundación Nacional de Ciencias de EE. UU., una beca Hoffman-Yee del Instituto Stanford para la IA Centrada en el Ser Humano, Hyundai Motor Co., el Laboratorio de Investigación del Ejército de EE. UU., el Programa de Liderazgo STEM Zuckerman y una beca Viterbi. MIT News. A. S. Traducido al español
