El Portal de las Tecnologías para la Innovación

Presentamos Roblox Cube: Nuestro Sistema Core Generative AI para 3D y 4D

Esta semana, somos la primera versión abierta de este modelo para que esté disponible para su uso por cualquier persona dentro o fuera de la plataforma Roblox en ambos GitHub y AbrazandoFace.

  • Estamos lanzando nuestro modelo fundacional Cube 3D para IA generativa.
  • También somos una versión abierta del modelo fundacional Cube 3D.
  • La versión beta de Cube 3D mesh generation—in Roblox Studio y como una Lua API— en experiencia estará disponible esta semana.

El otoño pasado, nosotros anunciado un ambicioso proyecto para construir un modelo fundacional 3D de código abierto para crear objetos y escenas 3D en Roblox. Esta semana, somos la primera versión abierta de este modelo para que esté disponible para su uso por cualquier persona dentro o fuera de la plataforma Roblox en ambos GitHub y AbrazandoFace. Weiosve nombró a este modelo Cube 3D. También estamos lanzando la primera de sus capacidades, con el lanzamiento beta de nuestra API de generación de malla. Cube apuntalará muchas de las herramientas de IA que WeiWll desarrollará en los próximos años, incluidas las herramientas de generación de escenas altamente complejas. En última instancia, será un modelo multimodal, entrenado en texto, imágenes, video y otros tipos de input— y se integrará con nuestras herramientas de creación de IA existentes.

Cube 3D genera modelos y entornos 3D directamente a partir de entradas de texto y, en el futuro, de imágenes. Hoy en día, la generación 3D de última generación utiliza imágenes y un enfoque de reconstrucción para construir objetos 3D. Esta es una buena opción cuando no hay suficientes datos de entrenamiento 3D. Sin embargo, gracias a la naturaleza de nuestra plataforma, entrenamos en datos 3D nativos. El objeto generado es totalmente compatible con los motores de juego hoy en día y se puede ampliar para hacer que los objetos funcionen.

La diferencia aquí es similar a un conjunto de películas de hipódromos. En TV, es posible que vea lo que parece una pista de carreras completamente funcional, con gradas, garajes y un carril de victoria. Pero si caminaras por ese set, te darías cuenta rápidamente de que las estructuras eran realmente planas. Construir un mundo 3D verdaderamente inmersivo requiere estructuras completas y funcionales, con garajes en los que puedes conducir, stands en los que puedes sentarte y un carril de victoria con un podio funcional.

Para lograr esto, weizing se ha inspirado en modelos de última generación entrenados en tokens de texto (o conjuntos de caracteres) para que puedan predecir el siguiente token para formar una oración. Nuestra innovación se basa en la misma idea central. Weizve construyó la capacidad de tokenizar objetos 3D y comprender formas como tokens y entrenó a Cube 3D para predecir el siguiente token de forma para construir un objeto 3D completo. Cuando extendemos esto a la generación completa de escenas, Cube 3D predice el diseño y predice recursivamente la forma para completar ese diseño.

Cualquiera puede ajustar, desarrollar complementos o entrenar Cube 3D en sus propios datos para satisfacer sus necesidades. Creemos que las herramientas de IA deben basarse en la apertura y la transparencia, por lo que somos un socio comprometido en la comunidad de IA de código abierto. Lanzamos uno de nuestros Modelos de seguridad AI porque creemos firmemente que compartir los avances en la seguridad de la IA ayuda a toda la industria a acelerar la innovación y los avances técnicos. Por esta razón, también ayudamos a fundar ROSCA, una nueva organización sin fines de lucro dedicada a abordar áreas importantes en seguridad digital con herramientas de seguridad de código abierto. En Cube 3D de código abierto, nuestro objetivo es permitir que los investigadores, desarrolladores y la comunidad más amplia de IA aprendan, aumenten y avancen en la generación 3D en toda la industria.

Cube 3D para la Creación

Weiosve habló anteriormente sobre cómo la IA puede acelerar la creación de activos, accesorios y experiencias en 3D. En última instancia, la IA permitirá un juego y conexiones aún más inmersivos y personalizados. Invertimos en infraestructura para apoyar a la IA en cada etapa del ciclo de creación—, tanto para los desarrolladores de estas experiencias como para los usuarios que pasan tiempo en ellas. Imaginamos un futuro en el que los desarrolladores brinden a sus usuarios nuevas formas de crear al habilitar la IA en sus experiencias. Esto pone el poder de la IA en manos de más de 85 millones de usuarios activos diarios como parte de su juego.

En el último año, weizve introdujo varias características nuevas a través de nuestra IA Asistente dentro Estudio Roblox proporcionar a los desarrolladores las herramientas y capacidades que necesitan para crear y eliminar horas de trabajo manual. Con Cube, tenemos la intención de hacer que la creación 3D sea más eficiente. Con la generación de malla 3D, los desarrolladores pueden explorar rápidamente nuevas direcciones creativas y aumentar su productividad al decidir rápidamente con qué seguir adelante.

Imagina construir un juego de hipódromo. Hoy en día, puede usar la API de Generación de malla dentro del Asistente escribiendo un mensaje rápido, como “/generar una motocicleta” o “/generar un cono de seguridad naranja.” En cuestión de segundos, la API generaría una versión en malla de estos objetos. Luego podrían desarrollarse con textura, color, etc. Con esta API, puede modelar accesorios o diseñar su espacio mucho más rápido—no es necesario pasar horas modelando objetos simples. Le permite concentrarse en las cosas divertidas, como diseñar el diseño de la pista y ajustar el manejo del automóvil. Esta API ahorra horas en cada objeto creado y le devuelve ese tiempo para experimentar con nuevas ideas sin preocuparse por gastar demasiado tiempo o esfuerzo. A más largo plazo, planeamos habilitar objetos más complejos y funcionales, incluso escenas.

Objetos 3D generados con Cube

Un buggy rojo con neumáticos nudosos
Rápido: Un buggy rojo con neumáticos nudosos

Esta tecnología se extiende a las decenas de millones de personas creativas que juegan y se conectan en Roblox todos los días. Vemos un futuro en el que los desarrolladores permiten a sus usuarios convertirse en creadores utilizando IA. Con la API de Mesh Generation habilitada, los jugadores pueden dar vida a todo lo que puedan imaginar. Si un jugador quiere un automóvil futurista, solo puede escribir “automóvil rojo del futuro con alas laterales” o “chaqueta de motocicleta de cuero negro” y verlo generado. Este tipo de generación de IA en el juego desbloqueará un nivel completamente nuevo de creatividad. Los jugadores pueden personalizar su experiencia de maneras que los desarrolladores nunca imaginaron, y eso hará que sus juegos sean aún más atractivos.

Under the Hood: Atención Cruzada entre Tokens 3D y Texto/Imagen

El desafío técnico clave fue conectar texto e imágenes con formas 3D. Nuestro principal avance técnico es la tokenización 3D, que nos permite representar objetos 3D como tokens de la misma manera que el texto se puede representar como tokens. Esto nos da la capacidad de predecir la siguiente forma al igual que los modelos de lenguaje predicen la siguiente palabra en una oración.

Para lograr la generación 3D, diseñamos una arquitectura unificada para la generación autorregresiva de un solo objeto, la finalización de la forma y la generación de diseño de múltiples objetos/escenas. Los transformadores autorregresivos son redes neuronales que utilizan entradas anteriores para predecir el siguiente componente. Esta arquitectura proporciona escalabilidad y compatibilidad multimodal para que a medida que ampliamos el modelo, funcione con muchos tipos diferentes de entrada (texto, visual, audio y 3D). Somos de código abierto este modelo. En esta etapa inicial, los creadores podrán generar objetos 3D basados en indicaciones de texto. En el futuro, tenemos la intención de que los creadores puedan generar escenas completas basadas en entradas multimodales.

Para entrenar un transformador preentrenado generativo (GPT) para la generación de formas, utilizamos tokens de formas 3D discretos y los alineamos con las indicaciones de texto. Este novedoso enfoque nos prepara para el mundo de la generación de escenas en 3D que se puede reproducir.

Donde se dirige Cube

Hoy en día, gran parte del mundo usa IA para texto, para predecir palabras en una oración. Muchos también lo usan para imágenes, para predecir píxeles. Esto se vuelve mucho más complejo al crear escenas, donde todos estos elementos se unen y necesitan trabajar en contexto entre sí. Por ejemplo, imagina una experiencia con una escena simple que se puede describir como “un avatar en una motocicleta frente a una pista de carreras con árboles.”

Muchos elementos entran en la construcción de esta experiencia. Los árboles son una combinación de dos mallas 3D, la motocicleta es una malla densa con detalles y triángulos, y los edificios están formados por piezas de Roblox. El avatar en la moto tiene características geométricas más complejas para su cuerpo, extremidades y cabeza. Finalmente, necesitamos una manera de unirlo todo con un diseño. Para eso, necesitamos cuadros delimitadores, que describen un objeto para definir su tamaño y ubicación, para saber cómo organizar esta geometría. Este es un proceso minucioso, pero la IA es capaz de ayudar con cada paso. Con la IA, los creadores pueden llegar a la primera versión más rápido y tener más tiempo para probar nuevas ideas o refinar su escena.

Cuando lleguemos allí, queremos que los objetos y escenas en 3D que creamos sean completamente funcionales. Llamamos a esto creación 4D, donde la cuarta dimensión es la interacción entre objetos, entornos y personas. Lograr esto requiere la capacidad no solo de construir objetos y escenas inmersivas en 3D, sino también de comprender los contextos y las relaciones entre esos objetos. Aquí es donde nos dirigimos con Cube.

Más allá de este primer caso de uso de la generación de malla, planeamos extendernos a la generación y comprensión de escenas. Weirll será capaz de servir a los usuarios las experiencias que más les interesan y aumentar las escenas mediante la adición de objetos en contexto. Por ejemplo, en una experiencia con una escena forestal, un desarrollador podría pedirle al Asistente que reemplace todas las exuberantes hojas verdes de los árboles con follaje de otoño para indicar el cambio de estación. Nuestras herramientas de AI Assistant reaccionan a las solicitudes del desarrollador, ayudándoles a crear, adaptar y escalar rápidamente sus experiencias.

Weirll comparte actualizaciones y nuevas funcionalidades a medida que continuamos mejorando y expandiendo nuestro modelo fundamental. Hasta entonces, esperamos que disfrute usando y construyendo sobre nuestra versión de código abierto del modelo Cube 3D, al que puede acceder GitHub y AbrazandoFace.

Roblox News. Traducido al español

Artículos relacionados

Scroll al inicio