El Portal de las Tecnologías para la Innovación

Explicando Tokens — el Idioma y la Moneda de la IA

Los tokens son unidades de datos procesados por modelos de IA durante el entrenamiento y la inferencia, lo que permite la predicción, la generación y el razonamiento.

Bajo el capó de cada aplicación de IA hay algoritmos que producen datos en su propio idioma, uno basado en un vocabulario de tokens.

Los tokens son pequeñas unidades de datos que provienen de descomponer fragmentos más grandes de información. Los modelos de IA procesan tokens para aprender las relaciones entre ellos y desbloquear capacidades que incluyen predicción, generación y razonamiento. Cuanto más rápido se puedan procesar los tokens, más rápidos podrán aprender y responder los modelos.

AI fábricas — una nueva clase de centros de datos diseñados para acelerar las cargas de trabajo de IA — crujen eficientemente los tokens, convirtiéndolos del lenguaje de la IA a la moneda de la IA, que es la inteligencia.

Con las fábricas de IA, las empresas pueden aprovechar las últimas soluciones informáticas de pila completa para procesar más tokens a un menor costo computacional crear valor adicional para los clientes. En un caso, la integración de las optimizaciones de software y la adopción de las GPU NVIDIA de última generación redujeron el costo por token en 20 veces en comparación con los procesos no optimizados en las GPU de generación anterior — entregando 25 veces más ingresos en solo cuatro semanas.

https://youtube.com/watch?v=K6t4tusFZ5c%3Ffeature%3Doembed

Al procesar eficientemente los tokens, las fábricas de IA están fabricando inteligencia —, el activo más valioso en la nueva revolución industrial impulsada por la IA.

¿Qué es la Tokenización? 

Si a transformador modelo AI está procesando texto, imágenes, clips de audio, videos u otra modalidad, traducirá los datos en tokens. Este proceso se conoce como tokenización.

La tokenización eficiente ayuda a reducir la cantidad de potencia informática requerida para entrenamiento e inferencia. Existen numerosos métodos de tokenización — y los tokenizadores adaptados para tipos de datos específicos y casos de uso pueden requerir un vocabulario más pequeño, lo que significa que hay menos tokens para procesar.

Para grandes modelos de idiomas (LLM), las palabras cortas pueden representarse con un solo token, mientras que las palabras más largas pueden dividirse en dos o más tokens.

La palabra oscuridad, por ejemplo, se dividiría en dos fichas, “dark” y “ness,” con cada ficha con una representación numérica, como 217 y 655. La palabra opuesta, brillo, se dividiría de manera similar en “bright” y “ness,” con representaciones numéricas correspondientes de 491 y 655.

En este ejemplo, el valor numérico compartido asociado con “ness” puede ayudar al modelo de IA a comprender que las palabras pueden tener algo en común. En otras situaciones, un tokenizador puede asignar diferentes representaciones numéricas para la misma palabra dependiendo de su significado en contexto.

Por ejemplo, la palabra “lie” podría referirse a una posición de descanso o a decir algo falso. Durante el entrenamiento, el modelo aprendería la distinción entre estos dos significados y les asignaría diferentes números de token.

Para los modelos visuales de IA que procesan imágenes, video o datos de sensores, un tokenizador puede ayudar a mapear entradas visuales como píxeles o vóxeles en una serie de tokens discretos.

Los modelos que procesan audio pueden convertir clips cortos en espectrogramas — representaciones visuales de ondas de sonido a lo largo del tiempo que luego se pueden procesar como imágenes. Otras aplicaciones de audio pueden centrarse en capturar el significado de un clip de sonido que contiene voz, y utilizar otro tipo de tokenizador que captura tokens semánticos, que representan datos de lenguaje o contexto en lugar de simplemente información acústica.

¿Cómo se Utilizan los Tokens Durante el Entrenamiento de IA?

El entrenamiento de un modelo de IA comienza con la tokenización del conjunto de datos de entrenamiento.

Según el tamaño de los datos de entrenamiento, el número de tokens puede sumar miles de millones o billones — y, según el ley de escalamiento previa al entrenamiento, cuantos más tokens se utilicen para el entrenamiento, mejor será la calidad del modelo de IA.

Como es un modelo de IA preentrenadose prueba mostrándole un conjunto de muestras de tokens y se le pide que prediga el siguiente token. Según si su predicción es correcta o no, el modelo se actualiza para mejorar su próxima suposición. Este proceso se repite hasta que el modelo aprende de sus errores y alcanza un nivel objetivo de precisión, conocido como convergencia del modelo.

Después del entrenamiento previo, los modelos se mejoran aún más post-entrenamiento, donde continúan aprendiendo en un subconjunto de tokens relevantes para el caso de uso donde se implementarán. Estos podrían ser tokens con información específica del dominio para una aplicación en derecho, medicina o negocios — o tokens que ayudan a adaptar el modelo a una tarea específica, como razonamiento, chat o traducción. El objetivo es un modelo que genere los tokens correctos para entregar una respuesta correcta basada en una consulta de usuario —, una habilidad más conocida como inferencia.

¿Cómo se Utilizan los Tokens Durante la Inferencia y el Razonamiento de la IA? 

Durante la inferencia, una IA recibe un mensaje — que, dependiendo del modelo, puede ser texto, imagen, clip de audio, video, datos del sensor o incluso secuencia genética — que se traduce en una serie de tokens. El modelo procesa estos tokens de entrada, genera su respuesta como tokens y luego lo traduce al formato esperado de los usuarios.

Los idiomas de entrada y salida pueden ser diferentes, como en un modelo que traduce inglés a japonés, o uno que convierte las indicaciones de texto en imágenes.

Para comprender un mensaje completo, los modelos de IA deben poder procesar múltiples tokens a la vez. Muchos modelos tienen un límite específico, conocido como ventana de contexto — y diferentes casos de uso requieren diferentes tamaños de ventana de contexto.

Un modelo que puede procesar unos pocos miles de tokens a la vez podría procesar una sola imagen de alta resolución o unas pocas páginas de texto. Con una longitud de contexto de decenas de miles de tokens, otro modelo podría resumir una novela completa o un episodio de podcast de una hora. Algunos modelos incluso proporcionan longitudes de contexto de un millón o más de tokens, lo que permite a los usuarios ingresar fuentes de datos masivas para que la IA las analice.

Los modelos de IA razonadores, el último avance en LLM, pueden abordar consultas más complejas tratando los tokens de manera diferente que antes. Aquí, además de los tokens de entrada y salida, el modelo genera una gran cantidad de tokens de razonamiento durante minutos u horas mientras piensa en cómo resolver un problema determinado.

Estos tokens de razonamiento permiten mejores respuestas a preguntas complejas, al igual que la forma en que una persona puede formular una mejor respuesta dado el tiempo para resolver un problema. El aumento correspondiente en tokens por mensaje puede requerir más de 100 veces más cómputo en comparación con un solo pase de inferencia en un LLM tradicional — un ejemplo de escalado en tiempo de prueba, también conocido como pensamiento largo.

¿Cómo Impulsan los Tokens la Economía de la IA? 

Durante preentrenamiento y postentrenamiento, los tokens equivalen a la inversión en inteligencia, y durante la inferencia, generan costos e ingresos. Entonces, a medida que proliferan las aplicaciones de IA, están surgiendo nuevos principios de la economía de la IA.

Las fábricas de IA están diseñadas para mantener una inferencia de alto volumen, fabricando inteligencia para los usuarios al convertir tokens en información monetizable. Es por eso que un número creciente de servicios de IA están midiendo el valor de sus productos en función del número de tokens consumidos y generados, ofreciendo planes de precios basados en tasas de entrada y salida de tokens.

Algunos planes de precios de tokens ofrecen a los usuarios un número determinado de tokens compartidos entre entrada y salida. Según estos límites de token, un cliente podría usar un mensaje de texto corto que use solo unos pocos tokens para la entrada para generar una respuesta larga generada por IA que tomó miles de tokens como salida. O un usuario podría gastar la mayoría de sus tokens en la entrada, proporcionando un modelo de IA con un conjunto de documentos para resumir en unos pocos viñetas.

Para servir a un gran volumen de usuarios concurrentes, algunos servicios de IA también establecen límites de token, el número máximo de tokens por minuto generado para un usuario individual.

Los tokens también definen la experiencia del usuario para los servicios de IA. Es hora de la primera ficha, la latencia entre un usuario que envía un mensaje y el modelo de IA que comienza a responder, y la latencia entre tokens o token a token, la velocidad a la que se generan los tokens de salida posteriores, determinan cómo un usuario final experimenta la salida de una aplicación de IA.

Hay compensaciones involucradas para cada métrica, y el equilibrio correcto está dictado por el caso de uso.

Para los chatbots basados en LLM, acortar el tiempo al primer token puede ayudar a mejorar la participación del usuario al mantener un ritmo de conversación sin pausas antinaturales. La optimización de la latencia entre tokens puede permitir que los modelos de generación de texto coincidan con la velocidad de lectura de una persona promedio o los modelos de generación de video para lograr la velocidad de fotogramas deseada. Para los modelos de IA que participan en el pensamiento y la investigación largos, se pone más énfasis en la generación de tokens de alta calidad, incluso si agrega latencia.

Los desarrolladores deben lograr un equilibrio entre estas métricas para ofrecer experiencias de usuario de alta calidad con un rendimiento óptimo, la cantidad de tokens que puede generar una fábrica de IA.

Para abordar estos desafíos, el AI NVIDIA plataforma ofrece una vasta colección de softwaremicroservicios y planos junto a poderosos computación acelerada infraestructura — es una solución flexible y de pila completa que permite a las empresas evolucionar, optimizar y escalar fábricas de IA para generar la próxima ola de inteligencia en todas las industrias.

Comprender cómo optimizar el uso de tokens en diferentes tareas puede ayudar a los desarrolladores, empresas e incluso usuarios finales a obtener el mayor valor de sus aplicaciones de IA. NVIDIA Blog. D. S. Traducido al español

Artículos relacionados

Scroll al inicio