El Portal de las Tecnologías para la Innovación

Próximamente: reconocimiento de voz sin conexión en tu teléfono

Ciencias de la Computación

Actualmente, más de una de cada cuatro personas integra el reconocimiento de voz en su vida diaria. Un nuevo algoritmo desarrollado por un investigador de la Universidad de Copenhague y sus colegas internacionales permite interactuar con asistentes digitales como “Siri” sin necesidad de conexión a Internet. La innovación permite utilizar el reconocimiento de voz en cualquier lugar, incluso en situaciones en las que la seguridad es primordial.

Un nuevo algoritmo elimina la necesidad de conexión a Internet cuando se utiliza el reconocimiento de voz en dispositivos pequeños como teléfonos inteligentes y asistentes digitales. Esto significa que será posible hablar con «Siri» en medio de la nada… o en el avión de regreso a casa. Foto: Getty

Hablar con un ordenador era cosa de ciencia ficción. Hoy en día, decir “Oye Siri”, o Alexa, Google u otro asistente digital en un teléfono inteligente o en otro dispositivo interactivo se ha convertido en algo habitual . Sin embargo, en el futuro, el papel del reconocimiento de voz puede llegar a ser incluso más importante.

Si bien los estudios sugieren que una de cada cuatro personas ya utiliza estas tecnologías de manera habitual, si las predicciones se cumplen, en 2025 la cantidad de dispositivos equipados con reconocimiento de voz superará a la población del planeta. Y la tecnología sigue evolucionando.

Hasta ahora, el reconocimiento de voz dependía de que el dispositivo estuviera conectado a Internet, ya que los algoritmos que se suelen utilizar para este proceso requieren una gran cantidad de memoria de acceso aleatorio (RAM) temporal, que normalmente proporcionan los potentes servidores de los centros de datos. Prueba a poner tu smartphone en modo avión y comprueba hasta dónde llegan tus comandos de voz. Pero el cambio está en el aire.

Un nuevo algoritmo desarrollado por el profesor Panagiotis Karras del Departamento de Ciencias de la Computación de la Universidad de Copenhague, junto con el lingüista Nassos Katsamanis del Centro de Investigación Athena en Grecia e investigadores de la Universidad Aalto en Finlandia y KTH en Suecia, permite que incluso dispositivos más pequeños, como los teléfonos inteligentes, decodifiquen el habla sin necesidad de una memoria sustancial o acceso a Internet.

El código, presentado recientemente en un artículo científico , emplea una estrategia inteligente: «olvida» lo que no necesita en tiempo real.

Datos: FonemasLos fonemas son las unidades de sonido más pequeñas de una lengua que no se pueden sustituir sin alterar el significado de lo que se dice. Según el Consejo de la Lengua Danesa, los fonemas son “sonidos del habla con funciones de diferenciación de significados”.

Los algoritmos de reconocimiento de voz utilizan fonemas como unidades de datos para reconocer y procesar expresiones lingüísticas haciendo coincidir los sonidos hablados con el texto.

“El reconocimiento de voz funciona básicamente haciendo coincidir los pequeños sonidos del habla que utilizamos para formar palabras y oraciones (conocidos como fonemas) con una biblioteca de sonidos correspondientes”, explica Panagiotis Karras. “Se calculan las probabilidades de las coincidencias y las combinaciones posteriores que forman nuestras palabras y oraciones. Se calculan las secuencias más probables y el software traduce estos sonidos en texto”.

Los algoritmos actuales requieren más memoria cuanto más se habla, ya que todas las combinaciones alternativas deben permanecer abiertas hasta que se analiza el sonido final. El nuevo algoritmo elimina este problema.

“El algoritmo concebido por Panos y desarrollado por nuestro equipo hace algo completamente nuevo”, afirma el co-desarrollador y coautor Nassos Katsamanis. “A diferencia del algoritmo estándar existente que se utiliza desde los primeros días del reconocimiento de voz, nuestro algoritmo solo almacena una fracción de los datos de procesamiento, que sirven como un conjunto de ‘coordenadas’. Con ellas, se puede reconstruir una secuencia completa, lo que hace posible el reconocimiento de voz con significativamente menos RAM”.

De palabras clave a oraciones completas

Esta maniobra puede parecer simple, pero implica un código completamente nuevo y único para el que los investigadores han solicitado una patente. Este algoritmo reduce la necesidad de memoria crítica sin sacrificar la calidad del reconocimiento. Y aunque requiere un poco más de tiempo y potencia computacional, los investigadores aseguran que la diferencia es insignificante en comparación con las capacidades musculares de los dispositivos modernos.

Además, funciona sin conexión a Internet, lo que permite el reconocimiento de voz (y potencialmente la traducción de idiomas en tiempo real en el futuro, esperan los investigadores) en cualquier lugar, incluso en las profundidades de la selva amazónica.

Más información: Un buscador de caminos lingüístico

Para entender cómo las computadoras gestionan el reconocimiento de voz, imaginemos que resolvemos un laberinto con un lápiz.

Los algoritmos tradicionales abordan el reconocimiento de voz de forma muy similar: exploran todos los caminos posibles y recuerdan cada callejón sin salida hasta que se memoriza el laberinto y se alcanza la meta. Este proceso supone una gran carga para la memoria temporal, ya que rastrea miles de probabilidades.

El nuevo algoritmo de Panagiotis Karras utiliza un principio que reduce el problema a la mitad en cada paso. En lugar de recordar todo el laberinto, lleva un registro de los puntos clave y recalcula las rutas según sea necesario. En el reconocimiento de voz, estos puntos clave son fonemas, que se almacenan como «coordenadas» para reconstruir la secuencia óptima más tarde. Esto reduce drásticamente los requisitos de memoria al tiempo que mantiene la precisión.

El método de referencia para este método es un algoritmo más antiguo llamado Viterbi. El proceso descrito anteriormente exige mucho espacio en la memoria RAM temporal de la computadora, ya que debe calcular y recordar la probabilidad de todas las posiciones posibles del laberinto en cada paso del recorrido. Esto puede hacer que el algoritmo tenga que llevar un registro de millones de probabilidades si el laberinto es lo suficientemente largo.

El nuevo algoritmo de Panagiotis emplea un principio que reduce el problema a la mitad de forma continua. En cada tramo de su recorrido por el laberinto, solo recuerda el punto medio. El resultado es una necesidad significativamente menor de memoria temporal, ya que estos «puntos medios» se vuelven a calcular antes de que se presente la ruta final.

En el reconocimiento de voz, estos puntos están representados por fonemas, las unidades de sonido más pequeñas del texto que se calculan como la mejor coincidencia con lo que se dice en un punto determinado de la oración que se analiza. Estos fonemas y sus probabilidades se almacenan como algo así como coordenadas a lo largo de una ruta que el algoritmo identifica como óptima, ya que funciona para navegar entre el primer y el último sonido de una oración.

En última instancia, se pueden utilizar para reconstruir la «ruta» completa y proporcionar la mejor interpretación posible de la entrada hablada como texto.Cambiar texto

Las palabras sueltas o las oraciones muy cortas suelen ser manejables cuando el software actual necesita almacenar secuencias alternativas y bibliotecas de posibles interpretaciones de sonidos. Sin embargo, a medida que las oraciones se hacen más largas y las posibles combinaciones de palabras más complejas, aumenta la demanda de RAM.

“Algunos dispositivos pequeños ya pueden reconocer y actuar basándose en unas pocas palabras sin conexión a Internet. Por ejemplo, un sistema doméstico inteligente puede reconocer palabras clave como «encender» o «apagar». Esto se conoce como reconocimiento de voz de vocabulario reducido. Con nuestro algoritmo será posible reconocer instrucciones más extensas o, en principio, idiomas enteros, sin conexión a Internet. Esto se conoce como reconocimiento de voz de vocabulario amplio”, explica el profesor Karras.

Mayor inclusión, seguridad y ahorro energético

Según los investigadores, la invención abre un abanico de posibilidades, desde ventajas prácticas, de seguridad y sociales hasta un importante potencial de ahorro energético.

Datos: Aplicaciones de reconocimiento de voz

El software de reconocimiento de voz se utiliza ampliamente en todo tipo de dispositivos digitales, especialmente en teléfonos inteligentes y asistentes domésticos como Siri, Google Assistant y Alexa de Amazon.

Estas herramientas pueden gestionar tareas que van desde controlar la iluminación del hogar hasta comunicarse con los refrigeradores. También amplían la funcionalidad de los automóviles modernos, permitiendo a los conductores mantener las manos en el volante y los ojos en la carretera.

Este software también es crucial para los servicios de transcripción, aplicaciones de traducción y herramientas de aprendizaje de idiomas.

Por ejemplo, muchas personas podrían beneficiarse de la capacidad de traducir idiomas extranjeros mientras viajan, independientemente del acceso a Internet. Esta es una posibilidad que los investigadores esperan lograr. Pero el impacto social de la accesibilidad lingüística, tanto ahora como en el futuro, podría ser mucho más significativo.

Nassos Katsamanis ve un gran potencial en esta tecnología: “Este algoritmo puede ayudar a democratizar la tecnología del lenguaje al hacer que la información sea más accesible. Hacer que las herramientas de traducción y los asistentes de voz estén disponibles independientemente del acceso a Internet permitirá que más personas participen en la sociedad. En particular, ayudará a las personas sin habilidades lingüísticas escritas o con discapacidades físicas, permitiéndoles comprender e influir en las decisiones sociales”.

Otra ventaja clave de este invento de reconocimiento de voz es su implicación en materia de seguridad. Cuando la seguridad es primordial, el nuevo algoritmo aborda un problema importante: las conexiones a Internet pueden ser pirateadas. Al eliminar la necesidad de acceso a Internet, el algoritmo mejora la seguridad.

Además, aunque la energía que utilizan los centros de datos para mantener la tecnología actual de encendido por chispa puede ser invisible para los consumidores, es muy relevante en un mundo que enfrenta el cambio climático. La creciente demanda de esta tecnología, cuando se satisfaga con esta invención, podría generar importantes ahorros de energía al reducir la enorme necesidad de memoria temporal.

“Es vital reducir el consumo de energía para minimizar la dependencia de los combustibles fósiles, ya que muchos centros de datos todavía utilizan estas fuentes de energía”, concluye el profesor Karras. UCPH. Traducido al español

Artículos relacionados

Scroll al inicio