¿Qué sucede cuando dejamos de conducir y nuestros vehículos se vuelven autónomos? El matemático Viktor Larsson está desarrollando métodos para que los coches y los drones puedan ver su entorno. Esta es su perspectiva sobre el presente y el futuro de la conducción autónoma.
Cámaras, navegadores, láser, radar y sensores. Para ganarse el apodo de «autoconducción» o «autónomo», los vehículos necesitan una gama de tecnologías capaces de detectar y evaluar el complejo e impredecible entorno del tráfico.
Ahora es posible crear redes neuronales profundas que, como el cerebro humano, pueden estimar la profundidad 3D a partir de una sola imagen.
La capacidad de conducción autónoma se clasifica en una escala de cinco puntos establecida por la Sociedad de Ingenieros Automotrices (véase el recuadro). Muchos coches nuevos se sitúan al menos en el extremo inferior de la escala, con características como control de crucero, sensores ultrasónicos para la evaluación de distancias cortas y navegador integrado . Cuanto más alto es el nivel, mayores son las exigencias en la toma de decisiones y el juicio. Esto significa que la IA y el aprendizaje automático son un requisito previo para alcanzar los niveles superiores, ya que solo así el coche puede evaluar y actuar con seguridad.
Sin descansos
De los vehículos actualmente en uso, los taxis robot en algunas de las principales ciudades de EE. UU. y China son los que más se acercan a la autonomía total, es decir, al nivel cinco. Por lo demás, la mayoría aún se encuentran en fase de pruebas en entornos controlados. Otros vehículos comerciales, como autobuses y camiones, podrían ser los próximos en lanzarse a gran escala, según Viktor Larsson, investigador matemático que desarrolla algoritmos de visión artificial.
Estos vehículos operan rutas regulares y son caros, por lo que vale la pena equiparlos con más sensores. Además, pueden funcionar las 24 horas del día; un conductor automatizado no necesita descansos… Tampoco tienen que trabajar todo el tiempo. Si surge un problema, un operador puede intervenir y controlar el vehículo a distancia, afirma.

Las cámaras no sólo son más baratas
Los fabricantes de automóviles priorizan diferentes tecnologías. Por ejemplo, Tesla solo utiliza cámaras, mientras que su competidor Waymo también utiliza radar y lidar (medición de distancias mediante láser). Sin embargo, todos utilizan una o más cámaras.
Es cierto que el lidar mide distancias mucho mejor que las cámaras. Es fundamental saber que la carretera está despejada. Pero como las cámaras son mucho más económicas, los fabricantes de automóviles intentan solucionar el problema usándolas.
Sin embargo, las cámaras no solo son más baratas. Para que el coche mejore su inteligencia y empiece a extraer conclusiones, su software necesita alimentarse de imágenes. ¿El niño que corre por la acera se dirige a la calle? ¿Qué significa el garabato en la señal?
“Por lo tanto, seguiría siendo necesaria una cámara, incluso si el precio del lidar y el radar bajara”.
Además, en un contexto militar, las cámaras son preferibles porque no emiten ninguna energía y, por lo tanto, son difíciles de detectar.
Adquirida por Apple y Meta
Los matemáticos de LTH han estado trabajando con visión artificial durante décadas, mucho antes de que el aprendizaje automático y los autos autónomos estuvieran en la agenda, y están detrás de varias empresas derivadas como Spiideo, Cognimatics (adquirida por Axis), Mapillary (adquirida por Meta) y Polar Rose (adquirida por Apple).
Gracias al cambio tecnológico hacia la IA y el aprendizaje automático, el campo ha experimentado un gran crecimiento y ahora hay cientos de equipos de investigación en todo el mundo, tanto en el ámbito académico como, más recientemente, en el empresarial, trabajando en este campo.
Cómo la cámara obtiene la percepción de profundidad
Ahora es posible utilizar el aprendizaje automático para resolver problemas para los que antes no era posible encontrar una solución, como por ejemplo calcular las distancias a todos los objetos en la vista de la cámara a partir de una sola imagen.
Tradicionalmente, esto se ha solucionado utilizando dos cámaras, lo cual se basa en el mismo principio que el de tener dos ojos. Al examinar las diferencias entre las dos imágenes, tanto nosotros como las cámaras obtenemos una percepción de profundidad. Los objetos más cercanos se mueven más entre imágenes que los más lejanos.
“Los humanos todavía pueden calcular la distancia incluso con un ojo cerrado, gracias al conocimiento adquirido del mundo que nos rodea”.
Ahora es posible crear redes neuronales profundas que, al igual que el cerebro humano, pueden estimar la profundidad 3D a partir de una sola imagen. Además de que una cámara es más económica que dos, los sistemas estéreo (es decir, dos cámaras) suelen ser muy sensibles a errores de calibración, es decir, a la posición relativa de las cámaras.
La capacidad de crear tus propios mapas
Viktor Larsson trabaja principalmente en el desarrollo de nuevos métodos para crear reconstrucciones 3D de la realidad, permitiendo un posicionamiento más preciso.
El posicionamiento se ha resuelto tradicionalmente mediante GPS. Esta tecnología también es necesaria en los coches autónomos, pero como la resolución a veces puede fallar a cinco o diez metros, se requiere un posicionamiento más preciso para que el vehículo funcione de forma totalmente autónoma.
El GPS tampoco funcionará si se conduce por un túnel o por calles estrechas con edificios altos, donde las señales del satélite rebotan. Por lo tanto, es importante poder posicionar el vehículo con la ayuda de otros sensores.
Idealmente, los mapas deberían crearse con datos de sensores recopilados por los propios vehículos. Confiar en la información recopilada manualmente crea el riesgo de que los mapas queden obsoletos rápidamente y, por lo tanto, sean menos útiles.
“Por eso es importante poder actualizar los mapas con datos recopilados por los usuarios, para que los cambios en el entorno, como nuevos letreros de tiendas, obras viales o variaciones estacionales en la vegetación, se reflejen directamente en el mapa”.

Las oficinas y los entornos urbanos monótonos son un desafío
Una de las dificultades es que nuestras ciudades y entornos interiores están llenos de estructuras y elementos repetitivos, lo que puede generar incertidumbre en los algoritmos, explica Viktor Larsson.
Muchos edificios son simétricos, por lo que puede ser difícil distinguir qué lado del edificio se muestra en una imagen de la fachada. Existen problemas similares en interiores, donde muchos edificios tienen distribuciones similares en diferentes plantas y muchas oficinas se ven muy similares. Parte de mi investigación consiste en desarrollar nuevos métodos para abordar mejor estos problemas.
Gran salario o libertad
¿Cómo es trabajar en el ámbito académico en un campo tan comercializado? Al fin y al cabo, ¿no se puede ganar muchísimo dinero quien gane la carrera tecnológica?
Sí, las empresas ofrecen salarios mucho más altos a nuestros estudiantes y posdoctorados, lo que dificulta su retención. Las empresas también disfrutan de otras ventajas, como mayor acceso a datos y mayor capacidad de procesamiento. En congresos, es habitual que las empresas presenten sus investigaciones y publiquen artículos científicos… Pero también son más sensibles al ciclo económico. En Suecia, el mundo académico se encuentra en una posición relativamente favorable gracias a las iniciativas de Wallenberg y a programas de financiación gubernamentales como ELLIIT. Personalmente, prefiero trabajar en el mundo académico, ya que ofrece una libertad completamente diferente para explorar nuevos temas, lo cual me resulta estimulante.
Niveles de automatización de la conducción de la Sociedad de Ingenieros Automotrices
Nivel 0: Sin automatización de la conducción.
El conductor lo hace todo. El coche puede tener sistemas de advertencia (p. ej., aviso de colisión), pero no se dirige solo.
Nivel 1: Asistencia al conductor.
El sistema puede ayudar con una sola tarea a la vez , p. ej., el control de crucero adaptativo o el asistente de mantenimiento de carril. El conductor debe hacer el resto.
Nivel 2 – Automatización parcial de la conducción.
El vehículo puede gestionar simultáneamente la dirección y la aceleración/frenado en algunas situaciones (p. ej., Tesla Autopilot, Volvo Pilot Assist).
Sin embargo, el conductor debe estar siempre atento y preparado para tomar el control.
Nivel 3 – Automatización de conducción condicional.
El vehículo puede conducir de forma autónoma en ciertos entornos (p. ej., autopista) y gestionar todas las funciones de conducción.
Los conductores humanos deben poder tomar el control cuando sea necesario , pero no necesitan supervisar activamente la situación constantemente.
Nivel 4 – Alta automatización de la conducción.
El vehículo puede conducirse solo dentro de un área o escenario definido (p. ej., vecindario, geocerca).
No se requiere conductor humano dentro de esa área, pero fuera de ella el sistema no funciona.
Nivel 5 – Automatización total de la conducción.
El coche puede circular en cualquier lugar y situación donde un humano pueda conducir.
No se necesitan volante ni pedales: el conductor es completamente superfluo.
LUN UNIVERSITY News. Traducido al español