
Hacer que la IA sea más accesible en el fútbol
La tecnología está mejorando el fútbol –, desde ayudar a los árbitros a tomar decisiones más precisas hasta desarrollar mejores tácticas en el campo. ETH Zurich y la FIFA están explorando cómo la IA puede hacer que estos avances sean más accesibles para las competiciones de todo el mundo. En Breve La inteligencia artificial (IA) ya se está utilizando en el fútbol hoy en día, analizando movimientos individuales y ayudando a los árbitros a evaluar si alguien estaba fuera de juego o no. Semi-Automated Offside Technology (SAOT) es utilizado por Video Assistant Referees (VARs) para tomar decisiones más justas. El sistema funciona mediante el uso de seguimiento digital en tiempo real de los movimientos y posiciones de los jugadores. Hasta ahora, los sistemas asistidos por computadora solo han estado al alcance de las grandes competiciones de fútbol. Después de todo, estos sistemas son complejos y caros: se requieren de 10 a 12 cámaras estáticas que registran la acción desde varios ángulos para cada estadio. “Todas las cámaras deben estar perfectamente sincronizadas para producir una imagen digital precisa,” dice Tianjian Jiang, estudiante de doctorado en ciencias de la computación. Jiang está llevando a cabo investigaciones en el Laboratorio de Tecnologías Interactivas Avanzadas (AIT) de ETH Zurich. Junto con colegas del laboratorio, está ayudando a FIFA – el Fédération Internationale de Football Association – para explorar soluciones tecnológicas que aumentarían el acceso a la IA en el fútbol. La idea subyacente es simplificar el sistema hasta tal punto que, en lugar de múltiples cámaras, solo requiere una. Después de todo, cada competencia profesional tiene una cámara que se utiliza para grabar y transmitir los juegos. Esta cámara de transmisión se encuentra en la línea de contacto y es la fuente de casi tres cuartas partes de todas las imágenes de un juego televisado. Secuencias de juego totalmente digitalizadas Todavía pasarán unos años antes de que el análisis de video de un juego funcione de manera confiable con una sola cámara, pero el AIT Lab ahora ha dado un paso decisivo en esta dirección. Los investigadores han digitalizado completamente casi 50 minutos de grabaciones de video de varios juegos en la Copa Mundial de la FIFA 2022. El conjunto de datos ETH, conocido como página externaWorldPose, contiene más de 2,5 millones de poses de jugadores individuales en tres dimensiones. Por lo tanto, es posible rastrear a todos los jugadores en el campo, de ambos equipos, al mismo tiempo y analizar dónde están de pie y qué están haciendo con o sin la pelota. En el aprendizaje automático, esto se conoce como estimación de pose. A diferencia de un ser humano, una computadora no puede ver y, por lo tanto, se basa en datos para detectar dónde las personas u objetos están dentro de un espacio y cómo se mueven. A través de un entrenamiento constante, la computadora aprende a procesar e interpretar información a partir de datos de imágenes y videos. La visión por computadora requiere grandes volúmenes de datos, que la computadora analiza repetidamente hasta que identifica diferencias y finalmente detecta patrones. Los algoritmos permiten que la máquina aprenda por sí misma en lugar de tener que ser programada por humanos. 3D con una sola cámara Ya existen algoritmos que pueden generar objetos y cuerpos tridimensionales directamente a partir de una imagen bidimensional. En “monocular pose estimation” (MPE), una computadora usa imágenes de una sola cámara para detectar dónde están las personas u objetos en el espacio, cómo se mueven y hacia dónde. Por lo tanto, la computadora analiza la pose y la trayectoria de cada jugador sin el tipo de información de profundidad que proporcionaría una cámara 3D o varias cámaras. Los métodos de MPE existentes ahora son muy buenos para predecir las poses de jugadores individuales. Sin embargo, tienen problemas para rastrear a varias personas al mismo tiempo – particularmente a grandes distancias, como las cubiertas por futbolistas durante un juego de 90 minutos. “Queremos encontrar un algoritmo que sea lo suficientemente preciso incluso a grandes distancias,” dice Jiang. Más difícil de lo esperado La FIFA se acercó a ETH Zurich en 2021 en busca de un conjunto de datos para que las computadoras pudieran ser entrenadas para estimar poses. También querían saber qué tan buenos eran realmente los métodos de MPE existentes. Con este fin, la FIFA proporcionó a los investigadores varias secuencias de video de la Copa Mundial 2022 en Qatar, que se grabaron con diferentes cámaras (estacionarias y móviles), así como datos adicionales, como las dimensiones exactas del campo de juego dentro de los estadios individuales. Esta tarea mantuvo ocupados a los investigadores de ETH durante tres años – una eternidad en el mundo de la IA que avanza rápidamente. “Al principio, pensamos que podríamos obtener rápidamente un conjunto de datos preciso,” recuerda Jiang. “Ya teníamos un sistema que podía representar poses y trayectorias precisamente en forma digital, y asumimos que esto sería fácil de aplicar a las imágenes de la Copa del Mundo.” Pronto se dieron cuenta de que existe una gran diferencia entre simplemente digitalizar secuencias individuales y aplicar el sistema a un conjunto de datos más grande. Por ejemplo, los desafíos técnicos incluyeron obstrucción del jugador, desenfoque de movimiento y problemas con la calibración de la cámara. Las distorsiones de las diversas cámaras o el zoom de la cámara de transmisión también demostraron ser complicadas. Las líneas deben coincidir perfectamente Para garantizar que los jugadores digitales terminaran superpuestos con precisión sobre los jugadores reales, los investigadores primero tuvieron que calibrar y comparar las imágenes de video de varias cámaras estáticas de un estadio – con diferentes ángulos. La calibración sirve para determinar con precisión las propiedades específicas de cada cámara, como la distancia focal o el tamaño del sensor, y para ajustar la cámara para que registre la realidad con la mayor precisión posible. Esto se debe a que cada cámara sufre ciertas distorsiones debido a su óptica, como cuando se trata de representar líneas rectas. Las líneas de referencia digitales se colocan sobre la imagen