La tecnología está mejorando el fútbol –, desde ayudar a los árbitros a tomar decisiones más precisas hasta desarrollar mejores tácticas en el campo. ETH Zurich y la FIFA están explorando cómo la IA puede hacer que estos avances sean más accesibles para las competiciones de todo el mundo.
En Breve
- Investigadores de ETH Zurich han digitalizado secuencias de juego de la Copa Mundial de la FIFA 2022, creando un conjunto de datos en el que las poses en 3D están disponibles para todos los jugadores en el campo simultáneamente.
- El conjunto de datos ahora se está utilizando como referencia como parte de un desafío de investigación internacional, organizado por la FIFA.
- El objetivo es desarrollar tecnologías que utilicen una sola cámara de difusión, a diferencia de los costosos sistemas multicámara actualmente en uso.
- Esto algún día haría que el análisis de rendimiento, el arbitraje o la participación de los fanáticos sean asequibles incluso para países y ligas con recursos limitados.
La inteligencia artificial (IA) ya se está utilizando en el fútbol hoy en día, analizando movimientos individuales y ayudando a los árbitros a evaluar si alguien estaba fuera de juego o no. Semi-Automated Offside Technology (SAOT) es utilizado por Video Assistant Referees (VARs) para tomar decisiones más justas. El sistema funciona mediante el uso de seguimiento digital en tiempo real de los movimientos y posiciones de los jugadores.
Hasta ahora, los sistemas asistidos por computadora solo han estado al alcance de las grandes competiciones de fútbol. Después de todo, estos sistemas son complejos y caros: se requieren de 10 a 12 cámaras estáticas que registran la acción desde varios ángulos para cada estadio. “Todas las cámaras deben estar perfectamente sincronizadas para producir una imagen digital precisa,” dice Tianjian Jiang, estudiante de doctorado en ciencias de la computación.
Jiang está llevando a cabo investigaciones en el Laboratorio de Tecnologías Interactivas Avanzadas (AIT) de ETH Zurich. Junto con colegas del laboratorio, está ayudando a FIFA – el Fédération Internationale de Football Association – para explorar soluciones tecnológicas que aumentarían el acceso a la IA en el fútbol. La idea subyacente es simplificar el sistema hasta tal punto que, en lugar de múltiples cámaras, solo requiere una. Después de todo, cada competencia profesional tiene una cámara que se utiliza para grabar y transmitir los juegos. Esta cámara de transmisión se encuentra en la línea de contacto y es la fuente de casi tres cuartas partes de todas las imágenes de un juego televisado.
Secuencias de juego totalmente digitalizadas
Todavía pasarán unos años antes de que el análisis de video de un juego funcione de manera confiable con una sola cámara, pero el AIT Lab ahora ha dado un paso decisivo en esta dirección. Los investigadores han digitalizado completamente casi 50 minutos de grabaciones de video de varios juegos en la Copa Mundial de la FIFA 2022.

El conjunto de datos ETH, conocido como página externaWorldPose, contiene más de 2,5 millones de poses de jugadores individuales en tres dimensiones. Por lo tanto, es posible rastrear a todos los jugadores en el campo, de ambos equipos, al mismo tiempo y analizar dónde están de pie y qué están haciendo con o sin la pelota.
En el aprendizaje automático, esto se conoce como estimación de pose. A diferencia de un ser humano, una computadora no puede ver y, por lo tanto, se basa en datos para detectar dónde las personas u objetos están dentro de un espacio y cómo se mueven.
A través de un entrenamiento constante, la computadora aprende a procesar e interpretar información a partir de datos de imágenes y videos. La visión por computadora requiere grandes volúmenes de datos, que la computadora analiza repetidamente hasta que identifica diferencias y finalmente detecta patrones. Los algoritmos permiten que la máquina aprenda por sí misma en lugar de tener que ser programada por humanos.
3D con una sola cámara
Ya existen algoritmos que pueden generar objetos y cuerpos tridimensionales directamente a partir de una imagen bidimensional. En “monocular pose estimation” (MPE), una computadora usa imágenes de una sola cámara para detectar dónde están las personas u objetos en el espacio, cómo se mueven y hacia dónde. Por lo tanto, la computadora analiza la pose y la trayectoria de cada jugador sin el tipo de información de profundidad que proporcionaría una cámara 3D o varias cámaras.
Los métodos de MPE existentes ahora son muy buenos para predecir las poses de jugadores individuales. Sin embargo, tienen problemas para rastrear a varias personas al mismo tiempo – particularmente a grandes distancias, como las cubiertas por futbolistas durante un juego de 90 minutos. “Queremos encontrar un algoritmo que sea lo suficientemente preciso incluso a grandes distancias,” dice Jiang.

Más difícil de lo esperado
La FIFA se acercó a ETH Zurich en 2021 en busca de un conjunto de datos para que las computadoras pudieran ser entrenadas para estimar poses. También querían saber qué tan buenos eran realmente los métodos de MPE existentes. Con este fin, la FIFA proporcionó a los investigadores varias secuencias de video de la Copa Mundial 2022 en Qatar, que se grabaron con diferentes cámaras (estacionarias y móviles), así como datos adicionales, como las dimensiones exactas del campo de juego dentro de los estadios individuales.
Esta tarea mantuvo ocupados a los investigadores de ETH durante tres años – una eternidad en el mundo de la IA que avanza rápidamente. “Al principio, pensamos que podríamos obtener rápidamente un conjunto de datos preciso,” recuerda Jiang. “Ya teníamos un sistema que podía representar poses y trayectorias precisamente en forma digital, y asumimos que esto sería fácil de aplicar a las imágenes de la Copa del Mundo.”
Pronto se dieron cuenta de que existe una gran diferencia entre simplemente digitalizar secuencias individuales y aplicar el sistema a un conjunto de datos más grande. Por ejemplo, los desafíos técnicos incluyeron obstrucción del jugador, desenfoque de movimiento y problemas con la calibración de la cámara. Las distorsiones de las diversas cámaras o el zoom de la cámara de transmisión también demostraron ser complicadas.
Las líneas deben coincidir perfectamente
Para garantizar que los jugadores digitales terminaran superpuestos con precisión sobre los jugadores reales, los investigadores primero tuvieron que calibrar y comparar las imágenes de video de varias cámaras estáticas de un estadio – con diferentes ángulos. La calibración sirve para determinar con precisión las propiedades específicas de cada cámara, como la distancia focal o el tamaño del sensor, y para ajustar la cámara para que registre la realidad con la mayor precisión posible. Esto se debe a que cada cámara sufre ciertas distorsiones debido a su óptica, como cuando se trata de representar líneas rectas.
Las líneas de referencia digitales se colocan sobre la imagen de la cámara como una ayuda visual. Esta superposición muestra qué tan bien funciona la calibración o si todavía hay distorsiones. “Si la calibración es correcta, la línea de campo digital se superpone perfectamente con la real – desde todos los ángulos,” dice Jiang.
La computadora puede usar los parámetros coordinados con precisión de las cámaras estáticas para estimar las poses y trayectorias de players’. Usando el modelo SMPL, que se usa ampliamente en la visión por computadora, el cuerpo digital está representado para que esté lo más cerca posible del original humano.1 /7











Los empleados de la FIFA recopilan datos de captura de movimiento que se utilizan para validar diferentes tecnologías de seguimiento. Los puntos blancos en jugadores, pelotas y líneas de campo de juego son marcadores reflectantes que son rastreados por cámaras infrarrojas de alta precisión. Estos datos se comparan con los datos proporcionados por esta tecnología para evaluar la precisión del sistema. (Imagen: FIFA)
Estos datos se utilizan para “alimentar” la cámara de transmisión móvil, que también se calibra – moviéndola en todas las direcciones, por ejemplo, y acercándola y alejándola. Si los datos reales y digitales se superponen correctamente, ahora es posible representar la posición exacta, la trayectoria y la pose de los jugadores individuales en el campo digitalmente en tres dimensiones – usando solo una cámara.
Zoom llevó el sistema a sus límites
Usando su conjunto de datos, los investigadores de ETH pudieron hacer una comparación detallada de si una sola cámara con la tecnología MPE existente es capaz de detectar a un jugador en una posición fuera de juego lo suficiente o no. En su estudio, que se presentó en la Conferencia Europea sobre Visión por Computadora en Milán, los científicos informáticos descubrieron que los métodos existentes luchan con este nuevo conjunto de datos, destacando posibles nuevas direcciones de investigación.
Las estimaciones de poses con una sola cámara pueden determinar poses y movimientos en un espacio pequeño con un alto grado de precisión, incluso en el caso de una distancia focal larga o si hay una larga distancia entre la persona y la cámara. Los modelos MPE también funcionan relativamente bien con secuencias de movimiento individuales, pero luchan por determinar las posiciones relativas de múltiples jugadores en el mismo espacio. Acercarse y salir con la cámara resultó ser particularmente exigente. “Esto nos confirmó que aún se necesita mucha investigación para lograr un sistema estable y funcional,” dice Jiang.
Datos publicados para la competencia
Con el conjunto de datos de WorldPose, el objetivo ahora es que otros científicos entrenen sus sistemas y desarrollen algoritmos para que el análisis preciso de IA sea posible con una sola cámara móvil en el futuro. Con este fin, la FIFA ha lanzado un página externaDesafío de Innovación. Además del conjunto de datos ETH, la FIFA también proporciona secuencias de video de juegos de fútbol para esta competencia de investigación internacional, aunque – esta vez – solo desde la cámara de transmisión.
“A medida que compartimos los datos con otros, esto podría acelerar la investigación en esta área,” dice Jiang. “Si los modelos que proporcionan un análisis preciso con una sola cámara algún día logran la misma calidad que nuestro conjunto de datos, la tecnología será adecuada para un uso generalizado
Hasta ahora, más de 150 investigadores de todo el mundo ya han respondido al anuncio de la competencia. ETH Zurich también continúa entrenando sus sistemas. Jiang dice: “Weicill continúa trabajando en el conjunto de datos y desarrolla más modelos nosotros mismos.” ETH Zürich News. C. L. Traducido al español