Los investigadores de la biodiversidad probaron los sistemas de visión para ver qué tan bien podían recuperar imágenes relevantes de la naturaleza. Los modelos más avanzados funcionaron bien con consultas simples, pero tuvieron dificultades con indicaciones más específicas de la investigación.
Intente tomar una fotografía de cada una de las aproximadamente 11.000 especies de árboles de Norteamérica y obtendrá apenas una fracción de los millones de fotografías que hay en los conjuntos de datos de imágenes de la naturaleza. Estas enormes colecciones de instantáneas (que abarcan desde mariposas hasta ballenas jorobadas ) son una gran herramienta de investigación para los ecologistas porque proporcionan evidencia de los comportamientos únicos de los organismos, condiciones raras, patrones de migración y respuestas a la contaminación y otras formas de cambio climático.
Si bien son completos, los conjuntos de datos de imágenes de la naturaleza aún no son tan útiles como podrían serlo. Es una tarea que requiere mucho tiempo buscar en estas bases de datos y recuperar las imágenes más relevantes para su hipótesis. Le convendría más contar con un asistente de investigación automatizado, o quizás con sistemas de inteligencia artificial llamados modelos de lenguaje de visión multimodal (VLM, por sus siglas en inglés). Estos están entrenados tanto con texto como con imágenes, lo que les permite identificar con mayor facilidad detalles más precisos, como los árboles específicos en el fondo de una foto.
Pero, ¿hasta qué punto pueden los VLM ayudar a los investigadores de la naturaleza con la recuperación de imágenes? Un equipo del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT, el University College de Londres, iNaturalist y otros diseñaron una prueba de rendimiento para averiguarlo. La tarea de cada VLM: localizar y reorganizar los resultados más relevantes dentro del conjunto de datos “INQUIRE” del equipo, compuesto por 5 millones de imágenes de vida silvestre y 250 indicaciones de búsqueda de ecólogos y otros expertos en biodiversidad.
En busca de esa rana especial
En estas evaluaciones, los investigadores descubrieron que los VLM más grandes y avanzados, que se entrenan con muchos más datos, a veces pueden brindarles a los investigadores los resultados que quieren ver. Los modelos se desempeñaron razonablemente bien en consultas sencillas sobre contenido visual, como identificar desechos en un arrecife, pero tuvieron dificultades significativas con consultas que requieren conocimientos especializados, como identificar condiciones biológicas o comportamientos específicos. Por ejemplo, los VLM descubrieron con cierta facilidad ejemplos de medusas en la playa, pero tuvieron dificultades con indicaciones más técnicas como «axantismo en una rana verde», una condición que limita su capacidad para hacer que su piel se vuelva amarilla.
Sus hallazgos indican que los modelos necesitan datos de entrenamiento mucho más específicos del dominio para procesar consultas difíciles. El estudiante de doctorado del MIT Edward Vendrow, un afiliado de CSAIL que codirigió el trabajo sobre el conjunto de datos en un nuevo artículo , cree que al familiarizarse con datos más informativos, los VLM podrían algún día ser grandes asistentes de investigación. «Queremos construir sistemas de recuperación que encuentren los resultados exactos que buscan los científicos al monitorear la biodiversidad y analizar el cambio climático», dice Vendrow. «Los modelos multimodales aún no entienden del todo el lenguaje científico más complejo, pero creemos que INQUIRE será un punto de referencia importante para rastrear cómo mejoran en la comprensión de la terminología científica y, en última instancia, ayudar a los investigadores a encontrar automáticamente las imágenes exactas que necesitan».
Los experimentos del equipo ilustraron que los modelos más grandes tendían a ser más efectivos tanto para búsquedas más simples como para búsquedas más complejas debido a sus amplios datos de entrenamiento. Primero utilizaron el conjunto de datos INQUIRE para probar si los VLM podían limitar un grupo de 5 millones de imágenes a los 100 resultados más relevantes (también conocido como «clasificación»). Para consultas de búsqueda sencillas como «un arrecife con estructuras artificiales y escombros», modelos relativamente grandes como » SigLIP » encontraron imágenes coincidentes, mientras que los modelos CLIP de menor tamaño tuvieron dificultades. Según Vendrow, los VLM más grandes «apenas están comenzando a ser útiles» para clasificar consultas más difíciles.
Vendrow y sus colegas también evaluaron qué tan bien los modelos multimodales podían reclasificar esos 100 resultados, reorganizando qué imágenes eran más pertinentes para una búsqueda. En estas pruebas, incluso los LLM enormes entrenados con datos más seleccionados, como GPT-4o, tuvieron dificultades: su puntaje de precisión fue solo del 59,6 por ciento, el puntaje más alto alcanzado por cualquier modelo.
Los investigadores presentaron estos resultados en la Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS) a principios de este mes.
Consultas para INQUIRE
El conjunto de datos INQUIRE incluye consultas de búsqueda basadas en discusiones con ecólogos, biólogos, oceanógrafos y otros expertos sobre los tipos de imágenes que buscarían, incluidas las condiciones físicas y los comportamientos únicos de los animales. Luego, un equipo de anotadores pasó 180 horas buscando en el conjunto de datos de iNaturalist con estas indicaciones, revisando cuidadosamente aproximadamente 200.000 resultados para etiquetar 33.000 coincidencias que encajaban en las indicaciones.
Por ejemplo, los anotadores utilizaron consultas como “un cangrejo ermitaño que usa desechos plásticos como caparazón” y “un cóndor de California etiquetado con un ’26’ verde” para identificar los subconjuntos del conjunto de datos de imágenes más grande que representan estos eventos específicos y raros.
Luego, los investigadores utilizaron las mismas consultas de búsqueda para ver qué tan bien los VLM podían recuperar imágenes de iNaturalist. Las etiquetas de los anotadores revelaron cuándo los modelos tenían dificultades para comprender las palabras clave de los científicos, ya que sus resultados incluían imágenes etiquetadas previamente como irrelevantes para la búsqueda. Por ejemplo, los resultados de los VLM para «árboles de secuoya con cicatrices de fuego» a veces incluían imágenes de árboles sin ninguna marca.
“Se trata de una selección cuidadosa de los datos, con el objetivo de captar ejemplos reales de investigaciones científicas en las áreas de investigación de la ecología y la ciencia medioambiental”, afirma Sara Beery, profesora adjunta de Desarrollo Profesional Homer A. Burnell en el MIT, investigadora principal de CSAIL y coautora principal del trabajo. “Ha resultado vital para ampliar nuestra comprensión de las capacidades actuales de los VLM en estos entornos científicos potencialmente impactantes. También ha puesto de relieve lagunas en la investigación actual que ahora podemos trabajar para abordar, en particular en lo que respecta a consultas de composición complejas, terminología técnica y las diferencias sutiles y de grano fino que delinean categorías de interés para nuestros colaboradores”.
“Nuestros hallazgos implican que algunos modelos de visión ya son lo suficientemente precisos como para ayudar a los científicos especializados en vida silvestre a recuperar algunas imágenes, pero muchas tareas aún son demasiado difíciles incluso para los modelos más grandes y de mejor rendimiento”, dice Vendrow. “Aunque INQUIRE se centra en la ecología y el monitoreo de la biodiversidad, la amplia variedad de sus consultas significa que los VLM que funcionan bien en INQUIRE probablemente se destaquen en el análisis de grandes colecciones de imágenes en otros campos de observación intensiva”.
Las mentes inquietas quieren ver
Para llevar su proyecto más allá, los investigadores están trabajando con iNaturalist para desarrollar un sistema de búsqueda que ayude a los científicos y otras mentes curiosas a encontrar las imágenes que realmente quieren ver. Su demostración funcional permite a los usuarios filtrar las búsquedas por especie, lo que permite descubrir más rápidamente los resultados relevantes, como, por ejemplo, los diversos colores de ojos de los gatos. Vendrow y el coautor principal Omiros Pantazis, que recientemente recibió su doctorado en el University College de Londres, también pretenden mejorar el sistema de reclasificación ampliando los modelos actuales para ofrecer mejores resultados.
El profesor asociado de la Universidad de Pittsburgh, Justin Kitzes, destaca la capacidad de INQUIRE para descubrir datos secundarios. “Los conjuntos de datos sobre biodiversidad se están volviendo rápidamente demasiado grandes para que cualquier científico individual pueda revisarlos”, dice Kitzes, que no participó en la investigación. “Este artículo llama la atención sobre un problema difícil y sin resolver, que es cómo buscar de manera efectiva en dichos datos con preguntas que van más allá de simplemente ‘quién está aquí’ para preguntar en cambio sobre las características individuales, el comportamiento y las interacciones entre especies. Ser capaz de descubrir de manera eficiente y precisa estos fenómenos más complejos en los datos de imágenes de biodiversidad será fundamental para la ciencia fundamental y los impactos del mundo real en la ecología y la conservación”.
Vendrow, Pantazis y Beery escribieron el artículo junto con el ingeniero de software de iNaturalist Alexander Shepard, los profesores del University College de Londres Gabriel Brostow y Kate Jones, el profesor asociado y coautor principal de la Universidad de Edimburgo Oisin Mac Aodha y el profesor adjunto de la Universidad de Massachusetts en Amherst Grant Van Horn, quien se desempeñó como coautor principal. Su trabajo fue financiado, en parte, por el Laboratorio de IA Generativa de la Universidad de Edimburgo, el Centro Global sobre IA y Cambio de la Biodiversidad de la Fundación Nacional de Ciencias de Estados Unidos/Consejo de Investigación en Ciencias Naturales e Ingeniería de Canadá, una subvención de investigación de la Royal Society y el Proyecto de Salud del Bioma financiado por el Fondo Mundial para la Naturaleza del Reino Unido. MIT News. A.S. Traducido al español