Calidad de los datos: cómo creció Airbnb

Siguiendo con su marco de certificación de datos críticos, Airbnb ha automatizado el proceso para sus otros activos.

Ahora que tenemos un proceso de certificación de datos, ¿cómo podemos implementarlo a escala de almacén de datos ? Airbnb realmente había comenzado a plantearse la cuestión en 2022.

El proceso en cuestión, llamado Midas, todavía existe. Airbnb lo introdujo en 2020, junto con una revisión de sus modelos de datos más críticos. De hecho, ha permitido aumentar su calidad… pero a costa de inversiones difíciles de reproducir a mayor escala.

Los propios productores de datos solicitaron un proceso más ligero, capaz de aportar determinadas garantías de Midas con menor rigor. La solución elegida fue un puntaje de calidad, asociado a cada activo . No vinculante a diferencia de Midas, pero diseñado para motivar a los equipos a contribuir a la calidad de los datos . Yendo más allá de la dicotomía certificado/no certificado.

La precisión como primer criterio

Cinco principios guiaron el desarrollo de la puntuación y sus criterios constitutivos: – Ámbito de aplicación (capacidad de cubrir cualquier activo)
– Naturaleza automatizable
– Facilidad de uso
– Aspecto multidimensional (capacidad de dividirlo en pilares de calidad de datos)
– Criterios de escalabilidad y sus definición

Airbnb finalmente se decidió por cuatro criterios:

> Precisión (40 puntos)
> Fiabilidad (existencia de SLA y cumplimiento de estos SLA; 15 puntos)
> Administración (canal de mantenimiento, validez de los parámetros de retención, etc.; 30 puntos)
> Usabilidad (documentación del conjunto de datos, descripción de tablas y columnas; 15 puntos)

Airbnb decidió informar esta puntuación en su catálogo central de metadatos y luego mostrarla en su portal de datos, el punto de partida para que sus equipos descubran y exploren datos. Lo presenta de tal manera que sea útil y comprensible para el mayor número de personas posible.

puntuación de presentación

La puntuación de calidad de los datos se amplió recientemente para cubrir Minerva , la plataforma de métricas internas. Siguiente paso: registros de eventos e ingeniería de funciones . Fuente : NetMedia desde Francia, traducido al español(CB)

Ilustración principal © TensorSpark – Adobe Stock

Comparte la nota:

Artículos relacionados

Scroll al inicio