La digitalización y los avances en computación han permitido el acceso a la era del Big Data en la que, originalmente, se postularon cuatro características esenciales para asegurar la calidad de datos, conocidas como las 4 V’s: Volumen, Velocidad, Variedad y Veracidad.

Sin embargo, de forma inversamente proporcional al surgimiento de nuevas fuentes de datos, la calidad y la precisión de los mismos ha ido mermando. Actualmente, se estima que cerca del 25% de los nuevos datos generados son imprecisos, incompletos, fragmentados o, simplemente, falsos. Así, debe entenderse que la Veracidad se constituye como una propiedad subyacente al resto de V’s y un pilar clave sobre el que edificar la seguridad y fiabilidad de las predicciones.

 

¿Cuáles son los riesgos?

Pueden identificarse, al menos, dos perspectivas complementarias sobre el Data Quality: Calidad de la información, relacionada especialmente con el Volumen y la Variedad. Un dataset de calidad debe proceder de fuentes lo más heterogéneas posibles y, además, con un volumen de datos tal que los sistemas de minería de datos sean capaces de extraer la mayor información posible con la suficiente significancia estadística.

Veracidad de la información: en ocasiones, se puede acceder a ingentes cantidades de datos, correctamente formateados y con valores plausibles… pero que son falsos: fake news, respuestas a encuestas/formularios, imágenes manipuladas, etc.

Así, hablar de Data Quality no alude únicamente a la ausencia de errores de formato o valores duplicados; es necesario también que la información aportada al modelo sea veraz y no comprometa la seguridad de la toma de decisiones. Un ejemplo en el que se pueden encontrar este tipo de situaciones es en la prevención de fraude, donde las técnicas de profiling son atacadas mediante mecanismos de suplantación de identidad. Esto puede afectar a la competitividad y capacidad estratégica e introducir sesgos que afecten a otros clientes y, con ello, a la imagen de la marca.

 

 

¿Qué se debe hacer para asegurar la calidad y veracidad de los datos?

Cabe mencionar que, tradicionalmente, velar por la calidad y estandarización de los datos ha sido propuesto como una mejora en la eficiencia. Sin embargo, empieza también a establecerse como un requisito legal, con el objetivo de poder responder y respetar algunas peticiones de los usuarios relativas a la manipulación, privacidad y uso de sus datos RGPD. Mejorar la transparencia también mejorará la imagen de la marca.

Asegurar la calidad de los datos es un proceso colaborativo de control y refinamiento continuo e iterativo, no una acción puntual en el tiempo. Nuevas figuras, como el data quality engineer, se encargan de planificar y supervisar este proceso.

Existen dos etapas diferenciadas de las que depende la calidad de los datos:

1. Diseño

Los gastos que puede suponer desplegar un proyecto con un mal diseño son muchos más altos que la inversión necesaria para asegurar una adquisición de datos de calidad. Dicho diseño comprende desde estructurar la implementación de nuevas formas de adquisición, la actualización de las tecnologías de bases de datos o la incorporación de personal formado, hasta la planificación de los proyectos atendiendo a problemas estadísticos como son los sesgos, data y/o model drifts. Algunas estrategias que pueden seguirse para mejorar el diseño son:

  • Realizar prototipos con bases de datos existentes y analizar qué tipos de variables ofrecen mejor relación coste-beneficio, posibles fuentes de error, etc.

 

  • Revisar los históricos y evaluar si pueden armonizarse de forma consistente con la nueva adquisición de datos, lo que aumenta el poder estadístico y la capacidad predictiva. Además, esta acción también puede servir para deducir que registros han sido erróneos o conflictivos, para evitarlos o diseñar alternativas.

 

  • Diseñar un formato homogéneo para los datos recogidos a partir de distintas fuentes, permitiendo ser explotados de forma automática. La aparición de apps, la adaptación de estándares o conceptos como la identidad digital única son otras potentes herramientas que contribuyen al diseño en sectores como la banca o el retail.

 

2. Análisis

La calidad del dato no puede ser definida en términos absolutos. Depende mucho de si estos se adecúan a la finalidad para la que están destinados. En este punto, es necesario contar con personal cualificado para realizar tareas como la detección de errores o la transformación de variables.

Sin embargo, hay muchos procesos que pueden ser automatizados, mejorando enormemente la eficiencia y los costes. En este caso, DEYDE, como empresa especialista en calidad de datos, puede ayudarte a automatizar una correcta normalización, limpieza y corrección de los datos identificativos, como la deduplicación de datos o la corrección de direcciones ilocalizables mediante su suite normalizadora MyDataQ.

 

Conclusión

Los modelos pueden verse afectados no solo por un mal estado de los datos sino también por fuentes que introducen información incorrecta, reduciendo seriamente la fiabilidad y seguridad en la toma de decisiones. La calidad de una determinada marca estará asociada por lo tanto a un correcto diseño del proyecto y a un tratamiento adecuado de los datos recogidos.

Desde DEYDE ponemos a tu disposición MyDataQ, una solución para mejorar la calidad tus datos que te ayudará a extraer información de valor. No dudes en consultarnos para adaptar nuestras soluciones a las necesidades de tu empresa.

Share This