Una buena política de Data Quality va a suponer siempre efectividad y ahorro. En DEYDE conocemos perfectamente la importancia que tiene una correcta depuración de las bases de datos tanto a la hora de tomar decisiones estratégicas como respecto a su influencia en los costes de la empresa.

Problemas derivados de la duplicación de datos

Hace solo unos años podíamos pensar que el hardware superaba con mucho margen las necesidades que teníamos empresas y usuarios. La memoria se abarataba hasta precios que parecían casi ridículos y las capacidades de almacenamiento físico se incrementaban a terabytes, petabytes y exabytes como si ese proceso no fuese a tener fin.

Probablemente nadie pensaba que el big data iba muy pronto a dejar pequeños estos recursos ni que la competitividad iba a dar un salto cuantitativo y cualitativo tan grande. Un cambio promovido por las decisiones automáticas tomadas en función del análisis masivo de datos.

Sin embargo, hoy nos enfrentamos a los problemas derivados del procesamiento de estas inmensas cantidades de datos, de sus copias de seguridad y de su almacenamiento.

Una mala estrategia de depuración de datos genera dos grandes grupos de costes.

Los costes de oportunidad de no detectar duplicados

Si la toma de decisiones en las empresas y su competitividad se fundamentan, de una forma creciente, en el análisis estadístico de datos, parece lógico pensar que si estos datos no reúnen la calidad necesaria estas decisiones tampoco la tendrán.

Por otro lado, una de las principales leyes de la estadística nos dice que cuanto mayor sea la muestra, es decir, la cantidad de datos fiables, menor será la desviación posible y, por tanto, mayor será el acierto.

Es indudable que acertar o no acertar en la toma de decisiones de cualquiera de los procesos de una actividad empresarial supone unos costes. Costes que denominamos de oportunidad porque derivan precisamente de tomar las decisiones correctas en el momento oportuno.

La calidad de los datos se hace imprescindible y si tenemos datos que se encuentran duplicados, por ejemplo, en un 20 %, este mismo porcentaje se trasladará a la falta de acierto de las decisiones a tomar.

La deduplicación de registros de las bases de datos considera estos contenidos duplicados para poder tomar las decisiones oportunas en cuanto a su depuración.

Reduciendo significativamente los datos duplicados estamos incrementando nuestro margen de acierto en la toma de decisiones y haciéndonos más eficaces y competitivos.

Los costes físicos

Imaginemos una base de datos duplicada en su totalidad. Con toda seguridad provocará que tengamos que duplicar el espacio de almacenamiento generando unos costes que mediante un proceso de depuración serían innecesarios.

Pero más allá del puro espacio de almacenamiento hemos de considerar la capacidad de procesamiento. Miles de datos procesados innecesariamente ralentizarán todo el proceso de análisis. Esto nos obliga a realizar importantes inversiones en bienes de equipo que realmente son innecesarios.

El consumo energético es otro de los gastos a considerar. Más datos se traducen en mayor tiempo de procesamiento; mayor capacidad de los microprocesadores; instalaciones más potentes y complejas; necesidades extra de refrigeración y un largo etcétera de efectos colaterales que se traducen en facturas incrementadas por datos innecesarios.

Las necesidades de memoria cuando nos dirigimos hacía sistemas de inteligencia artificial, análisis en tiempo real y machine learning se incrementan de igual manera. Las tecnologías más avanzadas apuntan a la agilización de todos los procesos mediante las bases de datos en memoria.

Pero todo este incremento de tiempos de procesamiento o de detectar por qué las decisiones tomadas no están dando los resultado apetecidos y previstos repercuten en la necesaria asignación de recursos humanos extras.

No hay una sola acción que no tenga una respuesta con un efecto y, como se puede ver, trabajar con bases de datos sin depurar, con datos duplicados o dañados, provoca toda una serie de consecuencias encadenadas que repercuten en todas las áreas de la actividad. Esto provoca un importante aumento de los costes y falta de competitividad.

Importancia del Data Quality para la empresa

Mediante el análisis de duplicación somos capaces de detectar hasta un noventa por ciento de la información duplicada en las bases de datos, con la consiguiente reducción de costes en todos los aspectos y la garantía de estar trabajando con una información de calidad.

Pero, a menudo, no basta con detectar los duplicados y marcar esos registros para someterlos a escrutinio. Detectar las fuentes de duplicación y establecer procedimientos correctores es fundamental para que no se vuelvan a producir estos registros duplicados o minimizar su generación.

La correcta política de Data Quality supone para la empresa la posibilidad de ajustar sus costes sin renunciar al necesario procesamiento de datos útiles para la toma de decisiones, incrementando sus recursos de una forma eficaz y posicionándose sobre su competencia. Para recorrer ese camino, puedes contar con DEYDE.

imagen

Share This