La Normalización de Datos es, como la propia palabra indica, el acto de establecer una norma sobre algo.

Dentro de la normalización de datos encontramos un amplio abanico de posibilidad de datos a normalizar dentro de cada empresa. En el caso que nos ocupa, asociado a la labor de DEYDE, hablamos de normalización de direcciones y de nombres. De este modo, en DEYDE:

Separamos una dirección en tipo de vía + nombre de vía + número de vía + resto de vía + código postal + población. Además, normalizamos esa misma dirección si en lugar de “resto de vía”, dividimos ese campo en piso + puerta + letra + bloque + escalera. Otros datos donde aplicamos la normalización es a la hora de separar un nombre en los distintos campos posibles, es decir, nombre + primer apellido + segundo apellido. Asimismo normalizaríamos ese mismo nombre si lo separásemos en nombre + nexo del primero apellido + primer apellido + nexo del segundo apellido + segundo apellido.

 

CAMPIFICACIÓN DE DATOS

En este sentido, al normalizar lo que hacemos es separar la información de origen en diferentes campos, y por ello hablamos también de términos como campificar o parsear la información.

Esta normalización también la realizamos cuando existen varias formas de escribir una palabra como Avenida: avda, avd., av., avenida,…, y la convertimos en una sola, como por ejemplo ‘AVDA’. Lo mismo sucede al hablar de las formas de escribir Izquierda: izq, izda IZQDA, que pasamos a convertir en ‘IZDA’.

En todos los casos, establecemos normas y vemos también que la normalización permite a su vez la corrección de los datos. Por ejemplo si nos llega un nombre como “FANCISCO MTNEZ” el proceso de normalización, además de separar en nombre y apellido, lo corregiría como “FRANCISCO MARTINEZ”, gracias a tablas de conocimiento que relacionan palabras con su corrección.

Un tipo de datos a normalizar de tipo numérico son los teléfonos, con acciones como la de asignar siempre el prefijo, separar el prefijo del número de teléfono en diferentes campos, eliminar los caracteres no numéricos del teléfono… En el caso de los documentos de identidad, también podemos normalizarlo eliminando caracteres no alfanuméricos (puntos, guiones, comas, …).

 

CODIFICACIÓN  DE DATOS

En ocasiones a la labor de normalizar también se le denomina estandarizar, o lo que es lo mismo, aplicar un estándar. Ciertos datos, una vez normalizados, son susceptibles de ser codificados (asignar un código único al elemento tratado)

En DEYDE el concepto de codificar se aplica a las poblaciones y calles en el proceso de normalización de direcciones postales. De este modo, cada población y cada calle existente (en nuestros maestros) tiene un código único, asociado a la forma correcta de denominar a esas poblaciones y calles. Cuando codificamos un dato, además del propio acto en sí mismo, estamos confirmando que ese dato existe en un catálogo concreto, en nuestro caso, que existe en nuestros maestros.

De este modo, un dato puede estar normalizado pero no estar codificado. Por ejemplo:

  • La dirección ‘Calle Chile 4 28000 Las Matas’ se normaliza como ‘CL CHILE 4 28000 LAS MATAS’. Codificamos la población y la calle, ya que existe en dicha población.
  • La dirección ‘C/ Chile 4 28.000 Madrid’ se normaliza como ‘CL CHILE 4 28000 MADRID’. Codificamos la población, pero no la calle, ya que no existe en dicha población.

Por contrario, otros datos, como el caso de los nombres, no se codifican ya que no tiene mucho sentido. Podríamos poner un código a todos los que se llaman “LUIS”, y otro código para todos los que se apellidan “MARTINEZ”, el problema es que no existe una lista completa de todos los nombres y apellidos con los que nos podemos encontrar. Por el contrario, el número de calles y poblaciones, está más limitado, por mucho que sea elevado.

Apostar por una buena calidad de datos es evitar tomas de decisiones erróneas futuras, apostar por una base de datos limpia y normalizada, y ahorrar en costos directos por duplicación. Si estás interesado en normalizar tu base de datos o las de tus clientes desde DEYDE recomendamos nuestra solución MyDataQ. ¡Ponte en contacto con nosotros y solicita más información!

Share This