Česky | English
Portada > Soluciones > Soluciones de las TI > Limpieza de datos

Limpieza de datos

Los datos de alta calidad son indispensables para conseguir alta calidad de los resultados.

Los productos semifabricados que pasan por una cadena de producción tendrían que satisfacer las exigencias de alta calidad en cada fase de la producción. En caso contrario, tanto la calidad del producto final como la efectividad de la producción serían bajas. Lo mismo vale para los datos. Tomamos como ejemplo una oferta de marketing enviada por una empresa a sus clientes.

Si los datos son de baja calidad, la oferta puede llegar a una dirección varias veces o puede llegar ahí en varias copias - para cada uno de los miembros de la misma familia - o hasta puede no llegar a esta familia. Las pérdidas resultantes son:

  • las entradas que se pueden contar
    • el franqueo
    • los gastos de manejar los envíos
  • las entradas que se pueden contar con dificultad
    • mala imágen de la empresa ante los clientes y - como consequencia - una mayor huida de éstos
    • el lucro cesante (tal como resultó de las oportunidades no realizadas) - una oferta consolidada habría podido contener una mezcla de servicios - de una composición diferente - destinados para todos los miembros de la familia

Por eso es de altísima importancia que los datos sean de alta calidad. La limpieza de datos es una problemática compleja. Pues qué sentido tendría si limpiéramos los datos de una empresa de una sola vez sin cambiar al mismo tiempo los procedimientos de esta empresa que tomaron parte en la imperfección de datos. Si utilizamos una vez más la ya mencionada confrontación con una cadena de producción, a nadie debe sorprender que antes de comenzar la producción se cuida mucho la calidad de las partes entrantes, a lo largo de la cadena hay puntos de control y también el producto final pasa por pruebas y evaluaciones. En este sentido, aquí existe una analogía con el proceso del procesamiento de datos y el proyecto no debería menospreciar ninguna de sus partes principales:

  • revisión de todas las entradas de datos
  • incorporación de los procedimientos de control en el procesamiento de datos
  • determinación de las competencias, es decir, determinación de los propietarios de datos y de los trabajadores responsables de mirar su calidad.

Añadimos que el proceso de limpieza de datos es una parte muy importante en los proyectos de los almacenes de datos o de las bases de datos maestros.

Solución

análisis de las entradas de datos y sus salidas, procedimientos de control

Como ya se ha dicho, antes de limpiar los datos es oportuno implementar los estándares que observan perpetuamente la calidad de datos, limpiándolos continuamente.

  • El proyecto - si es realizado de modo correcto - comienza por análisis de los datos entrantes y del modelo de datos. El resultado del análisis es la identificación y el diseño de la consolidación de los objetos de datos - unificación de los formatos, descripciones de las columnas, semántica, ajustamiento de las relaciones mútuas (integridad de los datos), consolidación de las escalas, etc.
  • Junto con el trabajo sobre el modelo de datos se definan las reglas empresariales ("business”) para las entradas de datos. Esto se suele tratar de la definicón de los valores permitidos de los campos con ayuda de escalas, reglas de matemática, lógica o las de formatos. No hay que olvidar ni de las relaciones de los campos mutuas, lógicas o hierárquicas.
  • En la fase siguiente se proyectan e implementan como una parte estándar de los trabajos cotidianos los procedimientos de control. Es necesario definir las entidades medidas y los criterios de medición que son aplicables a ellas, y depositar los resultados finales. De este modo se puede observar el desarrollo de la calidad en plazos largos. Los registros que no satisfacen los criterios se depositan para otro procesamiento - la limpieza.

La propia limpieza de datos se realiza continuamente o de porciones y está compuesta de algunas subfases:

  • análisis del estado de los datos, por regla general, por el análisis de frecuencias
  • estandarización de los datos, es decir, puesta en concordancia con las escalas internas y las reglas empresariales de los datos, igual que la estandarización de las direcciones, nombres, títulos y otros datos que pueden ser comparados con ayuda de registros de los datos
  • integración de los datos, es decir, eliminación de los registros duplicados

Tecnologías

La plataformas de bases de datos de Oracle, MS SQL, Informix, DB2, Teradata, MySQL,PostgreSQL

ETL Informatica, DataStage, AbInitio, OWB, CloverETL

Limpieza de datos/Parametrización Trillium ProfileStage, FirstLogic, dwSavvy