Česky | English
Domů > Řešení > IT Solutions > Čištění dat / Data Cleansing

Čištění dat / Data Cleansing

Kvalitní data jsou předpokladem kvalitních výsledků.

Polotovary putující montážní linkou by měly v každé fázi montáže splňovat daná kvalitativní kritéria. Není-li tomu tak, výsledkem je nekvalitní výrobek a snížená efektivita výroby. S daty je to stejné. Vezměme lapidární případ marketingové nabídky, kterou společnost zasílá svým klientům. Ta může díky nekvalitním datům přijít v několika kopiích na stejnou, pouze v detailech se lišící, adresu každému z členů domácnosti. Výsledné ztráty zahrnují:

  • kalkulovatelné položky
    • poštovné
    • náklady na zpracování zásilek
  • položky obtížně vyčíslitelné
    • zhoršení vnímání společnosti zákazníky s výsledkem jejich vyššího odlivu
    • náklady ušlých příležitosti – konsolidovaná nabídka mohla obsahovat jinak strukturovaný mix služeb pro členy celé domácnosti.

Proto je tak důležité mít kvalitní data. Čištění dat je komplexní problematikou. Jaký by koneckonců mělo smysl jednorázově vyčistit data a nezměnit přitom firemní procedury, které se na vzniku nekvalitních dat podílely. Použijeme-li opět srovnání s montážní linkou, nikoho nepřekvapí, že před započetím montáže se velmi dbá na kvalitu vstupů, v rámci linky je několik kontrolních uzlů a finální výrobek je znovu testován a hodnocen. Jde o proces analogický s procesem zpracování dat a projekt by neměl podcenit žádnou z jeho hlavních složek:

  • revize všech datových vstupů
  • začlenění kontrolních procedur do zpracování dat
  • vymezení kompetencí, tzn. určení vlastníků dat a pracovníků zodpovědných za sledování jejich kvality.

Dodejme, že čistění dat je velmi důležitou oblastí v projektech datových skladů či MDM.

Řešení

analýza datových vstupů a výstupů, kontrolní procedury

Jak již bylo uvedeno, je správné před dávovým vyčištěním dat implementovat standardy, které kvalitu dat trvale sledují a data průběžně čistí.

  • Korektně prováděný projekt začíná analýzou datových vstupů a datového modelu. Výsledkem analýzy je identifikace a návrh konsolidace datových objektů - sjednocení formátů, popisů sloupců, sémantiky, nastavení vzájemných vazeb (datová integrita), konsolidace číselníků apod.
  • Společně s prací nad datovým modelem se definují “business” pravidla pro datové vstupy. Zpravidla se jedná o vymezení povolených hodnot v polích pomocí číselníků, matematických, logických či formátovacích pravidel. Nelze opominout i vzájemné logické či hierarchické vazby polí.
  • V další fázi se jako standardní součást každodenních prací navrhují a implementují kontrolní procedury. Je nezbytné definovat měřené entity a na ně aplikovaná kritéria měření, konečné výsledky ukládat. Tak je možné sledovat vývoj kvality v delším časovém horizontu. Záznamy nesplňující kritéria se ukládají k dalšímu zpracování – čištění.

Samotné čištění dat se provádí průběžně nebo dávkově a skládá se z několika subfází:

  • analýza stavu dat zpravidla frekvenčními analýzami
  • standardizace dat, tzn. uvedení dat do souladu s interními číselníky a business pravidly, jakož i standardizace adres, jmen, titulů a jiných, pomocí registrů porovnatelných dat
  • intergrace dat, tedy odstranění duplicitních záznamů

Technologie

ETL/middleware CloverETL

DataCleansing/Profiling/Address verification AddressDoctor, Trillium, Group One