Data Cleansing
Dane dobrej jakości są warunkiem wyników dobrej jakości.
Półfabrykaty przechodzące po taśmie montażowej powinny w każdym momencie montażu spełniać kryteria jakościowe. Wady w jakimkolwiek punkcie całego procesu skutkują w złej jakości towaru i obniżonej efektywności produkcji. Tak samo jest z danymi. Rozważmy prosty przykład oferty marketingowej wysyłanej do klientów firmy. Oferta ta może być z powodu niepoprawnych danych dostarczona w kilku kopiach pod ten sam adres różniący się tylko szczegółami każdemu z członków rodziny. Na wynikające z tego straty składają się:
- pozycje, które można pieniężnie rozliczyć
- koszty za usługi pocztowe
- koszty za przygotowanie wysyłek
- pozycje, które trudno pieniężnie rozliczyć
- ujemny wpływ na obraz firmy wśród klientów powodujący ich odpływ
- koszty za niewykorzystane możliwości – oferta mogła zawierać lepiej sporządzony spis usług przystosowany do wszystkich członków gospodarstwa domowego
Dlatego dane dobrej jakości są tak ważne. Czyszczenie danych jest zagadnieniem kompleksowym. Jaki sens miałoby jednokrotne wyczyszczenie danych, jeżeli nie zostałoby przeprowadzone zarówno ze zmianą procedur firmowych, które prowadzą do powstawania niepoprawnych danych. Jeżeli znowu wykorzystamy porównanie do taśmy montażowej, nikt nie będzie zaskoczony, że przed rozpoczęciem montażu jest staranie sprawdzana jakość punktów wejścia, w ramach całego montażu jest kilka punktów kontrolnych a wyprodukowany towar jest na końcu poddawany testom. Chodzi o proces analogiczny do procesu przetwarzania danych, a zatem projekt nie powinien pomijać żadnego z jego podstawowych składników:
- sprawdzenie wszystkich danych wejściowych
- wprowadzenie procedur kontrolnych do przetwarzania danych
- wyznaczenie kompetencji, tzn. wyznaczenie właścicieli danych i pracowników odpowiedzialnych za śledzenie ich jakości
Dodajmy, że czyszczenie danych jest bardzo ważne w zakresie projektów hurtowni danych lub MDM.
Rozwiązania
Jak już było powiedziane, przed czyszczeniem danych należy wdrożyć standardy sprawdzające jakość danych i czyszczące je na bieżąco.
- Poprawnie przeprowadzany projekt rozpoczyna się analizą danych wejściowych oraz modelu danych. Wynikiem analizy jest rozpoznanie i projekt konsolidacji obiektów danych – zjednoczenie formatów, opisów kolumn, semantyki, ustawienie wzajemnych połączeń (integralność danych), konsolidacja kluczy itp.
- Jednocześnie z opracowywaniem modelu danych definiuje się „business” zasady dla danych wejściowych. Na ogól chodzi o wyznaczenie dozwolonych wartości pól za pomocą listy kodów, reguł matematycznych, logicznych lub formatowych.
- W następnej fazie projektuje się i wdraża procedury kontrolne stanowiące każdodzienną część pracy. Należy zdefiniować mierzone encje ,kryteria mierzenia a końcowe wyniki zapisywać. W ten sposób można śledzić rozwój jakości w dłuższym horyzoncie czasowym. Rekordy nieodpowiadające kryteriom są przekazywane do dodatkowego przetwarzania – czyszczenia.
Samo czyszczenie jest przeprowadzane na bieżąco lub w większych partiach i jest złożone z kilku podfaz:
- analiza stanu danych poprzez analizy frekwencyjne
- standaryzacja danych, tzn. przystosowanie danych do business zasad, wewnętrznych list kodów, standaryzacja adresów, nazwisk itp. przy pomocy registrów porównywanych danych
- integracja danych, tzn. usunięcie duplikatów (de duplikacja)
Technologie
Platformy baz danych Oracle, MS SQL, Informix, DB2, Teradata, MySQL,PostgreSQL
ETL Informatica, DataStage, AbInitio, OWB, CloverETL
DataCleansing/Profiling Trillium ProfileStage, FirstLogic, dwSavvy