Z bazy do pralki

W Banku Gospodarki Żywnościowej przeprowadzono projekt czyszczenia danych adresowych blisko 3 mln klientów.

W Banku Gospodarki Żywnościowej przeprowadzono projekt czyszczenia danych adresowych blisko 3 mln klientów.

Przedsięwzięcie związane z czyszczeniem danych na tak dużą skalę było podyktowane kończącym się procesem wdrożenia centralnego systemu bankowego, który zastępuje kilka działających do tej pory niezależnie systemów oddziałowych. Celem operacji było zintegrowanie danych pochodzących z różnych źródeł, inaczej interpretowanych i zapisanych w różnych formatach.

"W instytucjach finansowych zdecentralizowane systemy finansowo-księgowe zawsze przynoszą problemy związane z jakością danych. Jednak w modelu zdecentralizowanym ta jakość nie niesie nowego autonomicznego ryzyka, ponieważ istnieją mechanizmy - organizacyjne lub proceduralne - które pozwalają na poradzenie sobie z tymi problemami, choć może w «prymitywny» sposób. W przypadku wdrażania systemów scentralizowanych sytuacja ulega zasadniczej zmianie" - uważa Marek Oleś, wiceprezes BGŻ w Pionie Finansów, Operacji i Infrastruktury.

Problemy pojawiają się najczęściej w obszarze informacji zarządczej oraz systemów CRM. Błędy zaś z reguły powstają na etapie ich wprowadzania do systemu. Chodzi zwykle o błąd ludzki - pracownicy wpisują niewłaściwy kod, wstawiają dane do niewłaściwych pól, używają wygodnych dla siebie skrótów, itp., itd. System centralny ułatwia natomiast wprowadzenie mechanizmów korygujących jakość danych już "na wejściu".

Dane do pralki

Z bazy do pralki

Sławomir Koprowski, dyrektor Departamentu Operacji Krajowych w Centrum Operacyjnym BGŻ

Rola banku w projekcie sprowadziła się do udostępnienia zasobów danych - ze względu na wymogi prawno-organizacyjne projekt był realizowany przez wykonawcę w siedzibie banku - oraz weryfikacji otrzymanych wyników. Konwertowany był olbrzymi zbiór danych, zawierający około 2,8 mln rekordów. Weryfikacja została więc podzielona pomiędzy 300 jednostek organizacyjnych banku, zgodnie z "geograficzną" przynależnością danych. Zweryfikowane dane przeniesiono do systemów produkcyjnych w ciągu jednego weekendu.

Sam proces czyszczenia trwał mniej więcej miesiąc. Posłużono się tutaj plikami tekstowymi, co było prostsze niż wykorzystanie interfejsów do baz danych. Chodziło bowiem nie tylko o uzyskanie kompletności informacji w ramach pojedynczych rekordów, ale również o takie sformatowanie zawartości rekordu, by poszczególne dane adresowe znalazły się we właściwym miejscu (np. kod w polu kodu pocztowego, a nie razem z nazwą miasta). Ten proces tzw. standaryzacji był realizowany przy wykorzystaniu zaawansowanych reguł analizy wyrażeń regularnych (pojęcie znane z teorii automatów). Takich zmian trzeba było dokonać w przypadku prawie co drugiego analizowanego rekordu.

Po tej fazie można było przystąpić do tzw. geomatchingu, czyli poprawiania, aktualizacji i uzupełniania danych adresowych na podstawie wykrywania podobieństw pomiędzy zawartością rekordów a rozbudowanych słowników referencyjnych (zawierających nazwy ulic, przedziały numerów domów itd. - podstawą był tutaj słownik poczty polskiej). Ostatecznie okazało się, że korekty wymagało 8% miast, 10% ulic i 4% kodów pocztowych.

Zadanie zrealizowała firma Ascen, dystrybutor rozwiązań Ascential Software w Polsce.

"Wybór wykonawcy poprzedzony został rozpoznaniem oferty rynkowej, która okazała się zaskakująco uboga. Interesowała nas bowiem kompletna usługa czyszczenia danych, a nie tylko same narzędzia" - mówi Sławomir Koprowski, dyrektor Departamentu Operacji Krajowych w Centrum Operacyjnym BGŻ w Warszawie. Wykorzystano narzędzia Quality Stage (czyszczenie danych) oraz DataStage (ETL).

Dziury do wypełnienia

Głównym problemem zlokalizowanym w zasobach danych adresowych BGŻ były nie same niejednorodności zapisu, lecz zlepianie danych (łączenie poszczególnych pól adresu w ciągi alfanumeryczne). Zjawisko to wystąpiło w przypadku aż 67% rekordów. Po procesie czyszczenia pozostało ok. 3% danych, które trzeba było zweryfikować już ręcznie. Natomiast 1% danych w ogóle nie nadawało się do czyszczenia. "Dopiero w następnym etapie, po pełnym uruchomieniu systemu centralnego, przyjdzie czas na weryfikację danych dotyczących firm, jak również lokalizację duplikatów danych dotyczących osób fizycznych" - twierdzi Sławomir Koprowski. To zadanie bank będzie już realizował samodzielnie, z wykorzystaniem narzędzi Ascen.

Bank nie ujawnia wielkości kontraktu, wiadomo jednak, że jego wartość była zupełnie marginalna wobec kosztów wprowadzania nowego systemu bankowego. Bank twierdzi, że inwestycja w czyszczenie danych miała wysoką stopę zwrotu. Pierwszą wymierną (całkiem sporą) korzyść przyniosła istotna redukcja liczby przesyłek pocztowych (np. przy kampaniach marketingowych), które z powodu błędnego adresu pocztowego wracały do nadawcy.

Rejestr o wszystkich, nie dla każdego

Każdy menedżer odpowiedzialny za proces czyszczenia osobowych danych teleadresowych przyznaje, że ogromną pomocą byłaby możliwość skorzystania przy weryfikacji danych z jakiegoś ogólnopolskiego rejestru referencyjnego. Najlepiej nadawałby się do tego państwowy system PESEL, pozostający w gestii Ministerstwa Spraw Wewnętrznych i Administracji. Tam jest wszystko, czego potrzeba - imiona i nazwiska, daty i miejsca urodzenia, numery dowodu, numery PESEL itd.

Specjaliści wskazują, że na tym mógłby skorzystać sam system PESEL, a konkretnie jakość przechowywanych w nim danych. Każdy bowiem kontakt obywatela z urzędem, bankiem czy firmą, kiedy dotyczące tego obywatela dane byłyby weryfikowane z wykorzystaniem systemu PESEL, stwarzałby okazję do aktualizacji tych danych "u źródła". Obecnie taka weryfikacja jest możliwa jedynie w wyjątkowych przypadkach, np. przy wymianie dowodu osobistego. Gdyby takie usługi były odpłatne, to dodatkowo PESEL mógłby w ten sposób na siebie zarobić.

Niestety, dzisiaj tego zrobić nie można. Przeszkody są dwie - mniejsza i większa. Ta pierwsza to Ustawa o ochronie danych osobowych. Drugą zaś tworzy niechęć dysponentów rejestrów państwowych do dzielenia się nimi z innymi instytucjami. Instytucje czyszczące dane są zdane na siebie i - mimo największych nawet wysiłków - rezultaty ich pracy nie będą tak dobre, jakie mogłyby być, gdyby ich dane można było porównywać z ogólnopolskim rejestrem.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200