Narzędzia ochrony przed wyciekiem danych DLP w modelu open source

Dobre reguły, centralnie zastosowane

Narzędzia ochrony przed wyciekiem danych DLP w modelu open source

Schemat działania składników OpenDLP

Aby przeszukiwanie było możliwie sprawne, niezbędne są silne reguły umożliwiające łatwe znalezienie informacji. Najczęściej poszukiwane są numery kart kredytowych, numery PESEL, czasami NIP, numery dowodów osobistych, w USA z kolei numery ubezpieczenia społecznego. Aby znaleźć te informacje, zamiast tagowania grup informacji przy pomocy reguł dostarczonych przez producenta aplikacji, wykorzystuje się wyrażenia regularne, które definiują poszukiwany ciąg znaków. Dopasowywanie wyrażeń regularnych jest bardzo mocno optymalizowane w systemach typu UNIX, gdyż te szablony informacji są od dawna wykorzystywane przy przetwarzaniu tekstów oraz strumieni informacji w tych systemach. Wykorzystanie wyrażeń regularnych umożliwia proste i szybkie zdefiniowanie dodatkowych kryteriów, na przykład grup produktów lub wewnętrznych kodów, wykorzystywanych w firmie. Oprogramowanie agenta potrafi zaglądać do plików skompresowanych algorytmem ZIP, zatem analizuje także pliki w formacie Microsoft Office 2007/2010 Open XML oraz Open Document, wykorzystywane na przykład przez pakiet OpenOffice.

Agent potrafi także przeprowadzać dodatkowe testy sprawdzające czy coś, co wygląda jak numer karty kredytowej, rzeczywiście nim jest - umożliwia to redukcję ilości fałszywych alarmów. W podobny sposób da się zaprogramować w wyrażeniu regularnym sprawdzenie sumy kontrolnej numeru PESEL, chociaż nie jest to tak proste i automatyczne, jak w przypadku kart kredytowych. Niemniej taka funkcjonalność jest rzadkością w przypadku zagranicznych pakietów DLP, które były opracowywane pod kątem rynku amerykańskiego. W przypadku OpenDLP, możliwe jest wykorzystanie dowolnego kryterium, które da się wyrazić za pomocą wyrażenia regularnego zgodnego z tym, które jest wykorzystywane w języku Perl (Perl-compatible regular expression - PCRE).

Zobacz również:

  • System MS-DOS wrócił po latach w postaci open source
  • Google udostępnia AI Gemma dla developerów
  • Open source to napęd dla innowacji

Opracowane wyrażenie można wykorzystać wielokrotnie, można także opracować profile skanowania, uwzględniające białą i czarną listę katalogów oraz rozszerzeń plików. Znalezione wyniki można przejrzeć pod kątem fałszywych alarmów, a wyniki wyeksportować do XML.

Serwer jest standardowym rozwiązaniem open source - jest to Apache, kod aplikacji został napisany w języku Perl, dane są składowane w bazie MySQL, zatem będzie działać w większości systemów Linux, przy czym dostępna jest także maszyna wirtualna, szczególnie przydatna przy testach.

Co można sprawdzić

Przykłady wyrażeń regularnych w praktyce:

Prosty wzorzec adresu e-mail

[a-z0-9_.-]+@[a-z0-9_.-]+\.\w{2,4}

Numeryczny adres IP

\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}

Kod pocztowy

[0-9]{2}-[0-9]{3}

Najprostsza definicja numeru PESEL

[0-9]{9}

albo

\d{9}

NIP w formacie xxx-xxx-xx-xx

[0-9]{3}-[0-9]{3}-[0-9]{2}-[0-9]{2}

Agent skanuje lokalne dyski, dyski wymienne podłączane za pomocą USB, pamięci SSD instalowane jako rozszerzenie dysku twardego, płyty w napędzie CD-ROM, a także zawartość RAM dysku, jeśli istnieje. Wstępne filtrowanie odbywa się na podstawie rozszerzeń plików, co umożliwia przynajmniej częściowe odsianie plików takich jak grafika. Obsługa oprogramowania odbywa się za pomocą interfejsu webowego.

Reguły są silne, ale jest ich mało

Niestety podstawowa lista reguł zdefiniowanych za pomocą wyrażeń regularnych jest dość uboga, ale może być bardzo łatwo rozszerzona. Obejmuje ona podstawowe reguły poszukiwania numerów kart płatniczych oraz numerów amerykańskiego ubezpieczenia społecznego. W miarę rozwoju projektu, można oczekiwać pojawienia się repozytoriów wyrażeń regularnych, które powinny obejmować wiele innych wrażliwych danych. Drugą ważną wadą jest brak logów - z aplikacji na razie nie można wyprowadzić zgłoszeń do systemów takich jak OSSEC, podobnie nie da się automatycznie wyeksportować plików XML, by przetworzyć je za pomocą parsera.

Niemniej dzięki użyciu standardowych narzędzi open source (Apache, Perl, MySQL), będzie możliwa praktycznie dowolna integracja tego oprogramowania z infrastrukturą wielu firm.


TOP 200