Osiem porad, jak zabezpieczyć Big Data

Coraz więcej firm korzysta z dużych zbiorów danych, rzadko myśląc o ich bezpieczeństwie. Problemem jest nie tyle kradzież całych zasobów, ile pozyskanie istotnych porcji informacji.

Organizacje korzystające ze zbiorów danych przechowywanych w klastrach, takich jak Hadoop, z czasem gromadzą zbiory informacji, które Forrester Research określa mianem toksycznych. W przypadku operatorów komórkowych mogą to być informacje o tym, kto i kiedy logował się do której stacji bazowej, jak długo trwała jego sesja i ile danych pobrał. Informacje te umożliwiają profilowanie aktywności użytkownika, a w połączeniu z innymi danymi stanowią istotną wartość marketingową. W przypadku włamania do firmowej infrastruktury IT utrata takich informacji może spowodować duże straty, zarówno dla organizacji, jak i dla klientów. Jak zabezpieczyć newralgiczne dane przed dostaniem się w niepowołane ręce?

1. Zacznij od bezpieczeństwa

Rozważania dotyczące bezpieczeństwa należy prowadzić jeszcze przed startem projektu. Dział IT, osoby odpowiedzialne za wdrożenie oraz oficer bezpieczeństwa powinni rozwiać wszelkie wątpliwości jeszcze przed instalacją i zasilaniem klastra danymi.

Zobacz również:

2. Określ ryzyko

Należy sprawdzić, jakie informacje będą składowane, gdyż z tym mogą wiązać się wymagania prawne, które należy spełnić. Nawet jeśli restrykcje prawne nie miałyby zastosowania, warto rozpoznać ryzyko zdarzeń, które mogłyby spowodować wyciek informacji i zastosować środki zaradcze odpowiednie do tego ryzyka.

3. Wskaż osoby odpowiedzialne

Odpowiedzialność za dane nie może być rozproszona między różne działy i piony ani zależeć od rodzaju zestawów danych. Centralizacja odpowiedzialności umożliwia wdrożenie spójnej polityki bezpieczeństwa i odpowiednie przyznanie poziomów dostępu, zależnie od potrzeb.

4. Wprowadź szyfrowanie

Należy wprowadzić szyfrowanie danych zarówno w stanie spoczynku (na poziomie plików), jak i w tranzycie (SSL). Szyfrowanie na poziomie plików zabezpieczy przed kradzieżą na poziomie danych składowanych przez węzły. Jest przezroczyste zarówno dla oprogramowania Hadoop, jak i innych aplikacji. Nie ogranicza skalowalności, jest tanie i łatwe do wdrożenia. Szyfrowanie za pomocą SSL całej komunikacji między węzłami a aplikacją zmniejsza ryzyko podsłuchania i powinno być wdrożone globalnie. Niektórzy usługodawcy, tacy jak Cloudera, już to obsługują.

5. Oddziel klucze od danych

Klucze oraz dane muszą być przechowywane osobno - składowanie kluczy na tym samym serwerze co danych jest niedopuszczalne. Warto wprowadzić osobny mechanizm dostarczania kluczy, by przejęcie jednego węzła nie narażało bezpieczeństwa całego klastra.

6. Nadaj uprawnienia

Warto skorzystać z protokołu Kerberos, by móc nadać uprawnienia dostępu wewnątrz środowiska Hadoop. Metoda utrudni dodanie obcych węzłów oraz aplikacji do klastra, a także dostanie się do zasobów za pomocą konsoli. Wiadomo, że konfiguracja Kerberosa jest skomplikowana i wymaga rewalidacji nowych węzłów oraz aplikacji, ale bez ustanowienia dwukierunkowego łańcucha zaufania nie da się zagwarantować obrony przed dołączeniem nieautoryzowanych węzłów do klastra. Kerberos jest jednym z najefektywniejszych mechanizmów kontroli bezpieczeństwa, a Hadoop sprawine go obsługuje.

7. Zbuduj skrypty

Przy pracy związanej z bezpieczeństwem należy używać narzędzi automatyzujących, takich jak Chef lub Puppet, by całe środowisko wielu węzłów, obrazów maszyn, certyfikatów i detali platform było sprawnie zarządzane, aktualizowane i utrzymywane. Chociaż zbudowanie skryptów wymaga czasu, również popłaca w dłuższym horyzoncie czasowym, gdyż zmniejsza ilość pracy do wykonania przy dodawaniu nowych węzłów i zapewnia podstawowy poziom ich bezpieczeństwa.

8. Zbieraj logi

Logowanie w klastrze powinno być włączone i ta sama platforma może posłużyć do ich analizy. Big Data wywodzi się właśnie z analizy logów z serwerów webowych, a w przypadku awarii lub podejrzenia włamania analiza zgromadzonych w ten sposób logów jest bezcenna. Narzut na przestrzeń dyskową, związany z logowaniem zdarzeń (żądań, a także każdej aktywności) w obrębie klastra, jest niewielki w porównaniu do samych przetwarzanych informacji. W razie podejrzeń aktywność klastra i aplikacji może być dokładnie prześledzona i skorelowana z innymi zdarzeniami.


TOP 200