Wykrywanie błędów w sieciach SDN

Sieci definiowane programowo przynoszą wiele korzyści, jak skalowalność czy optymalizacji ruchu. Nie dostrzega się jednak wyzwań, które stawiają. Jednym z istotnych problemów jest wykrywanie błędów i zapobieganie ich występowaniu.

Duża zmienność i elastyczność systemów opartych na oprogramowaniu sprawie, że zapobieganie występowaniu błędów (Quality Assurance) w sieciach SDN jest kwestią wartą omówienia. Owszem, SDN daje administratorom ogromną swobodę, ale elastyczność oznacza jednocześnie, że użytkownicy mają znacznie większy potencjał do wdrażania platform sposobami, których nie uwzględnili ich projektanci i programiści. SDN wprowadza szereg nowych zmiennych określających, jak produkt jest używany. Dotychczasowe schematy budowania sieci, mających służyć ograniczonej liczbie zastosowań, a następnie testowanie tego środowiska pod kątem planowanych zastosowań, szybką odchodzą w przeszłość.

Kolejny problem wynika z faktu, że koncepcja SDN zakłada sterowanie infrastrukturą sieciową i nadawanie jej pożądanych konfiguracji przez jeden, centralny ośrodek. Wyzwanie stanowi właśnie abstrakcja warstwy kontrolnej, która musi podołać ogromowi zadań związanych z kontrolowaniem stanów połączeń we wszystkich przełącznikach tworzących sieć. Potencjalnie może to doprowadzić do sytuacji, w której tradycyjne protokoły wykrywania błędów staną się nieprzydatne. Dodatkowo separacja warstwy kontrolnej od fizycznej warstwy danych może doprowadzić do powstania całkiem nowych błędów, które w dotychczasowych sieciach nie stanowiły problemu lub w ogóle nie występowały.

Zobacz również:

Małpa chaosu

Do dyspozycji administratorów sieci są już jednak nowe klasy narzędzia. Najszerzej znane jest Chaos Monkey opracowane przez firmę Netflix. Kod źródłowy programu jest dostępny w serwisie GitHub na licencji Apache. Narzędzie to może zmienić sposób myślenia o wykrywaniu błędów w środowiskach SDN. Chaos Monkey to usługa działająca w chmurze Amazon Web Services (AWS). Jej zadaniem jest wykrywanie tzw. Auto Scalling Groups (funkcjonalność umożliwiająca automatyczne skalowanie środowiska w chmurze AWS) i przerywanie działania maszyn wirtualnych w poszczególnych grupach. Chaos Monkey umożliwia wykrycie błędów w sieci SDN i przetestowanie jej pod kątem podatności na atak. Wykryte błędy mogą zostać poddane dokładniejsze analizie i usunięte, co prowadzi do podniesienia poziomu bezpieczeństwa.

W firmach takich, jak Netflix, mających bardzo rozbudowaną i skalowalną infrastrukturę, wykrywanie błędów staje się niemal niemożliwe wyłącznie z pomocą tradycyjnych metod. Dlatego firmy tego typu pracują nad nowymi sposobami radzenia się z koniecznością wykrywania błędów, szczególnie w dynamicznych środowiskach chmurowych.

Poza tym poprzez sztuczne wymuszanie błędów sprzętowych zdobywa się informacje przydatne do budowania sieci doskonalszych, niż byłoby to możliwe z wykorzystaniem standardowych metod QA. Przywrócenie systemów po awarii jest łatwe, jeśli zna się błędy, które je powodują. Znacznie trudniej jest uruchomić ponownie system, jeśli nie jest się w stanie ustalić źródła problemu.


TOP 200