Wykrywanie błędów w sieciach SDN

O ile Chaos Monkey pozwala administratorom z Netfliksa dokonywać niecodziennych rzeczy, nie należy traktować tego narzędzia jako ostatecznego rozwiązania problemów wykrywania błędów. Jest to rozwiązanie dobre na swoje czasy, a generowanie losowych awarii na dłuższą metę nie prowadzi do stworzenia systemu szczególnie odpornego na błędy.

Ograniczenie podejścia zastosowanego w Chaos Monkey polega na tym, że oprogramowanie to nie generuje typowych problemów, jakie mogą wystąpić w sieciach informatycznych. Nie daje ono możliwości zweryfikowania, czy wszystko działa poprawnie. Losowość, jaką charakteryzuje się działanie Chaos Monkey może być zaletą, ale jednocześnie stwarza zagrożenie, że nie wykryje się potencjalnie groźnych problemów.

Zobacz również:

  • Wyniki XII konkursu Computerworld Best in Cloud

Przede wszystkim metodologia

Niektórzy eksperci sugerują, żeby nie postrzegać środowiska SDN jako utrudniającego wykrywanie i usuwanie błędów. Przeciwnie, sieci sterowane programowo mogą ułatwiać debugging dzięki wysokiemu poziomowi automatyzacji, możliwościom programowania wielu zadań oraz konfigurowalności sposobów testowania systemu. Patrząc na SDN z tej perspektywy, wykrywanie błędów może stać się łatwiejsze, a nie trudniejsze, w porównaniu do tradycyjnych sieci. Błędy mogą kryć się we wszystkich nowych, „egzotycznych” miejscach, ale ich systematyczne wyszukiwanie i naprawianie jest możliwe.

Od osób pracujących już z sieciami SDN płyną sygnały, że w dużym stopniu wykorzystują one mechanizmy automatyzacji. Specjalistyczne platformy umożliwiają szybkie pisanie własnych skryptów, za pomocą których można w pełni przetestować dane urządzenia czy jakiś aspekt funkcjonowania sieci bez podejmowania ręcznych interwencji. Mogę one zastąpić nawet kosztowne rozwiązania do prowadzenia testów. Nie ma również przeszkód, żeby wbudować w skrypty procedury bazujące na losowym generowaniu błędów. W połączeniu ze standardowymi procedurami testowymi pozwala to zbadać różne części systemu i wykryć nieprzewidziane problemy.

W firmach, które decydują się intensywnie korzystać z technologii chmurowych, programiści muszą mieć pewność, że mogą polegać na sieciach SDN i prowadzić w nich miarodajne testy wykrywania błędów. Użytkownicy muszą mieć możliwość zastosowania metodologicznego podejścia, a nie jedynie obserwowania, co dzieje się po wymuszanych losowo awariach. Testy powinny przede wszystkim opierać się na metodologii, ale warto je połączyć z losową naturą takich narzędzi, jak Chaos Monkey. To pozwala wykryć błędy, których potencjalnego istnienia nikt nie podejrzewa.


TOP 200