Zarządzanie wydajnością sieci

NetWorld,
01.12.2004

Problem transportu danych

Większość statystyk sieciowych musi być zbierana przy elementach sieci i następnie w jakiś sposób komunikowana, tak aby była dostępna dla zespołów zarządzania siecią i monitorowania. Tradycyjnie realizuje się to przez scentralizowany system zbierania, będący częścią platformy zarządzania siecią. Wszystkie elementy są odpytywane przez ten system, a uzyskane dane - gromadzone centralnie.

Biorąc pod uwagę możliwą do zebrania ilość danych, potrzebę łączenia elementów, które mogą mieć wpływ na współzależność systemów i aplikacji, a także sprawy związane z nowymi usługami - takimi jak VoIP, VPN czy systemy bezprzewodowe - ruch sieciowy generowany przez monitorowanie i zbieranie danych może być znaczący. Rosnący ruch związany z monitorowaniem może poważnie wpływać na szybkość uzyskiwania tych danych i czas rozwiązywania problemów.

Czynnikiem kształtującym wolumen i transport danych jest procent wszystkich elementów w infrastrukturze sieci, które są aktywnie monitorowane i zarządzane. W wielu przypadkach idealne zarządzanie, czy też monitorowanie wszystkich bez wyjątku elementów, nie jest możliwe z powodu nasycenia danymi, z których większość nie jest użyteczna. Tak więc w praktyce monitoruje się tylko te elementy, które według oceny osób odpowiedzialnych za to są predestynowane do ujawnienia problemu z wyprzedzeniem lub pomocne w jego usunięciu. Jeżeli osoby te pomylą się w wyborze, to o problemie mogą się dowiedzieć dopiero od użytkowników.

Przypomina to trochę rosyjską ruletkę. Dopóki żaden z niemonitorowanych elementów nie jest sprawcą kłopotów, dopóty można czuć się bezpiecznie. Jednak gdy jeden z nich spowoduje uszkodzenie, nie będzie sposobu na zarządzanie tym uszkodzeniem lub zrozumienie, co było jego przyczyną.

Fundamentalnym problemem staje się oszacowanie, jakie dane są niezbędne do zrozumienia i rozwiązania problemu, zanim się on pojawi. 80% problemów wydajnościowych to sytuacje przejściowe i przechwytywanie danych w momencie, kiedy te problemy się pojawiają, jest niemożliwe. W celu radzenie sobie z tego typu problemami dostawcy systemów zarządzania tworzą "obszary pokrycia" dla swoich produktów związane z problemami, które wg nich są najbardziej powszechne.

Ukierunkowane przechwytywanie dla analiz to inne podejście do zagadnień przechwytywania rozproszonych danych, w którym zmienne ograniczające, dobrze dostosowane do określenia warunków krytycznych, automatyzują przechwytywanie metodą rozproszoną lub scentralizowaną. Zbiór zmiennych ograniczających pozwala na bardziej płynne monitorowanie infrastruktury sieci i może dać efektywne korzyści, gdy nałożone ograniczenia umożliwiają głębsze spojrzenie na środowisko sieciowe - tak jak w diagnozie medycznej, która jest znacznie dokładniejsza, jeżeli wiadomo, co należy ignorować.

Narzędzia monitorowania muszą mieć też zdolność rozpoznawania czasu i powiązań monitorowanych danych. Poza zbieraniem danych istotne jest też, jakimi środkami wyzwalać alarmy i następnie analizować dane.

Problem progów

Jeżeli zaistniała sytuacja szczególna, to zespół operacyjny musi o tym wiedzieć. Klasycznym przykładem, dotyczącym sieci Ethernet i pułapek SNMP, jest awaria zasilania. Progi i zdarzenia wyzwalające zapewniają mechanizmy ostrzegania o problemach w momencie, gdy się one pojawiają. Jeżeli wartości te zostaną rozważnie dobrane, to mogą też ostrzegać przed potencjalnymi problemami.

Trzeba jednak pamiętać, że progi mogą również generować potoki danych bez większej wartości dla systemu zarządzania siecią. Nierzadko alarmy progowe, pułapki SNMP i powiązana z nimi informacja z monitoringu paraliżuje infrastrukturę zarządzania (ludzi, procesy i narzędzia).

Wśród metod ustawiania progów należy wymienić typowe progi o stałej naturze, różne podejścia w ustawianiu progów ad hoc i progi zależne od elementów.

W większości systemów progi są ustawiane na specyficzne wartości. Gdy wartość taka zostanie przekroczona, generowany jest pewien rodzaj alarmu.

Jednym z problemów takiego podejścia jest fakt, że mogą one sygnalizować potencjalne problemy zbyt późno. Dowolne zmiany środowiskowe, takie jak wprowadzenie nowej aplikacji lub fizyczne przesunięcie pracowników do innych lokalizacji, mogą spowodować nieoczekiwane zwiększenie ruchu, prowadzące do wąskich gardeł. Trend ten nie jest widoczny, aż do momentu nagłego przekroczenia progów w szczytowym punkcie dnia. Statyczna natura wielu progów powoduje często, że są to w istocie narzędzia mniej użyteczne niż być powinny.

Poza statyczną naturą proces określania wartości progów często bywa nieformalny i eksperymentalny, zamiast opierać się na jasnych regułach. Złożoność ustawiania takich progów może prowadzić bądź do zachowawczego ustawiania zbyt niskich progów, co owocuje częstymi fałszywymi alarmami, bądź agresywnego czy nawet arbitralnego ustawiania progów wysokich, co może skutkować uszkodzeniami sieci.

Praktyka pokazuje, że ustawianie progów rzadko odzwierciedla złożoną rzeczywistość dzisiejszych sieci i wzajemne powiązania pomiędzy jej komponentami.