Niezawodny ruting

Aby zapobiec totalnemu chaosowi po uszkodzeniu procesora trasowania, opracowano dwa rozwiązania pozwalające zachować integralność rutera.

Aby zapobiec totalnemu chaosowi po uszkodzeniu procesora trasowania, opracowano dwa rozwiązania pozwalające zachować integralność rutera.

Załóżmy, że w pewnym urządzeniu sieciowym wystąpiła awaria, ale po chwili wraca ono do pracy (dzięki mechanizmowi odzyskującemu system). W sieci jakby nic się stało, ponieważ użytkownicy nie zauważyli nawet, że wystąpiły jakiekolwiek kłopoty. A co się dzieje, jeśli w ruterze procesor trasowania ulega uszkodzeniu? Czy sieć musi wtedy przestać pracować? Okazuje się, że niekoniecznie.

Jeśli już się to zdarzy, dalszym kłopotom mogą zapobiec dwa rozwiązania programistyczne: SSO (Stateful Switchover) i NSF (Nonstop Forwarding).

Stateful Switchover

Niezawodny ruting

SSO - kontrolowane przełączanie procesrów trasowania

Rozwiązanie to (kontrolowane przełączanie) pracuje w ten sposób, że w momencie wystąpienia awarii procesora podstawowego (aktywnego) procesor zapasowy (pracujący w trybie hot-standby, czyli ciągłej gotowości) przejmuje zadania trasowania, wykonywane do tej pory przez procesor podstawowy. Ruter nie odmawia wtedy ani na moment świadczenia usług zgłaszającym się do niego stacjom i urządzeniom. Opcja SSO gwarantuje, że system zarządzający siecią może tak kontrolować węzeł sieci wyposażony w dwa procesory trasowania, jakby miał do czynienia z jednym systemem i z jednym zarządzanym podmiotem.

W wypadku stosowania opcji SSO informacje umożliwiające zestawianie połączeń w warstwie 2 modelu OSI (warstwa danych) są udostępniane obu procesorom trasowania (podstawowemu i zapasowemu). Jest to możliwe, bo procesor podstawowy cały czas dostarcza procesorowi zapasowemu minimalny zestaw danych (tabele rutowania) niezbędnych do tego, aby zapasowy mógł w każdej chwili przejąć zestawianie połączeń sieciowych Ethernet, ATM czy frame relay.

Każde z rozwiązań wykorzystujących technologię SSO musi być tak zaprojektowane, aby mogło zarządzać setkami czy nierzadko tysiącami interfejsów, ponieważ rutery internetowe wymieniają informacje o ścieżkach trasowania pakietów (tabele) z setkami innych ruterów pracujących w tym środowisku, co jakiś czas nawiązując z nimi łączność. Dlatego procesory trasowania muszą dysponować takimi informacjami, jak fizyczne stany interfejsów, stany stałych obwodów wirtualnych PVC czy dane pozwalające synchronizować wydawanie poleceń.

Po awarii opcja SSO przełącza system na procesor zapasowy. Procesor podstawowy próbuje wtedy podjąć na nowo pracę (inicjując operację reboot) i jeśli to się uda, przyjmuje status procesora zapasowego. Ważne, że operacja przełączania procesorów nie wymaga ponownego uruchamiania interfejsów sieciowych, które cały czas obsługują kierowane do nich żądania.

Każdy etap procesu SSO jest monitorowany przez oprogramowanie SNMP, które informuje administratora sieci o powstałym problemie. Administrator może wtedy spokojnie sprawdzić, czy ruter dysponuje dalej dwoma procesorami trasowania, czy też podstawowy procesor trasowania uległ uszkodzeniu na dobre. Pułapki SMNP dostarczają systemowi zarządzającemu siecią szczegółowe informacje o rodzaju awarii, w tym jedną cenną - czy uszkodzony procesor podstawowy odzyskał zdolność działania. Jeśli nie, musi być wymieniony na inny. Wymiana procesora nie wymaga czasowego wyłączenia rutera z eksploatacji.

Nonstop Forwarding

Opcja Nonstop Forwarding (ciągłe przekazywanie) daje gwarancję, że pakiety IP będą nieprzerwanie obsługiwane i dostarczane do stacji przeznaczenia.

Ponieważ tabele rutowania są bardzo duże (mogą zawierać nawet 100-200 tysięcy wpisów), przyjęto, że nie ma sensu udostępniać obu procesorom trasowania wszystkich informacji zawartych w tych tabelach. Dlatego Internet Engineering Task Force zaproponował wprowadzenie do oprogramowania zarządzającego ruterami rozszerzenia sterującego ponownym uruchamianiem ruterów, żeby protokoły trasowania BGP (Border Gateway Protocol), Intermediate System to Intermediate System i OSPF (Open Shortest Path First) mogły w sposób ciągły zawiadywać pakietami i kierować je do właściwych portów wyjściowych. IEEE zapowiada, że przygotowuje podobne rozszerzenia do protokołu EIGRP (Enhanced Interior Gateway Routing Protocol).

Rozszerzenia pozwalają zapamiętywać zależności warstwy 3, jakie powinny być utrzymane między ruterami ponownie uruchamianymi (restartowanymi) i między wszystkimi ruterami, z którymi się komunikują, bez konieczności przechowywania wszystkich informacji o powiązaniach między procesorami trasowania. Eliminuje się w ten sposób problemy związane ze skalowalnością.

Gdy dwa rutery nawiązują współpracę, wymieniają dane o swoich możliwościach. Do informacji tych dodano nowe opcje, które powodują, że partnerskie rutery nie usuwają ze swoich baz danych informacji o uszkodzonym ruterze, który może przecież szybko wrócić do normalnej pracy.

Nowe rozszerzenia, zwiększające możliwości protokołów trasowania, pozwalają restartować ruter i szybko powiadamiać współpracujące z nim rutery partnerskie, że podjął już normalną pracę. Ruter może wtedy odbierać informacje ze wszystkich ruterów partnerskich i aktualizować na bieżąco swoje tabele marszrut, a w wypadku protokołu BGP ustanawiać ponownie sesje TCP między partnerskimi podmiotami.

Opcje NSF i SSO zachowują podczas przełączania procesorów trasowania wszystkie dane o sesjach użytkowników. Testy wykazały, że opcja SSO pracuje też bez zarzutu wtedy, gdy w sieci uruchomiono aplikację VoIP (przesyłanie głosu przez sieć IP).

SSO i NSF to dwa nowe rozwiązania, dzięki którym awaria procesora sieciowego nie unieruchamia całej sieci. Ruter potrafi wtedy automatycznie wrócić do normalnej działalności - to zwiększa niezawodność pracy systemów informatycznych.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200