Bankowy Patrol

Przeciwności projektu

Bankowy Patrol

W BPH są systemy eksploatowane w reżimie pracy ciągłej, jak również systemy pracujące wsadowo, wykorzystywane tylko w pewnym przedziale czasu. Staraliśmy się więc wybrać system, który byłby złotym środkiem – mówi <b>Marek Kozłowski</b>, dyrektor Departamentu Usług Informatycznych BPH.

Jednym z najpoważniejszych problemów, związanych z wdrożeniem systemu zarządzania systemami IT była konieczność dostosowania produktu do istniejącej infrastruktury teleinformatycznej. Wykonane prace stanowiły najpoważniejsze wyzwanie w całej historii projektu. Drugim z problemów był czas trwania wdrożenia. Projekt o takim zasięgu obejmujący najważniejsze systemy obsługujące core business banku, musiały być przeprowadzane z absolutną pewnością powodzenia i przy wyeliminowaniu ujemnego wpływu na dostępność systemów.

Ostatnią z przeciwności była ustawiczna zmienność środowiska IT w czasie trwania projektu. Ponieważ projekt był realizowany razem z eksploatacją infrastruktury firmy, naturalne zmiany spowodowane jej utrzymaniem, wymiana sprzętu i oprogramowania wpływały na czas i ilość pracy związanej z wdrożeniem systemu. Należy także wspomnieć o czynniku ludzkim, związanym z procesem uświadamiania administratorów o rzeczywistej funkcjonalności narzędzia. Szczególnie dotyczy to aspektu kontroli pracy administratorów przez tego typu narzędzia. Funkcjonalność oraz szybkość i dokładność produktu sprawiły, że administratorzy przekonali się dość szybko.

Efekty końcowe

Bardzo dobre wyniki wdrożenia pilotażowego sprawiły, że dołączano do niego kolejne systemy. Po wykonaniu prac związanych ze strojeniem parametrów pracy, BMC Performance umożliwił zmniejszenie liczby incydentów i zakłóceń pracy systemów. W systemach kluczowych pomiędzy rokiem 2003 a 2004 zredukowano liczbę zakłóceń ze 175 do 61, przy czym rejestrowane były wszystkie zakłócenia, również te nie wpływające na dostępność systemu. Tendencja spadku liczby zakłóceń została zachowana, pomimo rozszerzania zasięgu projektu. W 2005 r. zarejestrowano 54 zdarzenia, rok później – 46, a w 2007 r. zaledwie 29. System objął najważniejsze elementy głównych linii biznesowych banku, zatem można było prosto dostarczać zarządowi i biznesowi aktualnych informacji na temat dostępności i stanu obsługi procesów biznesowych. Przeznaczona do tego celu konsola BMC Portal przedstawia stan najważniejszych procesów firmy oraz komponentów systemu, które dany proces obsługują.

Wyprzedzić problem

Ważnym efektem dobrego wdrożenia systemu monitorowania eksploatacji jest działanie wyprzedzające pojawienie się problemów i zakłóceń, szczególnie dobrze widoczne w systemach wykazujących mocne maksimum obciążenia w ciągu doby i dużą nierównomierność dobową i godzinową wykorzystania zasobów. Takie systemy są często realizowane z użyciem rozwiązań wysokiej dostępności, czasami z użyciem rezerwowego ośrodka, który może przejąć pracę w przypadku poważnej awarii. Jednak nie zawsze przełączenie odbędzie się natychmiast.

Przykładowe zakłócenia mogą być sygnalizowane np. komunikatem związanym z wyłączeniem z pracy jednego z procesorów serwera i części jego pamięci. Taki komunikat wyzwala automatyczny alert z natychmiastowym powiadomieniem. Problem zostaje zgłoszony serwisowi technicznemu. Ponieważ wspomniane zdarzenie sugeruje problem sprzętowy, z którym często wiąże się konieczność wyłączenia maszyny w celu naprawy, podjęta zostaje decyzja o przygotowaniu do pracy ośrodka rezerwowego oraz odpowiednie przekonfigurowanie równoważenia obciążenia serwerów. Symptomami pogłębiających się problemów może być na przykład zmiana wydajności albo kolejne komunikaty o wyłączeniach infrastruktury. Gdyby np. zbliżał się szczyt wykorzystania kontrolowanego systemu, nastąpiłoby kolejne zakłócenie oraz związane z nim przeciążenie głównego systemu. Wtedy do pracy przystępuje ośrodek rezerwowy, przejmując obciążenie ośrodka głównego na czas niezbędny do usunięcia problemów. Czas przełączenia na eksploatację ośrodka rezerwowego był poważnie skrócony, dzięki temu, że administratorzy podjęli odpowiednio wcześniej decyzję o uruchomieniu całej procedury odpowiedzialnej za jego włączenie. Po naprawieniu uszkodzonych maszyn, następuje z powrotem przełączenie na ośrodek główny.

Przykładowe działania pozwalają stwierdzić, że dostarczone na czas, szczegółowe informacje o pracy systemów dają administratorom szansę minimalizowania skutków problemów.


TOP 200