Bankowy Patrol

Cele biznesowe projektu

- Wzrost wydajności krytycznych aplikacji.

- Optymalizacja zasobów i zwiększenie efektywności nakładów IT.

- Zwiększenie dostępności i jakości usług.

- Zmniejszenie ilości zakłóceń i awarii, a tym samym skrócenie czasu przestoju.

- Redukcja wpływu czynnika ludzkiego przy utrzymaniu działania systemów.

- Obniżenie kosztów utrzymania.

- Zmniejszenie ilości administratorów pracujących w całodobowej obsadzie (z 40 do 5 w zespole monitorującym).

„W BPH są systemy transakcyjne bezpośrednio udostępnione klientom, eksploatowane w reżimie pracy ciągłej, jak również systemy pracujące non stop, ale ich głównym zadaniem jest wsparcie procesów biznesowych poprzez przetwarzanie określonych danych i dostarczanie ich innym aplikacjom. Eksploatujemy również systemy pracujące wsadowo, masowo przetwarzające dane w określonych paczkach, lub wykorzystywane tylko w pewnym przedziale czasu. Staraliśmy się więc wybrać system, który byłby złotym środkiem” – mówi Marek Kozłowski, dyrektor Departamentu Usług Informatycznych BPH.

Pilotażowy system wykorzystywał system operacyjny Solaris i miał za zadanie dostarczyć informacji o tym, jak się będzie zachowywał pakiet BMC Patrol w systemie produkcyjnym, nie naruszając jednocześnie obsługi klienta w razie ewentualnych problemów. Po rozpoczęciu pilotażowego wdrożenia, instalacji odpowiedniego oprogramowania i dokonaniu pierwszych miarodajnych pomiarów okazało się, że wynik pilotażu był zaskakująco dobry.

Najważniejszy parametr, czyli dostępność usług wzrosła z 95,26% do 99,66%. Opracowano wizualizację danych, które dostarczał nowy system, jak również w tym czasie wypracowano zasady pozwalające na sprawniejsze jego wykorzystanie.

Najważniejszą przyczyną tak poważnego wzrostu dostępności była dokładność i szybkość pracy, która umożliwiła działanie proaktywne oraz niemal natychmiastową interwencję w razie potrzeb. Patrol umożliwiał dokładniejsze analizowanie wielu parametrów różnych systemów, dzięki czemu administrator mógł podjąć działania szybciej, zanim zakłócenia się pojawią i nastąpi naruszenie ciągłości pracy usługi. Tymi parametrami były najczęściej obciążenie procesora, wykorzystanie pamięci, kolejkowanie, obsługa równoważenia obciążenia w aktywnym klastrze i tak dalej.

Sprawny i dokładny monitoring poprawił wykorzystanie istniejących zasobów. Zamiast rozbudowy bazy serwerowej o kolejną maszynę, wystarczyła odpowiednia rekonfiguracja równoważenia obciążenia. Bez dokładnych pomiarów rzeczywistego obciążenia wszystkich maszyn obsługujących aplikację biznesową, nie byłoby to możliwe. Bardzo dobry wynik pilotażowego wdrożenia sprawił, że podjęto decyzję o dalszym wdrażaniu systemu, już na maszynach produkcyjnych obsługujących core business firmy.

Najważniejsza praca to strojenie systemu

99,66%

wyniosła, po rozpoczęciu pilotażowego wdrożenia, dostępność usług (wcześniej 95,26%).

Wdrożenie systemu nie kończy się na instalacji odpowiednich agentów i rozpoczęciu procesu zbierania niezbędnych informacji. Najważniejszym etapem w tym projekcie było wypracowanie odpowiedniego zestawu parametrów pracy, które określały stan optymalnie eksploatowanych systemów. Każdy z nich był konfigurowany na podstawie parametrów podawanych przez producenta, dostrajany przy wykorzystaniu doświadczenia administratorów oraz najlepszych praktyk, zapisanych w firmowej bazie wiedzy. W ten sam sposób należało dostroić agentów BMC i ta praca była kluczem do sukcesu.

Agent w domyślnej konfiguracji pobiera wiele parametrów pracy systemów, co powoduje znaczne obciążenie systemów bankowych. Ponadto systemy, dla których bardzo duże obciążenie jest stanem normalnej pracy, generowały wiele zdarzeń o wysokiej ważności, oznaczanych nawet jako krytyczna. Należało dobrać parametry systemu w taki sposób, by alarmy krytyczne były uruchamiane tylko wtedy, gdy to jest niezbędne. Oprócz zmniejszenia ilości rejestrowanych parametrów i dostrojenia ich jakości, ważne było ustalenie najmniejszej potrzebnej częstotliwości ich pobierania z mierzonych systemów. Gromadzone dane są dostępne dla administratorów także w celu przeglądania danych historycznych, więc proces ograniczania ilości zbieranych danych musiał być przeprowadzany rozsądnie.


TOP 200