Bezbłędne zasilanie i chłodzenie

Bezbłędne zasilanie i chłodzenie
Personel obsługujący system teleinformatyczny stanowi integralną część całego procesu eksploatacyjnego w ramach procedur obsługi technicznej oraz serwisowych, gdyż nikt nie zna lepiej lokalnych uwarunkowań dla pracy infrastruktury. Oprócz kwestii właściwego przeszkolenia niezwykle ważne jest, by pracownicy dysponowali aktualną dokumentacją systemu. Powinna ona opisywać sposób postępowania w razie powtarzalnych błędów i nietypowych sytuacji i być na bieżąco aktualizowana przy współudziale dostawców (producentów). Wszyscy zainteresowani powinni mieć nieograniczony dostęp do niej, gdyż jest ona swego rodzaju bazą wiedzy. Jest to szczególnie ważne w przypadku rotacji pracowników lub chęci zastosowania outsourcingu i zlecenia usług firmie zewnętrznej. Szczególnie narażone na powstawanie błędów są miejsca styku z systemami zewnętrznymi, które są eksploatowane przez inne służby, np. odpowiedzialne za instalację elektryczną budynku. Miejsca te są bardziej narażone na błędy w ramach procesu eksploatacji, ponieważ nie wszystkie sytuacje mogą być poprawnie obsługiwane (np. ze względu na brak wystarczającego wpływu na poprawność działania i dostępność systemów obcych, spowodowaną niewystarczającą komunikacją pomiędzy odpowiedzialnymi zespołami i brakiem dostępu do dokumentacji). Aby osiągnąć założony poziom niezawodności sytemu i eliminacji błędów spowodowanych przez obsługę, warto przeprowadzić audyt zewnętrzny lub wewnętrzny. Celem audytu powinno być zbadanie obecnego stanu procesów utrzymaniowych oraz analiza występujących błędów i wskazanie konkretnych problemów, w celu wyznaczenia działań korygujących. Bezsprzeczną zaletą audytu jest poznanie słabych i mocnych stron systemu, a w konsekwencji możliwość zwiększenia bezpieczeństwa poprzez propozycje wprowadzenia zmian w procesach oraz przygotowanie scenariuszów rozwoju.

Konkluzje

Centra przetwarzania danych muszą spełniać coraz większe wymagania odnośnie do wydajności i dostępności. Kadra zarządzająca centrum przetwarzania danych musi przewidywać wzrost wymagań, a jednocześnie powinna stale pracować nad ograniczeniem prawdopodobieństwa wystąpienia awarii, w tym również usterek powstałych na wskutek błędów człowieka. Kompetencje obsługi mają niezmiernie duży wpływ na niezawodność systemu i zmniejszenie ryzyka błędów popełnianych przez ludzi. Zaniedbań czy pomyłek generowanych przez obsługę nie da się w pełni uniknąć, ale można znacząco zredukować ich ilość poprzez prawidłowe procedury, środki organizacyjne oraz techniczne. Obecnie, przy prawidłowym planowaniu oraz zastosowaniu scentralizowanego systemu zarządzania infrastrukturą fizyczną, w znaczący sposób można zwiększać poziom dostępności, zmniejszając ryzyko wystąpienia błędów spowodowanych przez człowieka. Dzięki scentralizowanemu monitorowaniu i zarządzaniu takimi obszarami jak:

• alerty i urządzenia alarmowe

• temperatura w szafach teleinformatycznych

• dystrybucja mocy

• funkcjonowanie (w tym szczelność) układów chłodzenia.

Można nie tylko uzyskać wyższy poziom dostępności serwerowni, ale także ograniczyć liczbę niezbędnego personelu. Niezwykle pomocna może być również możliwość wcześniejszego utworzenia scenariusza reakcji na zdefiniowane wcześniej sytuacje. Stosowanie zestandaryzowanej infrastruktury serwerowni również prowadzi do zmniejszenia ryzyka wystąpienia błędów generowanych przez człowieka. Najprawdopodobniej ze względu na złożoną naturę człowieka, jego słabości i proste pomyłki, które są udziałem nas wszystkich, nigdy nie będzie możliwe, aby całkowicie wyeliminować tego typu błędy, jednakże ich liczbę można znacznie zredukować, stosując przejrzyste procedury oraz właściwe środki organizacyjne i techniczne.


TOP 200