Serwer musi działać cały czas

W wielu przedsiębiorstwach awaria krytycznych aplikacji natychmiast powoduje ogromne straty. Do firm, które oczekują wysokiej niezawodności, HP kieruje nową platformę Odyssey.

Infrastruktura krytyczna

Które z zadań są lub staną się krytyczne dla firmy

Ogólne przetwarzanie danych dla celów biznesowych 73,2%

Bazy danych 21,4%

Wsparcie techniczne 51,8%

Budowa aplikacji i ich testowanie 51,8%

Infrastruktura IT 48,2%

Usługi oraz infrastruktura webowa 48,2%

Narzędzia współpracy 35,7%

Obliczenia techniczne/naukowe 30,4%

Inne 1,8%

Główne wyzwania IT w firmach (niezależnie od wielkości)

Ważność zadań w skali od 1 do 10.

Radzenie sobie ze zmianami technologicznymi i procesami 5,6

Znajdowanie czasu lub pracowników do ewaluacji nowych opcji (cloud, nowa infrastruktura) 5

Sprawne założenia rozwoju, współpraca z biznesem 5,5

Produktywność, wiedza i liczba pracowników IT 5,7

Urządzenia mobilne 5,5

Ograniczenia budżetowe, wysokie koszty 6,2

Utrzymanie żądanej jakości usług 5,5

Disaster recovery, wysoka dostępność 6,8

Bezpieczeństwo, zgodność z regulacjami prawnymi, zarządzanie zmianami 6,5

Poprawa elastyczności biznesowej, sprawności oraz wiarygodności IT 5,6

Źródło danych - badania firmy Hewlett-Packard, 2012.

Jeszcze 10 lat temu mało kto wyobrażał sobie, że obsługa poczty elektronicznej czy hostowanie strony www może stać się dla firmy aplikacją krytyczną. Obecnie nawet komunikator internetowy może być taką usługą, gdyż komunikacja przez internet bywa związana z główną linią biznesową firmy (na przykład przy sprzedaży internetowej) lub nawet ją stanowi w przypadku operatorów telekomunikacyjnych. Innym krytycznym systemem jest na przykład platforma billingowa, odpowiedzialna za rozliczanie kosztów usług świadczonych abonentom. Każda przerwa w jej pracy oznacza straty materialne, a zatem w interesie firmy jest zbudowanie platformy, która zapewni oczekiwaną dostępność usługi, wykraczając poza to, co osiąga się na platformie x86 w systemach Linux i Windows.

Firma HP zaprezentowała niedawno nowe serwery Integrity, stanowiące część programu HP Odyssey, którego zadaniem jest długoterminowe kreowanie rozwiązań o ultrawysokiej dostępności klasy mission critical. Platforma taka korzysta z systemu operacyjnego HP-UX, NonStop lub Open VMS z procesorami Itanium 9500, a w przypadku środowisk o niższych wymaganiach stosowane będą procesory Xeon E7 oraz systemy Windows i Linux. Najważniejszym założeniem projektu jest jednak nie tyle utworzenie pojedynczego środowiska, ile stabilne utrzymanie rozwoju - firma HP deklaruje ścieżkę rozwoju do roku 2022 włącznie, uwzględniając nie tylko sprzęt, ale także systemy operacyjne klasy mission critical, takie jak HP-UX, NonStop czy Open VMS. Długoterminowe plany obejmują przy tym maksymalizację wykorzystania standardowych podzespołów, takich jak chassis, a nawet niektórych elementów wewnątrz procesora, w przyszłości wspólnie projektowanych pod kątem zarówno Xeonów, jak i Itanium.

Mark Payne, wiceprezes działu Business Critical Systems HP w regionie EMEA, mówi: "Ze względu na różnice technologiczne rdzenie ani instrukcje procesora nie będą wspólne między Itanium a Xeonami. Docelowo będzie można wykorzystać jedno chassis Superdome 2, w którym będą pracować serwery kasetowe Integrity z procesorami Itanium obok kaset z serwerami Intel Xeon. Za to razem będzie można nimi zarządzać. Do krytycznych zadań świetnie nadaje się platforma Integrity, mniej wymagające obciążenia będą mogły pracować na platformie x86. Niedawno rozszerzyliśmy skalowalność do 256 rdzeni, w systemie HP-UX 11iv3 wprowadziliśmy usprawnienia w dziedzinie bezpieczeństwa, zarządzania zasobami oraz skalowalności".

Nowy procesor Itanium

W nowych serwerach z serii Integrity będą pracować procesory Intel Itanium 9500. Podobnie jak najnowsze procesory platformy x86, są szybsze od poprzedników dzięki przetwarzaniu większej liczby instrukcji na takt zegara oraz wyższej częstotliwości taktowania. Dodatkowo zmniejszono zapotrzebowanie na energię elektryczną w stanie spoczynku o 80%. Cała platforma Itanium od początku była projektowana pod kątem zrównoleglenia, obecnie dotyczy to zarówno wątków, jak i rdzeni, a także pamięci i instrukcji.

Najważniejsze różnice między platformą x86 a Itanium są jednak związane nie tyle z wydajnością, ile z niezawodnością pracy. Opcje nazywane RAS (Reliabity and Availability Services) są związane przede wszystkim z utrzymaniem pracy aplikacji, nawet mimo drobnych uszkodzeń sprzętu lub niestabilnej jego pracy spowodowanej czynnikami środowiskowymi.

Ken Surplice menedżer produktów w dziale BCS w firmie Hewlett-Packard mówi: "Dzisiejsze procesory są wykonywane w technologii o coraz mniejszej szerokości ścieżek. Ładunek odpowiadający za pracę tranzystora jest coraz mniejszy, a zatem łatwiej o przypadkowe zmiany stanu spowodowane czynnikami środowiskowymi. Nie można pomijać tego, co mówi rachunek prawdopodobieństwa. Ponieważ każdy błąd skutkuje awarią przetwarzania danych, należy minimalizować prawdopodobieństwo jego powstania i zastosować wszelkie techniczne środki zaradcze, którymi obecnie dysponujemy".

Jak Itanium chroni się przed skutkami drobnych awarii

Ponowne przetworzenie błędnych instrukcji

Techniką, która zmniejszy wpływ przypadkowych błędów na problemy z przetwarzaniem danych, jest instruction replay, czyli ponowne przetworzenie instrukcji w przypadku błędu. Gdyby z jakichś powodów, na przykład problemów sprzętowych, wewnątrz procesora powstał błąd przy przetwarzaniu instrukcji, zostaną one wykonane ponownie, bez zgłaszania błędu do systemu operacyjnego.

Dzięki instruction replay można uniknąć pojawiania się krytycznych błędów, skutkujących załamaniem pracy systemu operacyjnego - a zatem wyłączających cały serwer z pracy, włącznie ze wszystkimi aplikacjami tam hostowanymi. Taka korekta jest realizowana sprzętowo, w sposób niezauważalny dla systemu i aplikacji.

Kontrola błędów

Nowością jest także wykrywanie błędów podczas całego procesu przetwarzania danych. Wprowadzenie sum kontrolnych umożliwia wykrycie błędów spowodowanych losową zmianą stanu któregoś z tranzystorów lub przekłamaniem przy komunikacji wewnętrznej. Jest to niezbędne, by dodatkowo obniżyć stopę błędów. Przy liczbie tranzystorów w procesorach rzędu kilkudziesięciu milionów sztuk rachunek prawdopodobieństwa uczy, że błędy będą występować, dlatego należy zabezpieczyć cały proces przetwarzania danych za pomocą mechanizmów sum kontrolnych.

Maskowanie awarii cache

W starszych procesorach awaria pamięci podręcznej (cache) powoduje załamanie wykonywania kodu, a zatem przerwę w pracy. Aby zmniejszyć wpływ takiej awarii na przerwy w przetwarzaniu danych, wprowadzono znaną z serwerowych Xeonów technologię maskowania błędów w pamięci cache. Po wykryciu błędu uszkodzony obszar cache jest wyłączany z eksploatacji, ceną jest niższa wydajność procesora, ale w systemach krytycznych dla firmy ważniejsza jest ciągłość działania niż wyśrubowana wydajność.

Unikanie restartów

Jedną z przyczyn awarii serwera jest uszkodzenie modułów pamięci RAM. Serwerowe płyty główne umożliwiają wyłączenie danego modułu pamięci, dzięki czemu serwer nadal może pracować, ale wykrycie poważnego błędu wiąże się z restartem serwera. W skonsolidowanym środowisku oznacza to ponowne uruchamianie wielu maszyn wirtualnych, instancji systemu operacyjnego, separowanych środowisk i aplikacji, co wiąże się z przestojem w pracy. W najnowszych systemach informacje o błędach są pozyskiwane od sprzętu bezpośrednio przez oprogramowanie zarządzające. Dzięki temu w skonsolidowanym środowisku można wskazać maszynę zajmującą uszkodzony obszar pamięci, a następnie wyłączyć ten obszar i tylko tę maszynę uruchomić ponownie. Drobna awaria sprzętowa dotycząca np. pamięci operacyjnej nie będzie już się wiązała z natychmiastowym wyłączeniem serwera z eksploatacji czy ponownym uruchamianiem wszystkich maszyn wirtualnych.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200