Serwery x86 do aplikacji krytycznych

Od pracy niektórych aplikacji zależy działanie całego przedsiębiorstwa. Obecnie ważne oprogramowanie można uruchamiać na serwerach x86 bez istotnego wzrostu ryzyka biznesowego.

Aplikacje krytyczne obsługują główne linie biznesowe firmy w taki sposób, że każda przerwa w dostępności lub inna awaria powoduje natychmiastową przerwę w działaniu przedsiębiorstwa. Jeszcze kilka lat temu organizacje, które wykorzystywały systemy o tak ostrych wymaganiach związanych z dostępnością, miały wybór między klastrami maszyn RISC z systemami typu UNIX albo OpenVMS oraz maszynami klasy mainframe. Procesory x86 były zbyt mało wydajne, zbyt zawodne, a oprogramowanie nie było na tyle stabilne, by powierzyć mu obsługę biznesowych procesów krytycznych w firmie. Obecnie dzięki rozwojowi samych procesorów, wszystkich układów towarzyszących CPU oraz technologii konstrukcji komputerów, można stworzyć serwer platformy x86, którego niezawodność zbliża się do osiągów maszyn kojarzonych ze środowiskiem typu UNIX. Duży wpływ na zmiany w samej konstrukcji serwerów x86 miały doświadczenia w serwerach RISC, w tym także przy komputerach klasy mainframe oraz dużych klastrów z procesorami takimi jak SPARC czy Itanium.

Zmiany w procesorze i chipsetach

Jednym z mechanizmów, które radykalnie poprawiły niezawodność procesorów x86, było wprowadzenie nadmiarowości i detekcji błędów. Ponieważ dzisiejsze procesory są wykonywane w technologii o coraz mniejszej szerokości ścieżek, należało opracować sposoby zapobiegania skutkom błędów, które mogą się pojawiać. Skutkiem błędu może być załamanie systemu operacyjnego, a zatem należy przeciwdziałać takim zdarzeniom. System sum kontrolnych umożliwia wykrycie błędów, jeśli problem dotyczy transmisji magistralą, można uszkodzony pakiet wysłać ponownie. Magistrale są projektowane w taki sposób, by droga między komponentami była nadmiarowa. Uszkodzenie jednej części magistrali spowoduje jedynie spadek wydajności, ale nie załamuje pracy systemu operacyjnego ani aplikacji.

Zobacz również:

  • AI ma duży apetyt na prąd. Google znalazł na to sposób
  • OpenAI rozważa stworzenie własnych układów scalonych AI
  • Dell Technologies Forum 2023

Kontroluje się także działanie samego sprzętu. W razie problemów można uruchomić specjalne procedury obejścia błędów wbudowane w nowoczesne systemy operacyjne Linux i Windows. Systemy detekcji błędów stron pamięci umożliwiają wykrycie błędów, izolowanie uszkodzonych obszarów pamięci i kontynuowanie pracy przy minimalnym wpływie na działanie aplikacji.

Metoda radykalnie zmniejsza ryzyko załamania oprogramowania wirtualizacyjnego, co ma znaczenie, gdy wirtualizuje się dużą liczbę maszyn na jednym fizycznym hoście.

Rezerwowa płyta

Każde urządzenie może ulec awarii, dotyczy to także płyty głównej i innych podzespołów. Aby uniknąć obecności pojedynczego punktu awarii, producenci oprogramowania opracowali klastry active-passive, w których rezerwowy serwer jest w stanie w każdej chwili przejąć obciążenie podstawowej maszyny. W przypadku nowych serwerów można zastosować rozwiązanie, w którym serwer jest wyposażony w zapasową płytę główną z osobnymi podzespołami. Przy awarii jednego z modułów wewnątrz serwera, co grozi wyłączeniem jednej partycji, rezerwowa płyta niezwłocznie rozpoczyna pracę, zapewniając ciągłość działania. Metoda radykalnie zmniejsza ryzyko przerw w pracy aplikacji.

Rezerwowa płyta ma jeszcze jedną istotną zaletę: nie wymaga kupowania kosztownych licencji na serwer standby, gdyż w tym przypadku taki serwer po prostu nie istnieje. Ma to duże znaczenie w przypadku klastrów bazodanowych active-passive w bazach Oracle oraz Microsoft SQL Server, gdzie do budowy klastra trzeba zakupić kosztowne licencje na bazę standby i dodatkowe licencje na system operacyjny serwera. Sama rezerwowa płyta może być w pogotowiu dla wszystkich partycji serwera, rozpoczynając działanie, gdy uszkodzeniu ulegnie jeden z procesorów.

Podział serwera na części

W systemach typu UNIX od dawna można było podzielić sprzęt na partycje, na których działały niezależne instancje systemu operacyjnego, separowane sprzętowo. Obecnie taka możliwość została wprowadzona do serwerów Fujitsu Primequest, dzięki czemu udaje się wydzielić fragmenty zasobów (procesor, karty PCI Express, połączenia magistrali danych QPI), tworząc niezależne środowiska. W każdym z nich może pracować inny system operacyjny, przy czym takie operacje jak restart czy rekonfiguracja również odbywają się per partycja.

Specjalna konstrukcja płyty głównej

Badania działu serwerów mainframe w firmie Fujitsu, poświęcone stabilności oraz przyczynom błędów w pracy podzespołów serwera, udowadniają, że te same technologie stosowane przez lata w sprzęcie do zadań krytycznych można wykorzystać w profesjonalnych serwerach x86. Przyczyną niestabilności procesorów zazwyczaj nie są błędy wewnątrz samej struktury krzemowej, ale zakłócenia przychodzące z zewnątrz. Przy częstotliwościach taktowania zegara na płycie liczonych w setkach megaherców każdy długi przewód może być anteną nadawczą, więc może powodować generowanie zakłóceń. Do tego należy dodać fluktuacje napięcia zasilającego procesor - na płycie głównej występują konwertery napięcia, które obniżają napięcie z 5 V do niższej wartości wykorzystywanej do zasilania procesora. Dopracowanie tych konwerterów (Fujitsu zastosowało ekranowane podzespoły japońskiej firmy Murata) oraz specjalna konstrukcja wielowarstwowej płyty głównej umożliwiają zmniejszenie wpływu zakłóceń na pracę procesorów i pamięci.

Zagadnienia serwerów do zastosowań krytycznych były tematem konferencji Fujitsu, która odbyła się 28 lutego 2013 r.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200