Szyna czyni cuda

Specyfikacja HyperTransport 3.0 stwarza szansę na całkiem nowe podejście do architektury serwerów, zwłaszcza klastrów obliczeniowych.

Specyfikacja HyperTransport 3.0 stwarza szansę na całkiem nowe podejście do architektury serwerów, zwłaszcza klastrów obliczeniowych.

Wersja 3.0 specyfikacji HyperTransport pozwoli budować szyny komunikacyjne na płytach głównych działające z prędkością nie 12,8 GB/s jak obecnie, lecz 20,8 GB/s. Bezpośrednim czynnikiem przyspieszającym jest zwiększenie częstotliwości taktowania magistrali z 1,4 do 2,6 GHz. Nie jest to jednak bynajmniej jedyna zmiana wprowadzana przez nową specyfikację. Pojawia się w niej m.in. możliwość podłączania i odłączania urządzeń bez przerywania pracy systemu, dynamicznej rekonfiguracji połączeń oraz ulepszone parametry elektryczne (brak strat przy transmisji na dystansie do 1 m przy maksymalnej częstotliwości zegara). Nie ulega wątpliwości, że zarówno wyższa wydajność, jak i inne nowe parametry poważnie rozszerzają zakres potencjalnych zastosowań technologii HyperTransport.

Szyna jako oręż

Twórcą technologii HyperTransport jest firma AMD, która zaprezentowała ją wraz z premierą pierwszej generacji układów Opteron i Athlon. Układy te odeszły od architektury x86 i stworzyły własny świat, pozwalający na zasadnicze przyspieszenie wielu skomplikowanych operacji. Unikalne możliwości platform Opteron/Athlon nadal jednak pozostają w dużej mierze niewykorzystane. Większość producentów oprogramowania praktycznie do chwili obecnej opracowuje aplikacje z myślą o architekturze x86, nie zaś z coraz powszechniej wykorzystywaną architekturą AMD64, która zachowuje jedynie kompatybilność z x86.

Ale Intel nie zaprzestał rozwoju swoich własnych pomysłów i w drugiej połowie br. wprowadzi na rynek nową generację układów serwerowych mających nawet 3-krotnie wyższą wydajność niż bieżące układy przy utrzymaniu poziomu poboru energii na dotychczasowym poziomie (Woodcrest). Rewanż Intela to dla AMD poważne wyzwanie, nawet jeśli uwzględnić wyjątkowe sukcesy rynkowe tej firmy w ostatnim czasie. W tym świetle otwarcie technologii HyperTransport i przekazanie jej rozwoju niezależnej organizacji wygląda na decyzję bardzo słuszną. AMD zyskuje dodatkowych sojuszników, którzy niezależnie opracowują interesujące produkty.

Są już pierwsze jaskółki - DRC Computer, firma zatrudniająca zaledwie 13 osób, opracowała programowalne koprocesory FPGA, które mogą być instalowane bezpośrednio w standardowych gniazdach AMD 940 dla układów Opteron. Do budowy systemu wykorzystano programowalne układy scalone FPGA (Field Programmable Gate Array) LX-60 Virtex-4 firmy Xilinx. W ślad DRC jeszcze w tym roku na rynek wprowadzone zostaną także inne rozwiązania wykorzystujące szynę HyperTransport.

Opteron z koprocesorem

To, że DRC opracowała takie koprocesory na platformę AMD, a nie Intela, nie jest przypadkiem. Architektura i wydajność szyn HyperTransport istotnie ułatwia budowę takiego rozwiązania, a specyfikacja HyperTransport jest dostępna publicznie. Rozwiązanie DRC Coprocessor Module ma dzięki szynie HyperTransport bezpośredni dostęp z pełną prędkością i minimalnymi opóźnieniami do pamięci DDR i procesora Opteron znajdującego się w sąsiednim gnieździe.

Dotychczas akceleratory FPGA umieszczano na dedykowanych płytach głównych w osobnych urządzeniach lub kartach rozszerzeń z interfejsami PCI/PCI-X. Taka konstrukcja ma oczywiście swoją cenę - rzędu 10-15 tys. USD, a przy tym wszelkie przyspieszenie i tak dławione jest przez opóźnienia i ograniczone pasmo PCI/PCI-X. Architektura zaproponowana przez DRC jest zasadniczo wydajniejsza w sensie pasma i opóźnień niż urządzenia zewnętrzne, a nawet karty rozszerzeń. Akcelerator DRC zmienia także relacje cenowe w tej klasie rozwiązań. Obecnie DRC Coprocessor Module kosztuje ok. 4,5 tys. USD, ale według zapowiedzi firmy w przyszłym roku można spodziewać się spadku ceny do ok. 3 tys. USD.

Jak mówi Larry Laurich, dyrektor zarządzający firmy DRC Computer, podstawą opracowania konstrukcji było założenie, że powinna ona oferować przynajmniej 3-krotnie lepszy stosunek ceny do wydajności w porównaniu z serwerami kasetowymi bez akceleratorów. Takie odniesienie było wynikiem obserwacji, że firmy zmotywowane do korzystania z akceleracji obliczeń są skłonne wydać więcej pieniędzy, by przyspieszyć uzyskanie wyników. Najprościej i zazwyczaj najtaniej jest po prostu rozbić obliczenia na więcej serwerów.

Koprocesor nie wystarczy

Technologia akceleracji za pomocą programowalnych układów FPGA nie jest powszechna, jednak w wielu niszach zdążyła się zadomowić, stanowiąc alternatywę dla układów specjalizowanych o niezmiennej konstrukcji i pozwalając na swobodne eksperymentowanie z różnymi algorytmami lub wręcz zmianę zastosowań, jeśli zajdzie taka potrzeba.

Instalacja koprocesora na płycie głównej to jednak nawet nie połowa sukcesu. Wykorzystanie jego możliwości wymaga umiejętności jego zaprogramowania i przetestowania. Ten koszt niewątpliwie należy uwzględnić przy porównaniu cen. Oprócz elastyczności, przy założeniach jak wyżej, akceleratory mają dodatkową zaletę w postaci niskiego poboru energii, a więc niskiej emisji ciepła. W przypadku akceleratorów DRC jeden moduł pobiera 10-20 W, a więc 4-, 8-krotnie mniej niż procesor Opteron.

Jeśli chodzi o wydajność obliczeń, według DRC możliwe jest uzyskanie 10-, 20-krotnego przyspieszenia aplikacji przy zachowaniu 40% poboru mocy w porównaniu z zużywanej przez procesory ogólnego przeznaczenia. Wydajność akceleracji widać ponoć najbardziej w obliczeniach stałoprzecinkowych - może ono być nawet 100-krotne. W przypadku znacznie bardziej wymagających obliczeń na liczbach zmiennoprzecinkowych producent deklaruje 10-krotne przyspieszenie obliczeń o pojedynczej precyzji (na liczbach 32-bitowych) i 5-krotne dla podwójnej precyzji (na liczbach 64-bitowych).

<hr size="1" noshade>

Akceleratory DRC przyspieszają 100-krotnie obliczenia stałoprzecinkowe.

Najprostszy, oferowany przez DRC akcelerator FPGA umieszczany w gnieździe AMD 940 (DRC100-L60ES) działa z częstotliwością 200 MHz i wykorzystuje jeden 8-bitowy, dwukierunkowy kanał szyny HyperTransport. Firma sprzedaje również bardziej zaawansowane wersje DRC100-L60 i DRC110-L160, które działają z częstotliwością 400 MHz i komunikują się przez dwa dwukierunkowe 8-bitowe interfejsy. Moduły DRC system LinuxBIOS rozszerzono o kilka dodatkowych instrukcji. LinuxBIOS to niewielkie oprogramowanie inicjujące uproszczoną wersję systemu Linux wykorzystywaną powszechnie do konfiguracji sprzętu w klastrach i systemach wbudowanych zanim uruchomiony zostanie główny system operacyjny lub menedżer systemów (boot loader). LinuxBIOS jest rozwijany od 1999 r. i działa na wszystkich liczących się platformach sprzętowych (m.in. Intel, AMD, Alpha, VIA, PowerPC).<hr size="1" noshade>


TOP 200