Centra danych: Ethernet i konkurencja

Ekspansja Ethernetu w ostatnich latach może prowadzić do wrażenia, że ta technologia jest dobra na wszystko. Jednak są dziedziny, w których musi ustąpić pola innym metodom transportowania danych z miejsca na miejsce. Dzieje się tak w dużych centrach danych, którym klasyczny Ethernet może oferować zbyt mało...

Ekspansja Ethernetu w ostatnich latach może prowadzić do wrażenia, że ta technologia jest dobra na wszystko. Jednak są dziedziny, w których musi ustąpić pola innym metodom transportowania danych z miejsca na miejsce. Dzieje się tak w dużych centrach danych, którym klasyczny Ethernet może oferować zbyt mało...

W centrach danych można najczęściej spotkać następujące rodzaje połączeń: Ethernet (sieć LAN), Fibre Channel (systemy pamięci masowych) oraz szybkie połączenia sprzęgające serwery w jeden organizm zwany klastrem komputerów (głównie Myrinet lub InfiniBand). Niektórzy sięgają też po różne odmiany połączeń opartych na Ethernecie, do jakich należy np. firmowe rozwiązanie o nazwie EtherFabric.

Administratorzy dużych centrów danych, stojąc przed koniecznością zbudowania szybkich połączeń sprzęgających poszczególne elementy systemu, dzielą się na dwa obozy. Dla większości z nich taką naturalną technologią jest Ethernet. Ten powszechnie znany i wypróbowany standard pozwala budować połączenia, dzięki którym serwery Windows, Linux i systemy mainframe można dołączyć do sieci, a użytkownicy mają do nich dostęp. Drugi obóz to ci, którzy decydują się na takie rozwiązania, jak: EtherFabric, iWarp, Myrinet czy od niedawna InfiniBand. Trzeba przy tym zwrócić uwagę, że technologie Myrinet i InfiniBand pozwalają budować bardzo szybkie połączenia, podczas gdy EtherFabric i iWarp to rozwiązania oparte na klasycznym Ethernecie, które zwiększają znacznie wydajność samych serwerów, przenosząc zadania związane z obsługą sieci do specjalizowanych sieciowych.

EtherFabric

Jednym z największych i najwydajniejszych dostępnych obecnie przełączników InfiniBand jest ISR9288 oferowany przez firmę Voltaire. Urządzenie może zawierać do 288 portów InfiniBand 4X (20 Gb/s), a motor przetwarza dane z szybkością 11,52 Tb/s, z opóźnieniem (między dwoma portami) ok. 420 ns

Jednym z największych i najwydajniejszych dostępnych obecnie przełączników InfiniBand jest ISR9288 oferowany przez firmę Voltaire. Urządzenie może zawierać do 288 portów InfiniBand 4X (20 Gb/s), a motor przetwarza dane z szybkością 11,52 Tb/s, z opóźnieniem (między dwoma portami) ok. 420 ns

EtherFabric to rozwiązanie składające się ze specjalnej karty sieciowej i oprogramowania, które wykorzystuje tradycyjną infrastrukturę sieciową Ethernet. EtherFabric zwiększa wydajność serwera, dystrybuując w odpowiedni sposób stos komunikacyjny TCP/IP (dołączając stos do każdej aplikacji sieciowej uruchomionej na serwerze). Każda aplikacja może wtedy uzyskiwać bezpośredni dostęp do pamięci zagnieżdżonej na karcie sieciowej serwera, odciążając w ten sposób układ CPU.

Ponieważ EtherFabric opiera się na standardowych protokołach Ethernet, może współpracować ze zwykłymi kartami ethernetowymi - po jednej stronie połączenia może być karta EtherFabric, a po drugiej standardowy ethernetowy NIC.

Kartę EtherFabric obsługującą połączenia 1 Gb/s oferuje firma Level 5 (model EtherFabric EF1--21022T). Jest ona wyposażona w złącze PCI-X i dwa porty RJ-45 i można ją instalować w serwerach pracujących pod kontrolą systemu operacyjnego Linux. Producent pracuje już nad podobnym interfejsem obsługującym połączenia 10 Gb/s.

iWarp albo RDMA over TCP/IP

Komunikacja z RDMA

Komunikacja z RDMA

W przypadku aplikacji sieciowych koszty związane z obsługą operacji I/O są bardzo duże, a aplikacje takie obciążają w nadmierny sposób procesor zainstalowany w serwerze. Wiąże się to z koniecznością wykonywania takich operacji, jak: buforowanie danych, obsługa transportu danych oraz kontekstowe przełączanie aplikacji. Aby rozwiązać ten problem, do protokołu TCP/IP wprowadzono wiele rozszerzeń (najważniejsze to Remote Direct Memory Access, Direct Data Placement i Marker PDU Aligned Framing), nadając im nazwę iWarp (internet Warp). Technologia iWarp jest też znana jako RDMA over TCP/IP.

Technologia zmniejsza w znacznym stopniu koszty związane z kontekstowym przełączaniem aplikacji, czyli przenoszeniem obsługi konkretnego procesu z obszaru użytkownika do jądra systemu operacyjnego (tam, gdzie funkcjonują przerwania sprzętowe oraz pracują sterowniki urządzeń). Każde takie przejście (przełączenie kontekstowe) trwa i wpływa ujemnie na wydajność aplikacji sieciowej. Metoda iWarp to nic innego jak "bypass", omijający system operacyjny. Po zastosowaniu iWarp dwa komputery mogą wymieniać ze sobą bardzo szybko dane w trybie pamięć-pamięć.

Połączenia sprzęgające serwery

Połączenia sprzęgające serwery

W standardowych sieciach IP obsługę protokołu TCP/IP bierze na siebie CPU, komunikując się za każdym razem z jądrem systemu operacyjnego. W rozwiązaniach z techniką TOE (TCP off-load engine) operacje TCP wykonuje karta sieciowa, jednak CPU dalej angażuje się w wymianę danych z interfejsem sieciowym. W rozwiązaniach iWarp karta sieciowa realizuje jeszcze więcej zadań.

Karta sieciowa z iWarp potrafi przełączać (w przezroczysty dla aplikacji sposób) interfejsy programistyczne. Technologia wprowadza do systemu nowy interfejs, dzięki któremu oprogramowanie aplikacyjne może się komunikować bezpośrednio (z pominięciem systemu operacyjnego) z adapterem kanałów Ethernet. Inaczej niż w przypadku technologii EtherFabric, w iWarp po obu stronach połączenia muszą się znajdować interfejsy sieciowe wspierające tę technologię.

Technologię iWarp wspiera wielu producentów, w tym HP, Broadcom, Chelsio Communications, Network Appliance i Microsoft. Podaż rozwiązań opartych na technologii iWarp jest obecnie nieduża, ale analitycy przewidują, że w ciągu najbliższego roku radykalnie się zwiększy.

Mniejsze opóźnienia z InfiniBand

Centrum danych z InfiniBand

Centrum danych z InfiniBand

Ethernet to doskonała technologia, ale niezapewniająca na tyle dużych przepływności i małych opóźnień, aby można ją stosować do budowania połączeń obsługujących wydajne klastry komputerowe czy rozbudowane systemy pamięci masowych. Nie oznacza to oczywiście, że dla Ethernetu 1 (a tym bardziej 10 Gb/s) nie ma miejsca w centrach danych. Jednak w przypadku bardzo dużych centrów danych klienci oczekują nieraz więcej niż to co może im zaoferować najszybszy Ethernet i protokół IP.

Myrinet jest znany od dawna, ale zaledwie kilka lat temu na horyzoncie pojawiło się alternatywne rozwiązanie - InfiniBand. Przykładem jego zastosowania mogą być przełączniki produkowane przez takie firmy, jak Voltaire czy Infinicon, obsługujące klastry komputerów, sprzęgając ze sobą w jeden organizm serwery wyposażone w specjalne interfejsy.

Przez połączenia InfiniBand można przesyłać dane z szybkością do 30 Gb/s (teoretycznie może to być nawet 120 Gb/s), przy opóźnieniach mniejszych niż 200 ns. W przypadku standardowego Ethernetu opóźnienia są mierzone w mikrosekundach (1 ms to jedna milionowa sekundy, a 1 ns to jedna miliardowa). Nic dziwnego, że Cisco przejęło w zeszłym roku za 250 mln USD wiodącego producenta przełączników InfiniBand, firmę TopSpin. Technologia InfiniBand znajduje coraz częściej zastosowanie w serwerach kasetowych, ponieważ jest wyjątkowo energooszczędna (interfejs pobiera tylko 2 W).

Połączenia InfiniBand opierają się na technologii przełączania, przesyłając dane w trybie punkt-punkt. Podstawowy kanał InfiniBand przesyła dane z szybkością 2,5 Gb/s, a całe połączenie może transferować dane w trybie 1x (2,5 Gb/s), 4x (10 Gb/s) oraz 12x (30 Gb/s). Warstwa fizyczna rozwiązania jest oparta na standardzie IEEE 802.3.z (na tym samym, na którym bazują warstwy fizyczne technologii Ethernet 10 Gb/s i Fibre Channel).

InfiniBand (tak jak Ethernet) wykorzystuje technikę przełączania (zadanie realizowane w warstwie 2 modelu OSI), ale Ethernet używa 48-bitowego adresu MAC, przypisywanego urządzeniom na stałe przez dostawcę rozwiązania w momencie jego produkcji. InfiniBand wykorzystuje 16-bitowy adres LID (stąd możliwość adresowania mniejszej liczby urządzeń), który jest przypisywany urządzeniu przez oprogramowanie zarządzające danym środowiskiem sieciowym InfiniBand. Połączenie InfiniBand oparte na okablowaniu miedzianym może mieć długość do 20 m, a na światłowodach do 330 m. Użytkownik może budować dłuższe połączenia.

Typowa implementacja InfiniBand składa się z trzech podstawowych elementów:

Rozwój czterech technologii sieciowych

Rozwój czterech technologii sieciowych

1. HCA (Host Channel Adapter) - adapter InfiniBand instalowany w serwerach, wyposażony w złącze PCI-X lub PCI-Express. takie można też zagnieżdżać w płytach głównych serwerów.

2. TCA (Target Channel Adapter) - to adapter instalowany po drugiej stronie połączenia InfiniBand.

3. Przełączniki InfiniBand - urządzenia obsługujące ruch pakietów wymienianych między adapterami HCA i TCA.

Dzięki stosowaniu różnych rozwiązań redundancyjnych (zapasowe połączenia i przełączniki oraz inteligentne oprogramowanie zarządzające całą infrastrukturą), aplikacje InfiniBand pracują równie stabilnie i niezawodnie, jak standardowe struktury LAN.

Dużą rolę w aplikacjach InfiniBand odgrywa oprogramowanie. Są to programy zarządzające środowiskami InfiniBand oraz różne protokoły I/O, takie jak: Sockets Direct Protocol (obsługa komunikacji wewnątrz klastra), SCSI RDMA (protokół zapewniający komunikację z urządzeniami FC i sieciami SAN) oraz IP over InfiniBand i Remote Network Driver Interface Specification (protokół obsługujący ruch Ethernet przez InfiniBand).

Pieczę nad InfiniBand sprawuje stowarzyszenie InfiniBand Trade Association (http://www.Infinibandta.org ), które opublikowało pierwsze założenia technologii InfiniBand w połowie 2000 r.

Opóźnienia występujące w połączeniach Ethernet (nawet w przypadku wolniejszych wersji tej technologii) są dla większości użytkowników desktopów niezauważalne lub nieistotne i mieszczą się z reguły w przedziale od 1 do 50 ms. Jednak w centrach danych, gdzie serwery wymieniają między sobą olbrzymie porcje danych, są zdecydowanie za duże i mogą nawet "wyłożyć" niektóre aplikacje.

Co dalej?

Jeszcze do niedawna Ethernetu nie próbowano porównywać (biorąc pod uwagę opóźnienia, przepustowość czy odporność na awarie) z innymi technologiami używanymi do budowania połączeń obsługujących klastry. Po pojawieniu się Ethernetu 10 Gb/s czynione są takie próby. Karty sieciowe Ethernet 10 Gb/s produkowane przez Solarflare, Neterion czy Chelsio - wyposażone w złącze PCI-X i instalowane w serwerach wspierających taką technologię - potrafią przesyłać dane z szybkością 8 do 10 Gb/s.

Najnowsze technologie Ethernet wprowadzane do przełączników spowodowały, że luka między nimi a InfiniBand się zmniejszyła. Wprowadzane ostatnio na rynek przełączniki ethernetowe najnowszej generacji, potrafią już przesyłać dane przy opóźnieniach rzędu 300 ns. Wydajność przełączników Ethernet rośnie też dzięki takim technologiom, jak RDMA (Remote Direct Memory Access) - dane trafiają z sieci bezpośrednio do pamięci systemowej serwera.

Administratorzy od lat budują klastry komputerowe oparte na połączeniach Myrinet (firmowe rozwiązanie Myricom). Połączenia takie oferują opóźnienia ok. 2 ms (przesyłanie danych między dwoma węzłami), przy przepustowości do 20 Gb/s. Myrinet pracuje więc dzisiaj dużo wydajniej niż Ethernet. Jednak nawet zwolennicy połączeń Myrinet przyznają, że kolejne wersje Ethernetu znajdą na pewno zastosowanie w centrach danych.

Producenci urządzeń Ethernet przyklaskują tej opinii twierdząc, że zaletą Ethernetu jest jego uniwersalność, zgodność z obowiązującymi standardami i oczywiście to, że Ethernet zna chyba każdy administrator, czego nie można powiedzieć o połączeniach InfiniBand. Jednak na dzisiaj Ethernet wydaje się być w defensywie w aplikacjach klastrowych, a InfiniBand wchodzi do kolejnych centrów danych. Może wypada zatem poczekać na Ethernet 100 Gb/s.


TOP 200