Recenzja: Nvidia AI Enterprise błyszczy na VMware

Zoptymalizowany pod kątem VMware pakiet oprogramowania AI firmy Nvidia stanowi silną alternatywę dla uczenia maszynowego w chmurach AWS, Azure i Google. Nvidia LaunchPad pozwala wypróbować go za darmo.

Recenzja: Nvidia AI Enterprise błyszczy na VMware

Thinkstock

Nvidia AI Enterprise jest kompleksowym pakietem oprogramowania AI. Obejmuje on oprogramowanie do czyszczenia danych i przygotowywania ich do treningu, przeprowadzania treningu sieci neuronowych, przekształcania modelu w bardziej wydajną formę do wnioskowania i wdrażania go do serwera wnioskowania.

Ponadto pakiet oprogramowania Nvidia AI obejmuje obsługę procesorów graficznych, jednostek DPU (data processing unit) i akceleracji sieciowej dla Kubernetes (chmurowej warstwy wdrażania na poniższym diagramie) oraz zoptymalizowaną obsługę urządzeń współdzielonych w VMware vSphere z Tanzu. Tanzu Basic pozwala na uruchamianie i zarządzanie Kubernetes w vSphere. (VMware Tanzu Labs to nowa nazwa Pivotal Labs).

Zobacz również:

Nvidia LaunchPad to program testowy, który daje zespołom AI i data science krótkoterminowy dostęp do kompletnego stosu Nvidia AI działającego na prywatnej infrastrukturze obliczeniowej. Nvidia LaunchPad oferuje dostosowane laboratoria dla Nvidia AI Enterprise, z dostępem do ekspertów Nvidii i modułów szkoleniowych.

Nvidia AI Enterprise jest próbą wyprowadzenia szkolenia i wdrażania modeli AI ze sfery badań akademickich i największych firm technologicznych, które już posiadają naukowców z doktoratami i centra danych pełne procesorów graficznych, do sfery zwykłych przedsiębiorstw, które muszą zastosować AI w operacjach, rozwoju produktów, marketingu, HR i innych obszarach. LaunchPad to darmowa opcja dla tych firm, aby ich administratorzy IT i praktycy AI mogli zdobyć praktyczne doświadczenie ze stosem Nvidia AI Enterprise na obsługiwanym sprzęcie.

Najpopularniejszą alternatywą dla Nvidia AI Enterprise i LaunchPad jest wykorzystanie procesorów graficznych (i innych akceleratorów szkolenia modeli, takich jak TPU i FPGA) oraz oprogramowania AI dostępnego u dostawców chmur obliczeniowych, w połączeniu z kursami, modelami i laboratoriami dostarczanymi przez dostawców chmur obliczeniowych i społeczności open source zajmujące się frameworkami AI.

Recenzja: Nvidia AI Enterprise błyszczy na VMware

Rys. 1. Stos Nvidia AI Enterprise, począwszy od sprzętu akceleracyjnego na dole do narzędzi data science i frameworków na górze.

Co kryje się pod pojęciem Nvidia AI Enterprise

Nvidia AI Enterprise zapewnia zintegrowaną warstwę infrastruktury do opracowywania i wdrażania rozwiązań AI. Obejmuje ona wstępnie wytrenowane modele, oprogramowanie do przygotowywania danych (RAPIDS), obsługujące procesory graficzne frameworki głębokiego uczenia, takie jak TensorFlow i PyTorch, oprogramowanie do konwersji modeli do bardziej wydajnej postaci na potrzeby wnioskowania (TensorRT) oraz skalowalny serwer wnioskowania (Triton).

Biblioteka wstępnie wytrenowanych modeli jest dostępna w katalogu NGC firmy Nvidia do użytku z pakietem oprogramowania Nvidia AI Enterprise; modele te można dostroić na własnych zbiorach danych, na przykład za pomocą kontenerów Nvidia AI Enterprise TensorFlow Containers. Dostarczone frameworki głębokiego uczenia, choć bazują na swoich wersjach open source, zostały zoptymalizowane dla procesorów graficznych firmy Nvidia.

Recenzja: Nvidia AI Enterprise błyszczy na VMware

Rys. 2. Schemat przepływu stosu oprogramowania AI firmy Nvidia. Uwagi dotyczące sprzętu na dole po lewej stronie dotyczą treningu; uwagi na dole po prawej stronie dotyczą wnioskowania.

Sprzęt Nvidia AI Enterprise i LaunchPad

Nvidia robi dużo szumu wokół systemów DGX, które posiadają od czterech do 16 procesorów graficznych A100 w różnych obudowach, od urządzeń wieżowych dla grup roboczych po systemy stelażowe przeznaczone do użytku w centrach danych. Podczas gdy firma nadal stawia na DGX w dużych instalacjach, na potrzeby testów Nvidia AI Enterprise w ramach programów LaunchPad, firma zmontowała mniejsze systemy montowane w stelażach o wysokości od 1U do 2U, wyposażone w serwery klasy commodity oparte na dwóch procesorach Intel Xeon Gold 6354, pojedynczych procesorach graficznych Nvidia T4 lub A30 oraz jednostkach DPU (data processing units) firmy Nvidia. W dziewięciu regionach kolokacji Equinix na świecie znajduje się po 20 takich serwerów montowanych w stelażu, przeznaczonych do użytku przez klientów firmy Nvidia, którzy kwalifikują się do testów LaunchPada.

Nvidia zaleca te same systemy do wdrożeń Nvidia AI Enterprise w przedsiębiorstwach. Systemy te można wynająć, wydzierżawić lub zakupić.

Recenzja: Nvidia AI Enterprise błyszczy na VMware

Rys. 3. Sprzęt serwerowy do obsługi LaunchPad i Nvidia AI Enterprise. Podczas gdy wszystkie serwery LaunchPada to Dell R750s, była to raczej kwestia dostępności niż preferencji. Wszystkie firmy wymienione po prawej stronie produkują serwery wspierane przez Nvidię dla Nvidia AI Enterprise.

Jazda próbna Nvidia AI Enterprise

Nvidia oferuje trzy różne programy próbne, aby pomóc klientom w rozpoczęciu pracy z Nvidia AI Enterprise. Dla praktyków AI, którzy chcą tylko zamoczyć stopy, dostępna jest demonstracja jazdy próbnej, która obejmuje przewidywanie opłat za przejazd nowojorskimi taksówkami i próbowanie odpowiedzi na pytania BERT w TensorFlow. Jazda próbna wymaga około godziny praktycznej pracy i oferuje 48 godzin dostępu.

LaunchPad jest nieco bardziej rozbudowany. Oferuje on praktyczne laboratoria dla praktyków AI i pracowników IT, wymagające około ośmiu godzin praktycznej pracy, z dostępem do systemów przez dwa tygodnie, z możliwością przedłużenia do czterech tygodni.

Trzeci program próbny to 90-dniowa ocena w siedzibie klienta, wystarczająca do przeprowadzenia POC (proof of concept). Klient musi dostarczyć (lub wynająć) certyfikowany przez Nvidię system z VMware vSphere 7 u2 (lub nowszym), a Nvidia zapewnia bezpłatne licencje ewaluacyjne.

Recenzja: Nvidia AI Enterprise błyszczy na VMware

Rys. 4. Istnieją trzy sposoby na wypróbowanie Nvidia AI Enterprise: jednogodzinne demo testowe z 48-godzinnym dostępem; ośmiogodzinne laboratoria Nvidia LaunchPad z dwutygodniowym dostępem; oraz 90-dniowa licencja ewaluacyjna do użytku on-prem.

Demo Nvidia LaunchPad dla administratorów IT

Ponieważ jestem bardziej zainteresowany nauką o danych niż administracją IT, obejrzałem jedynie demo praktycznego laboratorium administracyjnego, choć miałem do niego dostęp później. Pierwszy zrzut ekranu poniżej pokazuje początek instrukcji laboratorium; drugi pokazuje stronę z interfejsu webowego klienta VMware vSphere. Według Nvidii, większość szkolonych przez nich administratorów IT jest już zaznajomiona z vSphere i Windows, ale mniej z Ubuntu Linux.

Recenzja: Nvidia AI Enterprise błyszczy na VMware

Rys. 5. Ten ekran przedstawia instrukcję tworzenia maszyny wirtualnej Nvidia AI Enterprise przy użyciu VMware vSphere. Jest to część szkolenia dla administratorów IT.

Recenzja: Nvidia AI Enterprise błyszczy na VMware

Rys. 6. Ten ekran pokazuje przegląd sprzętu dla maszyny wirtualnej Nvidia AI Enterprise utworzonej do celów szkoleniowych w VMware vSphere.

Laboratorium Launchpad dla praktyków AI

Spędziłem większość dnia, przechodząc przez laboratorium LaunchPad dla praktyków AI, dostarczane głównie jako Jupyter Notebook. Ludzie z Nvidii powiedzieli mi, że jest to samouczek na poziomie 400; z pewnością tak by było, gdybym musiał sam napisać kod. W rzeczywistości cały kod był już napisany, do dostrojenia był wytrenowany model bazowy BERT, a wszystkie dane treningowe i testowe do dostrojenia zostały dostarczone z SQuAD (Stanford Question Answering Dataset).

Procesor graficzny A30 w serwerze dostarczonym dla LaunchPada wykonał pracę, gdy doszedłem do etapu dostrajania, który zajął 97 minut. Bez układu GPU zajęłoby to znacznie więcej czasu. Wyszkolenie modelu BERT od podstaw na podstawie, powiedzmy, zawartości Wikipedii, jest dużym przedsięwzięciem wymagającym wielu jednostek GPU i długiego czasu (prawdopodobnie tygodni).

Recenzja: Nvidia AI Enterprise błyszczy na VMware

Rys. 7. Górna część tej strony odsyła użytkownika do notatnika Jupyter, w którym dostrajany jest model BERT dla obsługi klienta. Dolna sekcja wyjaśnia, jak wyeksportować wytrenowany model do serwera wnioskowania. Przy okazji, jeśli zapomnisz zamknąć jądro po etapie dostrajania, krok eksportu nie powiedzie się z tajemniczymi śladami błędów. Nie pytajcie, skąd to wiem.

Recenzja: Nvidia AI Enterprise błyszczy na VMware

Rys. 8. To jest początek notatnika Jupytera, który implementuje pierwszy krok kursu AI Practitioner. Wykorzystuje on wstępnie wytrenowany model BERT TensorFlow, pobrany w kroku 3, a następnie dostraja go do mniejszego, skoncentrowanego zbioru danych, pobranego w kroku 2.

Recenzja: Nvidia AI Enterprise błyszczy na VMware

Rys. 9. Ten krok wykorzystuje TensorFlow do konwersji przykładowych zdań na formę tokenizowaną. Jego uruchomienie na procesorach zajmuje kilka minut.

Recenzja: Nvidia AI Enterprise błyszczy na VMware

Rys. 10. Etap dostrajania powinien zająć około 90 minut przy użyciu układu GPU A30. W tym przypadku rozpoczynamy właśnie trening poprzez wywołanie estymator.train(...).

Recenzja: Nvidia AI Enterprise błyszczy na VMware

Rys. 11. Ostatecznie etap treningu dostrajającego został zakończony w 5838 sekund (97 minut). Około czterech minut zostało zużytych na koszty rozruchu.

Rys. 11. Ostatecznie etap treningu dostrajającego został zakończony w 5838 sekund (97 minut). Około czterech minut zostało zużytych na koszty rozruchu.

Recenzja: Nvidia AI Enterprise błyszczy na VMware

Rys. 12. Jupyter Notebook kontynuuje test wnioskowania i etap ewaluacji, oba z wykorzystaniem dostrojonego modelu TensorFlow BERT. Po tym kroku zamykamy notatnik Jupytera i uruchamiamy serwer wnioskowania Triton w maszynie wirtualnej, a następnie testujemy serwer Triton z konsoli Jupytera.

Ogólnie rzecz biorąc, Nvidia AI Enterprise to bardzo dobry pakiet sprzętowo-programowy do rozwiązywania problemów AI, a LaunchPad to wygodny sposób na zapoznanie się z Nvidia AI Enterprise. Uderzyło mnie, jak dobrze oprogramowanie do głębokiego uczenia wykorzystuje najnowsze innowacje w procesorach graficznych Ampere, takie jak arytmetyka mieszanej precyzji i rdzenie tensorowe. Zauważyłem, o ile lepsze były wrażenia z testów Nvidia AI Enterprise na instancji serwerowej firmy Nvidia niż z innych doświadczeń, jakie miałem podczas uruchamiania próbek TensorFlow i PyTorch na moim własnym sprzęcie oraz na maszynach wirtualnych w chmurze i usługach AI.

Wszystkie główne chmury publiczne oferują dostęp do jednostek GPU firmy Nvidia, a także do jednostek TPU (Google), FPGA (Azure) i niestandardowych akceleratorów, takich jak układy Habana Gaudi do szkolenia (na instancjach AWS EC2 DL1) oraz układy AWS Inferentia do wnioskowania (na instancjach Amazon EC2 Inf1). Dostęp do jednostek TPU i GPU można uzyskać nawet za darmo w Google Colab. Dostawcy chmur mają również wersje TensorFlow, PyTorch i innych frameworków, które są zoptymalizowane dla ich chmur.

Zakładając, że jesteś w stanie uzyskać dostęp do Nvidia LaunchPad for Nvidia AI Enterprise i przetestować go z powodzeniem, twoim następnym krokiem, jeśli chcesz kontynuować, powinno być najprawdopodobniej stworzenie proof of concept dla aplikacji AI, która ma wysoką wartość dla twojej firmy, z poparciem zarządu. Można wynająć mały serwer z certyfikatem Nvidii i procesorem graficznym klasy Ampere oraz skorzystać z bezpłatnej 90-dniowej licencji ewaluacyjnej Nvidia AI Enterprise, aby zrealizować POC przy minimalnych kosztach i ryzyku.

Źródło: InfoWorld

Tu wstaw tekst do podlinkowania

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200