Recenzja: Nvidia AI Enterprise błyszczy na VMware
- Martin Heller ,
- 07.01.2022, godz. 08:01
Zoptymalizowany pod kątem VMware pakiet oprogramowania AI firmy Nvidia stanowi silną alternatywę dla uczenia maszynowego w chmurach AWS, Azure i Google. Nvidia LaunchPad pozwala wypróbować go za darmo.
Nvidia AI Enterprise jest kompleksowym pakietem oprogramowania AI. Obejmuje on oprogramowanie do czyszczenia danych i przygotowywania ich do treningu, przeprowadzania treningu sieci neuronowych, przekształcania modelu w bardziej wydajną formę do wnioskowania i wdrażania go do serwera wnioskowania.
Ponadto pakiet oprogramowania Nvidia AI obejmuje obsługę procesorów graficznych, jednostek DPU (data processing unit) i akceleracji sieciowej dla Kubernetes (chmurowej warstwy wdrażania na poniższym diagramie) oraz zoptymalizowaną obsługę urządzeń współdzielonych w VMware vSphere z Tanzu. Tanzu Basic pozwala na uruchamianie i zarządzanie Kubernetes w vSphere. (VMware Tanzu Labs to nowa nazwa Pivotal Labs).
Zobacz również:
- 5 praktycznych powodów, dla których warto wdrożyć Zero Trust
- IDC CIO Summit – potencjał drzemiący w algorytmach
- Generatywna AI zmienia handel i usługi
Nvidia LaunchPad to program testowy, który daje zespołom AI i data science krótkoterminowy dostęp do kompletnego stosu Nvidia AI działającego na prywatnej infrastrukturze obliczeniowej. Nvidia LaunchPad oferuje dostosowane laboratoria dla Nvidia AI Enterprise, z dostępem do ekspertów Nvidii i modułów szkoleniowych.
Nvidia AI Enterprise jest próbą wyprowadzenia szkolenia i wdrażania modeli AI ze sfery badań akademickich i największych firm technologicznych, które już posiadają naukowców z doktoratami i centra danych pełne procesorów graficznych, do sfery zwykłych przedsiębiorstw, które muszą zastosować AI w operacjach, rozwoju produktów, marketingu, HR i innych obszarach. LaunchPad to darmowa opcja dla tych firm, aby ich administratorzy IT i praktycy AI mogli zdobyć praktyczne doświadczenie ze stosem Nvidia AI Enterprise na obsługiwanym sprzęcie.
Najpopularniejszą alternatywą dla Nvidia AI Enterprise i LaunchPad jest wykorzystanie procesorów graficznych (i innych akceleratorów szkolenia modeli, takich jak TPU i FPGA) oraz oprogramowania AI dostępnego u dostawców chmur obliczeniowych, w połączeniu z kursami, modelami i laboratoriami dostarczanymi przez dostawców chmur obliczeniowych i społeczności open source zajmujące się frameworkami AI.
Co kryje się pod pojęciem Nvidia AI Enterprise
Nvidia AI Enterprise zapewnia zintegrowaną warstwę infrastruktury do opracowywania i wdrażania rozwiązań AI. Obejmuje ona wstępnie wytrenowane modele, oprogramowanie do przygotowywania danych (RAPIDS), obsługujące procesory graficzne frameworki głębokiego uczenia, takie jak TensorFlow i PyTorch, oprogramowanie do konwersji modeli do bardziej wydajnej postaci na potrzeby wnioskowania (TensorRT) oraz skalowalny serwer wnioskowania (Triton).
Biblioteka wstępnie wytrenowanych modeli jest dostępna w katalogu NGC firmy Nvidia do użytku z pakietem oprogramowania Nvidia AI Enterprise; modele te można dostroić na własnych zbiorach danych, na przykład za pomocą kontenerów Nvidia AI Enterprise TensorFlow Containers. Dostarczone frameworki głębokiego uczenia, choć bazują na swoich wersjach open source, zostały zoptymalizowane dla procesorów graficznych firmy Nvidia.
Sprzęt Nvidia AI Enterprise i LaunchPad
Nvidia robi dużo szumu wokół systemów DGX, które posiadają od czterech do 16 procesorów graficznych A100 w różnych obudowach, od urządzeń wieżowych dla grup roboczych po systemy stelażowe przeznaczone do użytku w centrach danych. Podczas gdy firma nadal stawia na DGX w dużych instalacjach, na potrzeby testów Nvidia AI Enterprise w ramach programów LaunchPad, firma zmontowała mniejsze systemy montowane w stelażach o wysokości od 1U do 2U, wyposażone w serwery klasy commodity oparte na dwóch procesorach Intel Xeon Gold 6354, pojedynczych procesorach graficznych Nvidia T4 lub A30 oraz jednostkach DPU (data processing units) firmy Nvidia. W dziewięciu regionach kolokacji Equinix na świecie znajduje się po 20 takich serwerów montowanych w stelażu, przeznaczonych do użytku przez klientów firmy Nvidia, którzy kwalifikują się do testów LaunchPada.
Nvidia zaleca te same systemy do wdrożeń Nvidia AI Enterprise w przedsiębiorstwach. Systemy te można wynająć, wydzierżawić lub zakupić.
Jazda próbna Nvidia AI Enterprise
Nvidia oferuje trzy różne programy próbne, aby pomóc klientom w rozpoczęciu pracy z Nvidia AI Enterprise. Dla praktyków AI, którzy chcą tylko zamoczyć stopy, dostępna jest demonstracja jazdy próbnej, która obejmuje przewidywanie opłat za przejazd nowojorskimi taksówkami i próbowanie odpowiedzi na pytania BERT w TensorFlow. Jazda próbna wymaga około godziny praktycznej pracy i oferuje 48 godzin dostępu.
LaunchPad jest nieco bardziej rozbudowany. Oferuje on praktyczne laboratoria dla praktyków AI i pracowników IT, wymagające około ośmiu godzin praktycznej pracy, z dostępem do systemów przez dwa tygodnie, z możliwością przedłużenia do czterech tygodni.
Trzeci program próbny to 90-dniowa ocena w siedzibie klienta, wystarczająca do przeprowadzenia POC (proof of concept). Klient musi dostarczyć (lub wynająć) certyfikowany przez Nvidię system z VMware vSphere 7 u2 (lub nowszym), a Nvidia zapewnia bezpłatne licencje ewaluacyjne.
Demo Nvidia LaunchPad dla administratorów IT
Ponieważ jestem bardziej zainteresowany nauką o danych niż administracją IT, obejrzałem jedynie demo praktycznego laboratorium administracyjnego, choć miałem do niego dostęp później. Pierwszy zrzut ekranu poniżej pokazuje początek instrukcji laboratorium; drugi pokazuje stronę z interfejsu webowego klienta VMware vSphere. Według Nvidii, większość szkolonych przez nich administratorów IT jest już zaznajomiona z vSphere i Windows, ale mniej z Ubuntu Linux.
Spędziłem większość dnia, przechodząc przez laboratorium LaunchPad dla praktyków AI, dostarczane głównie jako Jupyter Notebook. Ludzie z Nvidii powiedzieli mi, że jest to samouczek na poziomie 400; z pewnością tak by było, gdybym musiał sam napisać kod. W rzeczywistości cały kod był już napisany, do dostrojenia był wytrenowany model bazowy BERT, a wszystkie dane treningowe i testowe do dostrojenia zostały dostarczone z SQuAD (Stanford Question Answering Dataset).
Procesor graficzny A30 w serwerze dostarczonym dla LaunchPada wykonał pracę, gdy doszedłem do etapu dostrajania, który zajął 97 minut. Bez układu GPU zajęłoby to znacznie więcej czasu. Wyszkolenie modelu BERT od podstaw na podstawie, powiedzmy, zawartości Wikipedii, jest dużym przedsięwzięciem wymagającym wielu jednostek GPU i długiego czasu (prawdopodobnie tygodni).
Ogólnie rzecz biorąc, Nvidia AI Enterprise to bardzo dobry pakiet sprzętowo-programowy do rozwiązywania problemów AI, a LaunchPad to wygodny sposób na zapoznanie się z Nvidia AI Enterprise. Uderzyło mnie, jak dobrze oprogramowanie do głębokiego uczenia wykorzystuje najnowsze innowacje w procesorach graficznych Ampere, takie jak arytmetyka mieszanej precyzji i rdzenie tensorowe. Zauważyłem, o ile lepsze były wrażenia z testów Nvidia AI Enterprise na instancji serwerowej firmy Nvidia niż z innych doświadczeń, jakie miałem podczas uruchamiania próbek TensorFlow i PyTorch na moim własnym sprzęcie oraz na maszynach wirtualnych w chmurze i usługach AI.
Wszystkie główne chmury publiczne oferują dostęp do jednostek GPU firmy Nvidia, a także do jednostek TPU (Google), FPGA (Azure) i niestandardowych akceleratorów, takich jak układy Habana Gaudi do szkolenia (na instancjach AWS EC2 DL1) oraz układy AWS Inferentia do wnioskowania (na instancjach Amazon EC2 Inf1). Dostęp do jednostek TPU i GPU można uzyskać nawet za darmo w Google Colab. Dostawcy chmur mają również wersje TensorFlow, PyTorch i innych frameworków, które są zoptymalizowane dla ich chmur.
Zakładając, że jesteś w stanie uzyskać dostęp do Nvidia LaunchPad for Nvidia AI Enterprise i przetestować go z powodzeniem, twoim następnym krokiem, jeśli chcesz kontynuować, powinno być najprawdopodobniej stworzenie proof of concept dla aplikacji AI, która ma wysoką wartość dla twojej firmy, z poparciem zarządu. Można wynająć mały serwer z certyfikatem Nvidii i procesorem graficznym klasy Ampere oraz skorzystać z bezpłatnej 90-dniowej licencji ewaluacyjnej Nvidia AI Enterprise, aby zrealizować POC przy minimalnych kosztach i ryzyku.
Źródło: InfoWorld