NASA wykorzystuje AI w zarządzaniu danymi

Dążąc do zapewnienia naukowcom lepszego dostępu do ogromnej ilości gromadzonych danych naukowych, NASA stworzyła Science Discovery Engine, który wykorzystuje generatywną sztuczną inteligencję do dostarczania kontekstowych wyników.

Fot. Pixabay/Pexels

Gdy generuje się i gromadzi tak wiele danych, jak robi to amerykańska Narodowa Administracja Aeronautyki i Przestrzeni Kosmicznej (NASA), znalezienie odpowiedniego zestawu danych do projektu badawczego może stanowić problem.

Z siedmioma centrami operacyjnymi, dziewięcioma ośrodkami badawczymi i ponad 18 000 pracowników, agencja nieustannie generuje przytłaczającą ilość danych, które przechowuje w ponad 30 repozytoriach danych naukowych w pięciu obszarach tematycznych - astrofizyce, heliofizyce, naukach biologicznych, naukach fizycznych, naukach o Ziemi i naukach planetarnych. Łącznie agencja przechowuje ponad 88 000 zestawów danych i 715 000 dokumentów ze 128 źródeł danych. Oczekuje się, że do 2025 r. same dane dotyczące nauk o Ziemi osiągną 250 petabajtów. W świetle takiej złożoności naukowcy potrzebują czegoś więcej niż tylko wiedzy specjalistycznej, aby poruszać się po tym wszystkim.

Zobacz również:

  • Chcą zainstalować sieć światłowodową na Księżycu. "W imię nauki"
  • Najszybszy Helios w Cyfronecie
  • Snowflake Arctic - nowy model językowy LLM klasy korporacyjnej

"Wymaga to od badaczy wiedzy, do którego repozytorium się udać i co to repozytorium zawiera" - mówi Kaylin Bugbee, naukowiec ds. danych NASA w Marshall Space Flight Center w Huntsville, Ala. "Musisz znać się zarówno na nauce, jak i na danych".

W 2019 r. Dyrekcja Misji Naukowych NASA (SMD) opublikowała raport oparty na serii wywiadów z naukowcami, z którego jasno wynikało, że naukowcy ci potrzebują scentralizowanej możliwości wyszukiwania, aby pomóc im znaleźć potrzebne dane. Misją SMD jest angażowanie amerykańskiej społeczności naukowej, sponsorowanie badań naukowych oraz wykorzystywanie samolotów, balonów i programów lotów kosmicznych do badań na orbicie Ziemi, w Układzie Słonecznym i poza nim. Uznając, że zapewnienie naukowcom i badaczom dostępu do swoich danych ma fundamentalne znaczenie dla jej celu, SMD opracowała inicjatywę Open Source Science Initiative (OSSI) w wyniku tego raportu, starając się uczynić finansowane ze środków publicznych badania naukowe przejrzystymi, integracyjnymi, dostępnymi i odtwarzalnymi. Misja OSSI: zobowiązanie do otwartego udostępniania oprogramowania, danych i wiedzy (w tym algorytmów, artykułów, dokumentów i informacji pomocniczych) na jak najwcześniejszym etapie procesu naukowego.

"To naprawdę wyszło od naukowców i społeczności naukowej, a także jest zgodne z naszym szerszym priorytetem SMD, jakim jest umożliwienie interdyscyplinarnej nauki" - mówi Bugbee. "To właśnie tam dokonywane są nowe odkrycia".

Aby ułatwić tę misję, agencja zwraca się teraz do kombinacji sieci neuronowych i generatywnej sztucznej inteligencji, aby umieścić te ogromne ilości danych na wyciągnięcie ręki naukowców.

Przywracanie porządku

Kluczowym elementem OSSI jest Science Discovery Engine (SDE), scentralizowana funkcja wyszukiwania i odkrywania wszystkich otwartych danych i informacji naukowych NASA, obsługiwana przez platformę wyszukiwania korporacyjnego Sinequa.

"Dopóki nie stworzono SDE, nie można było przejść do jednego miejsca, aby wyszukać nasze otwarte dane i dokumentację" - mówi Bugbee. "Teraz służy jako pojedyncza możliwość wyszukiwania naszych otwartych danych naukowych".

Sinequa z siedzibą w Nowym Jorku, która rozpoczęła swoją działalność ponad dwie dekady temu od wyszukiwarki semantycznej, koncentruje się na wykorzystaniu sztucznej inteligencji i dużych modeli językowych (LLM) do dostarczania kontekstowych informacji wyszukiwania. Od tego czasu firma zintegrowała usługę Azure OpenAI firmy Microsoft z własnymi możliwościami wyszukiwania neuronowego w celu zasilania platformy.

Funkcja wyszukiwania neuronowego Sinequa wykorzystuje kombinację słów kluczowych i wyszukiwania wektorowego do odkrywania informacji, podczas gdy jej GPT podsumowuje zebrane informacje w szybko przyswajalnych i nadających się do ponownego wykorzystania formatach. Pozwala również naukowcom na używanie języka naturalnego do zadawania głębszych pytań i udoskonalania wyszukiwania lub odpowiedzi. SDE rozumie prawie 9000 różnych terminów naukowych, a liczba ta powinna rosnąć w miarę uczenia się sztucznej inteligencji.

Bugbee i jej interdyscyplinarny zespół, w skład którego wchodzą naukowcy z doświadczeniem w zarządzaniu danymi i informatyce, a także programiści oraz eksperci AI i ML, ściśle współpracowali z interesariuszami, aby zrozumieć ich potrzeby, a także z biurem CIO NASA i Sinequa, aby zbudować koncepcję.

"Pomogli nam skonfigurować środowisko, którego potrzebowaliśmy" - wyjaśnia. "Musieliśmy mieć otwarte możliwości, więc mieliśmy pewne specjalne potrzeby architektoniczne".

Bugbee mówi, że jednym z największych wyzwań dla jej zespołu w uruchomieniu wszystkiego było rozproszenie treści w ekosystemie NASA. Jej zespół spędził około roku próbując zrozumieć krajobraz informacyjny, dane i schematy metadanych.

"Wszystkie informacje kontekstowe, które naprawdę wzbogacają dane - takie jak kod i GitHub lub dokumentacja algorytmów opisująca sposób opracowania danych - tego rodzaju treści są rozproszone na wielu stronach internetowych i staraliśmy się je wyselekcjonować i zidentyfikować, gdzie wszystkie te rzeczy się znajdują" - mówi.

Zatwierdzony do uruchomienia

Bugbee nie jest obca tematyka zarządzania danymi. Swoje doświadczenie zdobywała pracując nad poprawą jakości metadanych w Data.gov i w Climate Data Initiative prezydenta Obamy. Ale praca nad SDE naprawdę uświadomiła jej znaczenie dobrego przepływu pracy w zakresie opieki nad danymi: procesów tworzenia, utrzymywania i zarządzania danymi zgodnie z zasadami i pod kontrolą.

"Gdybym mogła cofnąć się w czasie, od samego początku wprowadziłabym bardziej solidny przepływ pracy" - mówi. "Na początku zastosowaliśmy podejście out-of-the-box i przez pewien czas działało, ale aby naprawdę uzyskać pożądane wyniki, potrzebowaliśmy tego przepływu pracy".

Chociaż SDE jest nadal w wersji beta, Bugbee mówi, że jej zespół otrzymał do tej pory wiele pozytywnych opinii od naukowców, a plan zakłada dostarczenie w pełni funkcjonalnego systemu jeszcze w tym roku. Zespół wdrożył już nowy interfejs użytkownika, który pozwala użytkownikom filtrować według tematów przed rozpoczęciem wyszukiwania.

Artykuł pochodzi z CIO.com

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200