Patronus tworzy narzędzie diagnostyczne do wychwytywania błędów genAI

Ponieważ platformy generatywnej sztucznej inteligencji (genAI), takie jak ChatGPT, Dall-E2 i AlphaCode, rozwijają się w zawrotnym tempie, powstrzymanie narzędzi przed halucynacjami i wypluwaniem błędnych lub obraźliwych odpowiedzi jest prawie niemożliwe. SimpleSafetyTests firmy Patronus sprawdza dane wyjściowe z chatbotów AI i innych narzędzi opartych na LLM w celu wykrycia anomalii.

Fot. Google DeepMind/Pexels

Do tej pory istniało niewiele metod zapewnienia dokładnych informacji pochodzących z dużych modeli językowych (LLM), które służą jako podstawa dla genAI.

Ponieważ jak narzędzia sztucznej inteligencji ewoluują i stają się coraz lepsze w naśladowaniu języka naturalnego, wkrótce niemożliwe będzie odróżnienie fałszywych wyników od prawdziwych, co skłoni firmy do ustanowienia "barier ochronnych" przed najgorszymi wynikami.

Zobacz również:

  • Cisco finalizuje przejęcie Splunk
  • Blaski i cienie AI
  • Powody dla których 16 GB RAMu powinno być standardem

Do tej pory istnieje jednak niewiele narzędzi, które mogą zapewnić, że to, co trafia do LLM i to, co z niego wychodzi, jest w pełni wiarygodne. Gen AI może mieć halucynacje, gdy silniki generujące kolejne słowa, takie jak ChatGPT, Copilot Microsoftu i Bard Google, wypadają z torów i zaczynają wyrzucać fałszywe lub wprowadzające w błąd informacje.

We wrześniu startup założony przez dwóch byłych badaczy Meta AI wydał zautomatyzowaną platformę oceny i bezpieczeństwa, która pomaga firmom bezpiecznie korzystać z LLM, wykorzystując testy kontradyktoryjne do monitorowania modeli pod kątem niespójności, nieścisłości, halucynacji i uprzedzeń.

Patronus AI twierdzi, że jego narzędzia mogą wykrywać niedokładne informacje i sytuacje, w których LLM nieumyślnie ujawnia prywatne lub wrażliwe dane.

"Wszystkie te duże firmy nurkują w LLM, ale robią to na ślepo; próbują stać się zewnętrznym ewaluatorem modeli" - powiedział Anand Kannanappan, założyciel i dyrektor generalny Patronus. "Ludzie nie ufają sztucznej inteligencji, ponieważ nie są pewni, czy nie ma ona halucynacji. Ten produkt jest sprawdzianem poprawności".

Pakiet narzędzi diagnostycznych SimpleSafetyTests firmy Patronus wykorzystuje 100 podpowiedzi testowych zaprojektowanych do sondowania systemów AI pod kątem krytycznych zagrożeń bezpieczeństwa. Firma wykorzystała swoje oprogramowanie do przetestowania niektórych z najpopularniejszych platform genAI, w tym ChatGPT OpenAI i innych chatbotów AI, aby sprawdzić na przykład, czy są w stanie zrozumieć dokumenty SEC. Patronus powiedział, że chatboty zawiodły w około 70% przypadków i odniosły sukces tylko wtedy, gdy powiedziano im dokładnie, gdzie szukać odpowiednich informacji.

"Pomagamy firmom wyłapywać błędy modeli językowych na dużą skalę w zautomatyzowany sposób" - wyjaśnił Kannanappan. "Duże firmy wydają miliony dolarów na wewnętrzne zespoły QA i zewnętrznych konsultantów, aby ręcznie wyłapywać błędy w arkuszach kalkulacyjnych. Niektóre z tych firm zajmujących się zapewnieniem jakości poświęcają kosztowny czas inżynierów na tworzenie testów, aby zapobiec wystąpieniu tych błędów".

Avivah Litan, wiceprezeska i analityczka w firmie badawczej Gartner, powiedziała, że wskaźniki halucynacji AI "są wszędzie" od 3% do 30% czasu. Po prostu nie ma jeszcze wielu dobrych danych na ten temat.

Gartner przewidział jednak, że do 2025 r. genAI będzie wymagać więcej zasobów cyberbezpieczeństwa do zabezpieczenia, powodując 15% wzrost wydatków.

Firmy zajmujące się wdrażaniem sztucznej inteligencji muszą zdawać sobie sprawę, że nie mogą pozwolić im działać na "autopilocie" bez obecności człowieka, aby zidentyfikować problemy, powiedziała Litan. "Ludzie w końcu się do tego przekonają i prawdopodobnie zaczną się budzić wraz z Copilotem Microsoftu dla 365, ponieważ dzięki temu systemy te trafią w ręce użytkowników głównego nurtu" - stwierdziła.

Firma Gartner określiła 10 wymagań, które firmy powinny wziąć pod uwagę przy zarządzaniu zaufaniem, ryzykiem i bezpieczeństwem podczas wdrażania LLM. Wymagania te dzielą się na dwie główne kategorie: narażenie wrażliwych danych i błędne podejmowanie decyzji wynikające z niedokładnych lub niechcianych wyników.

Najwięksi dostawcy, tacy jak Microsoft z Copilot 365, spełniają tylko jedno z tych pięciu wymagań, powiedziała Litan. Jedynym obszarem, w którym Copilot jest biegły, jest zapewnienie dokładnych informacji wyjściowych, gdy wprowadzane są tylko prywatne dane firmy. Domyślne ustawienie Copilot pozwala jednak na korzystanie z informacji pobranych z internetu, co automatycznie naraża użytkowników na błędne wyniki.

"Nie robią nic, by filtrować odpowiedzi w celu wykrycia niepożądanych wyników, takich jak halucynacje lub nieścisłości" - powiedział Litan. "Nie respektują zasad obowiązujących w przedsiębiorstwie. Dają ci pewne informacje o źródłach odpowiedzi, ale przez większość czasu są one niedokładne i trudno jest znaleźć źródła".

Microsoft wykonuje dobrą robotę w zakresie klasyfikacji danych i zarządzania dostępem, jeśli firma posiada licencję E5, wyjaśniła Litan, ale poza kilkoma tradycyjnymi kontrolami bezpieczeństwa, takimi jak szyfrowanie danych, firma nie robi nic specyficznego dla sztucznej inteligencji w zakresie sprawdzania błędów.

"Dotyczy to większości dostawców. Potrzebujesz więc tych dodatkowych narzędzi" - powiedziała.

Rzecznik Microsoftu powiedział, że jego badacze i zespoły inżynierów produktów "poczynili postępy w zakresie uziemienia, dostrajania i technik sterowania, aby pomóc w rozwiązaniu sytuacji, gdy model sztucznej inteligencji lub chatbot sztucznej inteligencji sfabrykuje odpowiedź. Ma to kluczowe znaczenie dla odpowiedzialnego rozwoju sztucznej inteligencji".

Microsoft twierdzi, że wykorzystuje aktualne dane ze źródeł takich jak indeks wyszukiwania Bing lub Microsoft Graph, aby zapewnić, że dokładne informacje są wprowadzane do LLM opartego na GPT.

"Opracowaliśmy również narzędzia do pomiaru, kiedy model odbiega od swoich danych bazowych, co pozwala nam zwiększyć dokładność produktów poprzez lepszą inżynierię i jakość danych" - powiedział rzecznik.

Podczas gdy podejścia Microsoftu "znacznie zmniejszają niedokładności w wynikach modeli", błędy są nadal możliwe. "Nasze produkty są zaprojektowane tak, aby zawsze mieć człowieka w „zespole”, a w przypadku każdego systemu sztucznej inteligencji zachęcamy ludzi do weryfikowania dokładności treści" - powiedział rzecznik.

Bing Copilot może zawierać linki do źródeł, aby pomóc użytkownikom zweryfikować odpowiedzi, a firma stworzyła narzędzie do moderowania treści o nazwie Azure AI Content Safety w celu wykrywania obraźliwych lub nieodpowiednich treści.

"Nadal testujemy techniki trenowania sztucznej inteligencji i uczymy ją wykrywania pewnych niepożądanych zachowań i wprowadzamy ulepszenia w miarę zdobywania wiedzy i wprowadzania innowacji" - powiedział rzecznik.

Litan powiedziała, że nawet jeśli organizacje ciężko pracują, aby zapewnić wiarygodność wyników LLM, systemy te mogą w niewytłumaczalny sposób stać się niewiarygodne bez uprzedzenia. "Robią dużo szybkiej inżynierii i złe wyniki wracają; wtedy zdają sobie sprawę, że potrzebują lepszych narzędzi oprogramowania pośredniego" - powiedziała Litan.

Narzędzie SimpleSafetyTests zostało niedawno użyte do przetestowania 11 popularnych otwartych mechanizmów LLM i wykryło krytyczne słabości bezpieczeństwa w kilku z nich. Podczas gdy niektóre z LLM nie zaoferowały ani jednej niebezpiecznej odpowiedzi, większość z nich zareagowała niebezpiecznie w ponad 20% przypadków, "z ponad 50% niebezpiecznych odpowiedzi w skrajnych przypadkach", stwierdzili naukowcy w artykule opublikowanym przez Cornell University w listopadzie 2023 roku.

Większość klientów Patronusa działała w branżach podlegających ścisłym regulacjom, takich jak opieka zdrowotna, usługi prawne lub finansowe, gdzie błędy mogą prowadzić do procesów sądowych lub kar regulacyjnych.

"Być może jest to mały błąd, którego nikt nie zauważy, ale w najgorszych przypadkach mogą to być halucynacje, które mają wpływ na duże wyniki finansowe lub zdrowotne" - powiedział Kannanappan. "Próbują wykorzystać sztuczną inteligencję w scenariuszach o krytycznym znaczeniu".

W listopadzie firma uruchomiła FinanceBench, narzędzie porównawcze do testowania wyników LLM w kwestiach finansowych. Narzędzie zadaje LLM 10 000 par pytań i odpowiedzi w oparciu o publicznie dostępne dokumenty finansowe, takie jak SEC 10K, SEC 10Q, SEC 8K, raporty o zyskach i transkrypcje rozmów o zyskach. Pytania określają, czy LLM przedstawia faktyczne informacje, czy też niedokładne odpowiedzi.

Wstępna analiza przeprowadzona przez Patronus AI pokazuje, że systemy wyszukiwania LLM "zawodzą spektakularnie na przykładowym zestawie pytań z FinanceBench".

Według własnej oceny Patronusa:

GPT-4 Turbo z systemem wyszukiwania zawodzi w 81% przypadków;

Llama 2 z systemem wyszukiwania również zawodzi w 81% przypadków.

Patronus AI ocenił również LLM z oknami odpowiedzi o długim kontekście, zauważając, że działają one lepiej, ale są mniej praktyczne w środowisku produkcyjnym.

GPT-4 Turbo z długim kontekstem zawodzi w 21% przypadków;

Claude-2 firmy Anthropic z długim kontekstem zawodzi w 24% przypadków.

Kannanappan powiedział, że jeden z klientów Patronusa, firma zarządzająca aktywami, zbudowała chatbota AI, aby pomóc pracownikom odpowiedzieć na pytania klientów, ale musiała upewnić się, że chatbot nie oferuje rekomendacji inwestycyjnych dotyczących papierów wartościowych ani porad prawnych lub podatkowych.

"Mogłoby to narazić firmę na ryzyko" - powiedział Kannanappan. "Rozwiązaliśmy to za nich. Wykorzystali nasz produkt do sprawdzenia, czy chatbot udziela rekomendacji. Może im powiedzieć, kiedy chatbot wypadł z torów".

Inna firma, która zbudowała chatbota, chciała mieć kontrolę poprawności, aby upewnić się, że nie zejdzie z tematu. Na przykład, jeśli użytkownik zapytałby chatbota o pogodę lub ulubiony film, nie udzieliłby on odpowiedzi.

Rebecca Qian, współzałożycielka i CTO w Patronus, powiedziała, że halucynacje są szczególnie dużym problemem dla firm próbujących wdrożyć narzędzia AI.

"Wielu naszych klientów używa naszego produktu w scenariuszach o wysokiej stawce, w których prawidłowe informacje naprawdę mają znaczenie" - powiedziała Qian. "Inne rodzaje wskaźników, które również są powiązane, to na przykład trafność - modele odbiegające od tematu. Na przykład nie chcesz, aby model, który wdrażasz w swoim produkcie, mówił coś, co fałszywie przedstawia twoją firmę lub produkt".

Litan z firmy Gartner powiedziała, że ostatecznie udział człowieka w procesie ma kluczowe znaczenie dla udanych wdrożeń sztucznej inteligencji. Nawet w przypadku narzędzi oprogramowania pośredniczącego wskazane jest ograniczenie ryzyka niewiarygodnych wyników, "które mogą prowadzić organizacje na niebezpieczną ścieżkę".

"Na pierwszy rzut oka nie widziałam żadnych konkurencyjnych produktów, które byłyby tak specyficzne w wykrywaniu niepożądanych wyników w danym sektorze" - powiedziała. "Produkty, które śledzę w tej przestrzeni, po prostu wskazują anomalie i podejrzane transakcje, które użytkownik musi następnie zbadać (poprzez zbadanie źródła odpowiedzi)".

Artykuł pochodzi z Computerworld.com

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200