Google wie, jak z obrazu skandującego tłumu odtworzyć głos jednej osoby

Naukowcy z firmy Google opracowali oprogramowanie bazujący na technologii głębokiego uczenia, które pomaga komputerom identyfikować i wyodrębniać z tzw. zaszumionych przekazów audio/wideo - takich jak np. tłum mówiących jednocześnie ludzi - głosy poszczególnych osób.

Identyfikowanie i rozpoznawanie pojedynczych głosów z takich przekazów wideo znane jest z angielskiego jako “cocktail party effect". To zjawisko polegające na tym, że mózg ludzki jest w stanie filtrować sygnały audio i wyławiać z nich, a następnie koncentrować swoją uwagę wyłącznie na jednym - tym którym jest aktualnie zainteresowany.

Aby stworzyć taki system, Google opracował specjalny audio-wizualny model. Audio, ponieważ system ma do dyspozycji jeden sygnał audio, a wizualny, ponieważ wyodrębnia z niego jeden głos analizując obraz wideo, na którym widać wszystkie źródła (w tym przypadku osoby) emitujące dźwięki.

Zobacz również:

  • Asystent AI Copilot wkroczył do platformy Azure SQL Database
  • Apple może wykorzystać sztuczną inteligencję od Google i OpenAI
  • Ofensywa chińskich modeli AI pozwalających tworzyć przekazy wideo

Chociaż system analizuje przekaz wideo, któremu towarzyszy pojedyncza ścieżka dźwiękowa, to może odtwarzać słowa wypowiadane przez konkretną osobę wskazaną przez użytkownika aplikacji. Bardzo ważnym czynnikiem jest w procesie wyodrębniania konkretnego głosu jest obraz. System śledzi bowiem ruch ust każdej z osób i koncentruje swoją uwagę wyłącznie na tej, której głos powinien odtworzyć.

Aby opracować algorytm zdolny tego dokonać, naukowcy zebrali i następnie przeanalizowali ponad 100 tys. przekazów wideo typu "lectures and talks" (czyli tzw. gadających głów) umieszczonych na serwisie YouTube.

Google twierdzi, że ma już szeroką gamę aplikacji dla tej technologii i że bada obecnie możliwości włączenia jej do swoich różnych produktów. Niewykluczone, że na początek mogą to być takie serwisy, jak Hangout i YouTube.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200