Google wie, jak z obrazu skandującego tłumu odtworzyć głos jednej osoby

  • Janusz Chustecki,

Naukowcy z firmy Google opracowali oprogramowanie bazujący na technologii głębokiego uczenia, które pomaga komputerom identyfikować i wyodrębniać z tzw. zaszumionych przekazów audio/wideo - takich jak np. tłum mówiących jednocześnie ludzi - głosy poszczególnych osób.

Identyfikowanie i rozpoznawanie pojedynczych głosów z takich przekazów wideo znane jest z angielskiego jako “cocktail party effect". To zjawisko polegające na tym, że mózg ludzki jest w stanie filtrować sygnały audio i wyławiać z nich, a następnie koncentrować swoją uwagę wyłącznie na jednym - tym którym jest aktualnie zainteresowany.

Aby stworzyć taki system, Google opracował specjalny audio-wizualny model. Audio, ponieważ system ma do dyspozycji jeden sygnał audio, a wizualny, ponieważ wyodrębnia z niego jeden głos analizując obraz wideo, na którym widać wszystkie źródła (w tym przypadku osoby) emitujące dźwięki.

Zobacz również:

Chociaż system analizuje przekaz wideo, któremu towarzyszy pojedyncza ścieżka dźwiękowa, to może odtwarzać słowa wypowiadane przez konkretną osobę wskazaną przez użytkownika aplikacji. Bardzo ważnym czynnikiem jest w procesie wyodrębniania konkretnego głosu jest obraz. System śledzi bowiem ruch ust każdej z osób i koncentruje swoją uwagę wyłącznie na tej, której głos powinien odtworzyć.

Aby opracować algorytm zdolny tego dokonać, naukowcy zebrali i następnie przeanalizowali ponad 100 tys. przekazów wideo typu "lectures and talks" (czyli tzw. gadających głów) umieszczonych na serwisie YouTube.

Google twierdzi, że ma już szeroką gamę aplikacji dla tej technologii i że bada obecnie możliwości włączenia jej do swoich różnych produktów. Niewykluczone, że na początek mogą to być takie serwisy, jak Hangout i YouTube.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem IDGLicensing@theygsgroup.com