Te obrazy mogą kłamać

W trzy miesiące po terrorystycznych atakach na Nowy Jork i Waszyngton z 11 września obiegło świat amatorskie wideo przedstawiające Osamę bin Ladena, który w otoczeniu najwierniejszych towarzyszy potwierdził swoją odpowiedzialność za zamach i dodał, że większość zamachowców nie była świadoma uczestnictwa w akcji samobójczej. Od razu podniosły się wątpliwości, czy można traktować ten materiał jako autentyczny, ponieważ dość długo utrzymywały się pogłoski o śmierci przywódcy Al-Kaidy. Po starannych analizach uznano jednak, że nie ma tu mowy o elektronicznej manipulacji, tym bardziej, że film pokazywał osoby w ruchu i nie tylko en face.

W trzy miesiące po terrorystycznych atakach na Nowy Jork i Waszyngton z 11 września obiegło świat amatorskie wideo przedstawiające Osamę bin Ladena, który w otoczeniu najwierniejszych towarzyszy potwierdził swoją odpowiedzialność za zamach i dodał, że większość zamachowców nie była świadoma uczestnictwa w akcji samobójczej. Od razu podniosły się wątpliwości, czy można traktować ten materiał jako autentyczny, ponieważ dość długo utrzymywały się pogłoski o śmierci przywódcy Al-Kaidy. Po starannych analizach uznano jednak, że nie ma tu mowy o elektronicznej manipulacji, tym bardziej, że film pokazywał osoby w ruchu i nie tylko en face.

Ten ostatni argument rozwiał też wątpliwości, które pojawiły się ponownie, gdy z amerykańskiego Cambridge pod Bostonem, z siedziby słynnego MIT - Massachusetts Institute of Technology - napłynęły sensacyjne wiadomości o powstaniu tzw. wideorealistycznej animacji mowy. Jest to program komputerowy umożliwiający niemal dosłownie włożenie w usta sfilmowanej osoby dowolnego tekstu. Jednym z warunków jest, by ta osoba była pokazywana właśnie en face, a jej głowa zachowywała nieruchomą pozycję. Każda zmiana perspektywy kamery przekreśla tę prawdziwie czarodziejską iluzję.

Autor tej metody, doktorant z MIT, trzydziestolatek Tony Ezzat, w wystąpieniu przygotowanym na lipcową prezentację swojej metody, podczas konferencji "Siggraph" w teksańskim San Antonio, zapewnia, że wystarczy mu seria 46 charakterystycznych ujęć ruchu warg podczas wypowiadania określonych słów, by z 2-4-minutowego autentycznego nagrania uzyskać elementy do stworzenia nowej sekwencji, imitacji czy - w istocie - genialnego falsyfikatu. Ktokolwiek go ogląda, odnosi wrażenie, że ma do czynienia z materiałem autentycznym, a nie zmontowanym. Przez monitor przesuwają się obrazy gadających głów z ruchami ust doskonale odpowiadającymi wypowiadanym słowom. Przy każdym "l" wargi rozchylają się i język wysuwa do przodu, przy każdym "m" wargi się zamykają.

Jak napisał Marco Evers w niemieckim tygodniku "Der Spiegel", w ten sposób można by pokazać i usłyszeć np. Helmuta Kohla, jak wymienia nazwiska swoich sponsorów, papieża odżegnującego się od zasady celibatu czy O.J. Simpsona przyznającego się do zamordowania żony. A więc słowa, których nie tylko nigdy nie wypowiedzieli, ale jest zgoła nieprawdopodobne, by kiedykolwiek mogli je wypowiedzieć.

Profesor Demetri Terzopoulos z New York University nazwał wynalazek Ezzata "epokowym osiągnięciem", ale jednocześnie zwrócił uwagę, że otwiera on drogę rozmaitym nadużyciom. Gdy będziemy pokazywali ludzi mówiących coś, czego w rzeczywistości nigdy nie powiedzieli, może to doprowadzić do sytuacji wręcz katastrofalnych.

Ta technika otwiera nowe horyzonty przed filmem fabularnym i grami komputerowymi, już zresztą trwają rozmowy z firmami branży rozrywkowej. Ale może ona również znaleźć zastosowanie w propagandzie politycznej, co gorsza, może też być wykorzystana do szantażu i oszustw. Sam Ezzat nie ukrywa, że jego technika może w nieodpowiedzialnych rękach stać się niebezpiecznym narzędziem. Czy zainteresowały się nią służby specjalne, na razie nie wiadomo. Zapewne jedną z konsekwencji jej upowszechnienia się będzie odrzucanie przez sądy dowodów z nagrań wideo.

Jak to bywało w początkach wielu nowatorskich wynalazków, metoda Ezzata ma jeszcze istotne ograniczenia. Sekwencje filmowe, w których twarz osoby wypowiadającej więcej niż dwa zdania pozostaje nieruchoma i jakby martwa, sprawiają wrażenie niezbyt prawdziwych. Program komputerowy jest w stanie pokazać z całą dokładnością wizualną stronę dalszego ciągu wypowiedzi, ale zawodzi przekaz głosu. Przede wszystkim jednak w obecnej fazie nie ma możliwości tak doskonałego zsynchronizowania obrazu poruszających się warg z mającą mu odpowiadać materią słowną, jeśli twarz osoby mówiącej nie jest zwrócona frontem i nie pozostaje w tej samej pozycji.

Oczywiście fałszowanie rzeczywistości w sztuce jest, rzec by można, stare jak świat. Nie odwołując się już do reguł, jakie obowiązywały w państwie faraonów, także w czasach nowożytnych artyści pracujący na zamówienie możnych mecenasów musieli upiększać czy idealizować ich wizerunki. Retuszowanie filmów czy fotografii jest przecież niczym innym jak swoistym fałszerstwem. Do celów politycznych było stosowane w państwach totalitarnych, gdzie z archiwalnych zdjęć znikały postacie, które w toku wewnętrznych walk o władzę nie tylko traciły swoje stanowiska, ale musiały też zniknąć z wizualnej pamięci. Z drugiej strony nową, nieistniejącą rzeczywistość pokazywały odpowiednio zmontowane fotografie, rzekomo dokumentalne.

Metoda Ezzata jest pod tym względem wielkim krokiem naprzód, chociaż dziś jeszcze nie wiadomo, czy pozostanie tylko ekscytującą zabawką, czy dołączy do znanych już narzędzi społecznej manipulacji, otwierając pole do rozmaitych nadużyć. Jest faktem, że wytrawni eksperci, którym pokazano jego prace, nie potrafili odróżnić tych falsyfikatów od autentycznych filmów wideo.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200