Ostatnimi czasy można odnieść wrażenie, że hasło reality coraz bardziej traci na swoim oryginalnym znaczeniu. A to za sprawą słów, które je poprzedzają: fake, augmented, virtual, mixed. Postęp technologiczny falami zalewa nas nowymi możliwościami, z których czerpiemy garściami, nieustannie przesuwając granicę rzeczywistości, jaką znamy. Wykorzystywana do tego sztuczna inteligencja niesie ze sobą wiele szans, ale również zagrożeń, wśród których “prawdziwe” fake newsy będą okupować najwyższe miejsca,

Era Photoshopa

Manipulowanie rzeczywistością nie jest tematem nowym ani zaskakującym. Prawdopodobnie już w momencie powstania pierwszych edytorów graficznych zaczęliśmy naginać rzeczywistość z lepszym lub gorszym skutkiem. Photoshop tak bardzo wniknął w nasze życie, że zdjęcia nieokraszone żadnym filtrem, czy przeróbką, otrzymały własny hashtag. Modne stało się też ujawnianie przerobionych zdjęć w zestawieniu z oryginałem. Podrasowane zdjęcia stanowią przekaz działań propagandowych, reklamowych, jak również stały się częścią fejkowych newsów. To zmusiło nas do częstszej weryfikacji informacji. Problem pojawia się w momencie kiedy nie ma oryginału do porównania, bo cały materiał został wygenerowany cyfrowo. Szczególnie jeśli będzie to video bądź dźwięk.

Manipulacja video

Nagrania audio-video, stanowią obecnie podstawę do podejmowanych przez nas wyborów. Kształtują nasze poglądy i opinie na temat produktów, usług i przede wszystkim ludzi. Są też głównym materiałem dowodowym w sądach. To właśnie za ich pomocą do tej pory, możliwe było rozwiązywanie kwestii spornych. Trudno było bowiem podważyć obecność danej osoby na nagraniu z kamer bezpieczeństwa, bądź zapis audio rozmowy telefonicznej. Sytuacja zmienia się jednak gdy dzięki sztucznej inteligencji możemy manipulować bądź generować od zera materiały audio-video. Co gorsza, nie wymaga to od nas żadnych specjalnych umiejętności ani wysiłku. Jakie może to nieść ze sobą konsekwencje?

Na pierwszy ogień weźmy zjawisko cyber-bullying, które np. poprzez manipulację zdjęciami w social mediach, jest poważnym problemem. Urasta on do nieporównywalnie większej rangi, w momencie kiedy grupka znęcających się dzieci, sfabrykuje film, w którym ofiara wypowiada swoim głosem kompromitujące treści. Mało prawdopodobne by na etapie szkoły podstawowej, któreś z dzieci siliło się na weryfikację tak “wiarygodnego” materiału, który może skutkować tragicznymi zmianami w psychice ofiary.

bullying

W świetle obecnych skandali o molestowanie seksualne, nie trudno wyobrazić sobie scenariusz, w którym powstaje sfabrykowane nagranie aktorki oskarżającej wybrane osoby. Może to oczywiście zadziałać w drugą stronę i usłyszymy sztucznie wygenerowane nagranie głosowe, w którym celebryta przyznaje się do popełnienia jakiegoś czynu.

Polityk przyznający się do wzięcia łapówki na nagraniu rozmowy telefonicznej, albo video, na którym prezydent rzuca pogróżki (ekhm) i obelgi w stronę innej osoby rządzącej może wywołać skandal na skalę nawet międzynarodową. Taki materiał dostarczony do sieci botów (Twitter/Facebook) oraz setek fakeowych portali newsowych może spowodować, że zanim równie szeroko rozejdzie się dementi, to szkoda wyrządzona będzie już nie do naprawienia. Możemy obserwować zrujnowane kariery, czy gigantyczne skoki cen na giełdach.

Takich scenariuszy można wyobrazić sobie na pęczki. Żeby jednak pomóc w zwizualizowaniu problemu, przedstawię teraz w skrócie technologie, które stanowią inspirację tych dywagacji.

Nvidia

Nvidia skutecznie przeciera szlaki ku końcowi rzeczywistości, jaką znamy. Jak? Opracowali AI, przetwarzające obraz, które zamieni dzień w noc, lato w zimę, a nasze domowe kociaki w dzikie gepardy. Krótka prezentacja tychże możliwości przedstawiono w materiałach video poniżej:

Rezultatom może i brakuje trochę do perfekcji, nie mniej są one niemal niepokojące. Cały proces przetwarzanie obrazu, oparty jest o algorytm GAN. W tym algorytmie dwie sieci neuronowe współpracują ze sobą, zasadniczo działając przeciwko sobie. Jedna z sieci generuje obraz lub wideo, druga krytykuje pracę pierwszego.

Zwyczajowo GAN wymaga dużej ilości oznaczonych danych, aby nauczyć się generować własne. Na przykład, system musiałby otrzymać pary obrazów pokazujących, jak wyglądała ulica ze śniegiem i bez śniegu, aby wygenerować taki obraz na własną rękę.

Jednak nowe AI opracowane przez naukowców Nvidii jest w stanie wyobrazić sobie (!!!), jak wyglądałaby pokryta śniegiem wersja ulicy, której nigdy wcześniej nie widziało.

Adobe – SceneStitch i Cloak

Na przestrzeni ostatnich 2-3 lat Adobe mocno wniknęło w świat sztucznej inteligencji. Na zeszłorocznej konferencji MAX firmy mieliśmy okazję przyjrzeć się kilku eksperymentom dotyczących AI (firma nazywa je „sneakami”).

Oba sneaki pozwalają dodać lub usunąć praktycznie wszystko z krajobrazu, automatycznie wypełniając luki. Nawet w przypadku video.

Zacznijmy od projektu SceneStitch, który dotyczy obrazów. Potrafi on zastąpić duże fragmenty tychże zdjęć innymi elementami. SceneStitch to rozwinięcie istniejącego narzędzia w oprogramowaniu PhotoshopContent Aware Fill -, które pozwala na podświetlenie fragmentu zdjęcia i poproszenie komputera o zasadniczo sklonowanie otoczenia w celu wypełnienia danego obszaru.

AI wykorzystywane przez SceneStitch posuwa się znacznie dalej. Pozwala na podkreślenie fragmentu obrazu – na przykład, pustynnej drogi – i zastąpienie jej różnymi obiektami z prawdziwych zdjęć, które miałyby rację bytu w piaskowym otoczeniu. Może, zamiast drogi chcielibyśmy widzieć tam głaz lub oazę. Cały trik polega na tym, że choć nie wszystkie sugestie SceneStitch są dobre, człowiek przy odrobinie chęci i czasu może łatwo wyciągnąć te najlepiej pasujące. Co więcej, nie potrzeba do tego żadnych umiejętności, talentu ani wysiłku. Powyższy film prezentuje, jak SceneStitch usuwa całą okolicę z krajobrazu miasta Denver, zastępując ją portem pełnym łodzi.

Drugim prezentowanym projektem był Cloak i ma na celu usuwanie wybranych elementów z filmów wideo. Adobe przetestowało go na czymś, co wygląda jak nagranie z kamery drogowej ustawionej idealnie przed Katedrą Chrystusa Zbawiciela w Moskwie. Wysoki słup oświetleniowy niszczy widok malowniczej architektury. Wystarczy jednak, że po nałożeniu maski, która śledzić będzie zmieniające się położenie słupa, użytkownik może przy pomocy Cloak zadecydować o jego zniknięciu, wypełniając każdą klatkę brakującymi fragmentami katedry. I tak oto jak za pstryknięciem palców, słup wyparował. Efekt jeszcze bardziej niepokojący osiągnięto, wycinając całe postaci z kadru.

Modyfikacje dźwięku

Ostatnim elementem potrzebnym do stworzenia idealnego fejkowego newsa jest wiarygodnie brzmiąca, sfabrykowana wypowiedź. “Z pomocą” przychodzi Google oraz Adobe.

VoCo, czyli Photoshop do głosu

Ci drudzy w ramach konferencji MAX z 2016 roku, zaprezentowali oprogramowanie o nazwie VoCo. Jeśli chcielibyśmy aby Morgan Freeman był narratorem naszej poczty głosowej, albo żeby, Clint Eastwood wykrzykiwał pogróżki w kierunku naszych sąsiadów, to warto przyjrzeć się temu oprogramowaniu.

W prezentowanym demo, Zeyu Jin (przedstawiciel firmy Adobe) wykorzystał fragment nagrania, na którym Keegan-Micheal Key wyraża swoją ekscytację związaną z nominacji do nagrody. Wypowiedź Key’a w formie fal dźwiękowych została załadowana do VoCo, gdzie przekonwertowana została na tekst. Ten zabieg pozwolił Jin’owi na manipulowanie kolejnością słów, bądź tworzenie zupełnie nowych fragmentów wypowiedzi.

Według Jina, oprogramowanie już po około 20 minutach słuchania głosu, umożliwia użytkownikom “wypowiedzenie” za jego pomocą, dowolnych kwestii. A cała magia ogranicza się do wpisania pożądanych słów. Biorąc pod uwagę tak niewielką ilość potrzebnego czasu i umiejętności, na czysto rozrywkowym wykorzystaniu VoCo może się nie skończyć.

Jin wspomniał o tym, że wyniki są coraz lepsze, a co za tym idzie sfabrykowana wypowiedź jest coraz trudniejsza do wykrycia. Dlatego też, w pocie czoła pracują nad sposobami zapobiegania fałszerstwom – które mają przypominać znaki wodne znane ze zdjęć. Czy i kiedy produkt trafi do sprzedaży, jako samodzielny twór bądź część innego oprogramowania, nie wiadomo. Nie mniej jeśli do komercjalizacji VoCo dojdzie, to Adobe może oczekiwać podobnych problemów prawnych, jak w przypadku Photoshopa, który był systematycznie nadużywany przez reklamodawców.

Tacotron 2 – J.A.R.V.I.S w prawdziwym świecie

Fanom Marvela nie trzeba przedstawiać “postaci” J.A.R.VI.S’a, sztucznej inteligencji, która pomaga Tony’emu Starkowi w codziennych czynnościach oraz jest systemem operacyjnym w jego zbrojach. Może on również posłużyć, jako benchmark przy tworzeniu syntezatora ludzkiego głosu pełnego niuansów charakterystycznych dla naszej wymowy. Badacze w Google twierdzą, że udało im się osiągnąć podobne AI pod postacią Tacotron 2.

W dużym skrócie Tacotron 2 to system syntezy mowy oparty na sztucznej inteligencji, który może konwertować tekst na mowę. Upraszczając, Tacotron 2 działa na zasadzie nakładania się dwóch głębokich sieci neuronowych – jednej konwertującej tekst na spektrogram, który jest wizualną reprezentacją spektrum częstotliwości dźwiękowych, oraz drugiej konwertującej elementy spektrogramu na odpowiadające im dźwięki.

Co potrafi Tacotron 2?

Posługując się próbkami dźwiękowymi przedstawię teraz, do czego zdolne jest oprogramowanie. Ważną informacją jest to, że żadna z wypowiadanych fraz, nie była wcześniej przez AI słyszana. Wszystkie przykłady są więc wygenerowane wyłącznie z wpisanego tekstu. 

Tacotron 2 uczy się wymowy w oparciu o semantykę zwrotów.

Zauważmy, jak w obu przypadkach różni się wymowa słowa “read”

“He has read the whole thing.”

“He reads books.”

Tacotron 2 jest w stanie nauczyć się intonacji

Zapisanie słowa wielkimi literami, zmienia intonację i akcent danego wyrażenia.

“The buses aren’t the problem, they actually provide a solution.”

“The buses aren’t the PROBLEM, they actually provide a SOLUTION.”

Tacotron 2 dobrze radzi sobie z łamańcami językowymi

“Peter Piper picked a peck of pickled peppers. How many pickled peppers did Peter Piper pick?”

“She sells sea-shells on the sea-shore. The shells she sells are sea-shells I’m sure.”

Tacotron 2 osiąga niemal ludzki głos, którego nie sposób odróżnić

Każda z poniższych par zawiera nagranie, wygenerowane przez Tacotron 2 oraz człowieka. Jesteś w stanie rozróżnić jedno od drugiego?

“I’m too busy for romance.”

“She earned a doctorate in sociology at Columbia University.”

System posiada oczywiście swoje wady, które od czasu do czasu mogą wystąpić w trakcie użytkowania. Są to między innymi: losowe pomijanie słów, nienaturalna intonacja, czy problemy z wymową. Aczkolwiek, jest to dopiero początkowa wersja, która będzie dalej rozwijana aż do osiągnięcia efektu bliskiemu perfekcji. Biorąc pod uwagę to, jak i obecne rezultaty, manipulacja głosem może wejść na zupełnie nowy poziom. Po więcej przykładów odsyłam do źródła – LINK.

Fake news idealny

CGI i sztuczna inteligencja rozwijają się w bardzo szybkim tempie. Efekt? W nadchodzących latach coraz łatwiejsze stanie się tworzenie fałszywych materiałów audio i wideo, co może jeszcze bardziej pogłębić wątpliwość w autentyczność mediów. Z kolei zawody, dla których nagrania audio-wizualne stanowią materiał dowodowy, jak policja i prawnicy, będą mieli ciężki orzech do zgryzienia.

Pojawiające się próbki łączące manipulację dźwięku i obrazu jedynie potwierdzają te obawy.

Naukowcy z Uniwersytetu Waszyngtońskiego wykorzystali AI do stworzenia filmu przedstawiającego przemówienie prezydenta Baracka Obamy. Video powstało na podstawie analizy kilkudziesięciu godzin nagrania wcześniejszych wystąpień prezydenta. Poniżej możemy zaobserwować jak fałszywe usta Obamy zostały zsynchronizowane z dźwiękiem jednego z jego wystąpień. Jednak dźwięk ten równie dobrze mógłby pochodzić z dowolnego źródła.

W podobnym eksperymencie, naukowcy wykorzystali istniejące nagrania polityków, do których zaliczamy: George W. Bush, Donald Trump i Vladimir Putin. Na ich podstawie byli w stanie w czasie rzeczywistym wykorzystać ich twarz do imitowania mimiki aktorów.

Łącząc te wszystkie systemy, technologie i możliwości, jesteśmy w stanie dosłownie włożyć słowa w usta dowolnej osoby publicznej.

Co dalej?

W świetle przedstawionych tutaj rozwiązań technologia zaprezentowana w serialu Black Mirror, która jest w stanie symulować głos i osobowość zmarłej osoby w formie połączenia telefonicznego, na podstawie jego aktywności w mediach społecznościowych i innych materiałów audiowizualnych, nie wydaje się tak odległa. Z kolei zaimplementowanie takiego systemu AI w pełni funkcjonalnym, syntetycznym ciele, które wyglądem i głosem w 100% przypominać będzie zmarłego, wydaje się „naturalnym” następstwem.

Wyobraźmy sobie, że nasze dziecko/żona/rodzic zaginęli w niewyjaśnionych okolicznościach i od ponad roku nikomu nie udało się ustalić, co się stało, a osobę uznano za zmarłą. Któregoś dnia otrzymujemy krótkie nagranie video, w którym bliska nam osoba, zupełnie jak żywa, przez łzy prosi nas o pomoc…

Sztuczna inteligencja i możliwości, które ze sobą niesie, balansuje na bardzo cienkiej granicy etycznej, moralnej i prawnej. Nadużycie tej technologii z kolei może być tragiczne w skutkach.

Podsumowując

Wracając jednak do tego co TERAZ. Przedstawione tutaj projekty są jeszcze we wczesnych stadiach rozwoju, których nie zaplanowano jeszcze dla żadnego konkretnego produktu.

Oczywiście mają one bardzo duży potencjał do bycia wykorzystanymi w pozytywnych lub rozrywkowych aspektach, ale jak to często bywa, te negatywne mogą być bardziej popularne. Koniec końców może się okazać, że największą ofiarą rozwoju sztucznej inteligencji nie będzie praca, ale ostateczne i całkowite wyeliminowanie zaufania do tego, co widzimy lub słyszymy.

Zaciekawił Cię artykuł i zastanawiasz się nad współpracą? Napisz do nas – odpowiemy na wszystkie pytania!