PRIJE nekoliko dana organizacija OpenAI predstavila je Soru – novi generativni model za video. Koncept nije ništa novo: prvi generativni modeli postojali su još šezdesetih godina prošlog stoljeća, a internet već neko vrijeme zabavljaju deepfake snimke.
Sora je šokantna iz jednostavnog razloga. Naime, prema snimkama koje je OpenAI objavio, ovo je prvi put da se na neušminkanim videima jedva može procijeniti je li njihov sadržaj stvaran ili nije. S upisanim uputama u dužini pasusa ovog teksta, umjetna inteligencija može stvoriti video verziju replikanta iz Blade Runnera.
U prvom objavljenom videu na stranici projekta vidi se žena koja hoda kroz Tokio. Ne bi to bilo ništa spektakularno da pokreti nisu odlično prikazani, a osvjetljenje i kadrovi također izvedeni kao da su s obje strane “kamere” živi ljudi. Čak su i odbljesci na mokroj ulici realistični, što je impresivno za digitalnog robota.
Može se primijetiti da čovjek u pozadini hoda neprirodno, a i da su u zadnjih nekoliko sekundi videa ženine ruke pomalo ukočene, ali to je to. Treba imati na umu da se takve sitnice primjećuju dok ste svjesni da gledate umjetno generirani video i tražite greške, ali u nečemu što gledate u večernjem programu bilo bi ih gotovo nemoguće pronaći.
Video koji prikazuje “prekrasnu povijesnu crkvu na obali Amalfi” nije ništa manje impresivan. More, turisti, kretanje kamere, padanje svjetla i sjene… Tek po zgužvanom suncobranu i bazenu koji je samo ubačen bez ikakvog razloga može se naslutiti da ono što gledate uopće ne postoji.
Još jedan generirani video koji izaziva oduševljenje (ili jezu) je onaj u kojem mačka pokušava probuditi vlasnicu u krevetu. Izrazi lica su gotovo savršeni, kao i pokreti mačke. I nabori na poplunu pomiču se točno kako bi oko očekivalo, bez vidljivih trzavica. Tek po nijansama u pokretima i naborima na licu vidi se da nešto nije u redu, ali kroz još dvije komande vjerojatno se i to može riješiti.
Treba uzeti u obzir da su ove snimke vjerojatno najbolje što Sora može. Za ove rezultate potrebno je puno pokušaja i pogrešaka, i tko zna kakve neobične stvari mogu izaći iz krivih (ili namjerno zabavnih) komandi. Sam Altman, direktor OpenAI-a, na X-u je pitao ljude da mu pošalju svoje komande iz kojih će napraviti video – tako su nastali delfini koji voze bicikle, ali i retriveri koji vode podcast.
Uskoro i zvuk?
Sva videa su bez zvuka, što vjerojatno neće dugo ostati tako.
Ono što je uistinu zastrašujuće jest brzina kojom generativna umjetna inteligencija napreduje. Još uvijek postoje skeptici koji tvrde da su generirana videa “daleko od dobrih” ili “neupotrebljivi”, ali su nakon objave Sore postali znatno tiši.
Kako bismo razumjeli razmjere onoga što se događa, trebamo pogledati gdje je umjetna inteligencija bila prije samo godinu dana. Video Willa Smitha koji jede špagete tada se proširio internetom poput požara i postao viralan upravo zato što je bio loš. Proporcije, pokreti, kvaliteta videa – sve je bilo potpuno krivo i izgledalo kao noćna mora.
Sada je objavljen remake videa sa špagetima – ovog puta izgleda gotovo uvjerljivo. Usporedbu tada i sada objavio je i Will Smith uz natpis “ovo se otima kontroli”. Ponovimo, između ova dva videa prošlo je manje od godinu dana.
Svima, osim pojedincima koji guraju glavu u pijesak, jasno je da će Sora donijeti tektonske promjene. Otvaraju se novi potencijali, ali i veliki sigurnosni problemi. Također, ugrožene su cijele industrije.
Sjećate se videa sa ženom u Tokiju s početka teksta? Za snimiti ga u stvarnosti trebalo bi platiti redom:
- glumicu
- režisera
- kamermana
- rasvjetu
- ton-majstora
- kostimografa
- statiste…
Tu je i dodatno osoblje s opremom, ali već nabrojano košta nekoliko sati snimanja i nekoliko desetaka tisuća eura. Sora je napravila gotovo identičan video unosom točno 64 riječi koje je jedna osoba mogla napisati u dvije minute. A možda i ChatGPT u nekoliko sekundi. Potencijalno, netko s dobrom idejom može postati Quentin Tarantino ili Steven Spielberg iz svoje dnevne sobe.
Ipak, filmovi su ambiciozni projekti. Na prvoj liniji stradanja vjerojatno će se naći stock snimke – one koje se koriste kad vam treba određeni kadar za prilog ili neki drugi video. Umjesto da netko upiše “obitelj trči livadom” ili “zastava Europske unije” u Google i plati za korištenje videa, jednostavno će to dati Sori. Tržište stock fotografija i videa 2022. je vrijedilo 5 milijardi dolara. Umjetno generirane fotografije već se masovno koriste, a usavršavanjem videa cijeli segment mogao bi nestati preko noći.
Autentičnost?
Prošlogodišnji štrajk scenarista i glumaca u Hollywoodu zapravo je bio uvod u novo doba. Kad tehnologija za stvaranje filmova iz nekoliko rečenica bude dostupna svima, tko će spriječiti kreativnog pojedinca da stvori vlastite glumce i režira cijeli film s njima? Naravno, dolaze u pitanje i svi ostali koji inače rade na filmu.
Snimke za reklame, sadržaj za društvene mreže, crtići… Umjetna inteligencija bi za nekoliko godina mogla zamijeniti cijele timove, jer uz savršenu izvedbu robota njihovo tehničko znanje postaje nepotrebno. Jedini rad s ljudske strane ostaje ideja i nekoliko redaka komande robotu. Zvuči jezivo, zar ne?
Naravno, tu je i problem autentičnosti. Prije nekoliko mjeseci, određeni postotak ljudi ozbiljno je shvatio zajebantski deepfake video u kojem Elon Musk objašnjava da je iz Republike Srpske. Što će se dogoditi kada videa postanu uvjerljivija, a netko ih odluči iskoristiti u malicioznije svrhe? Koliko će široj javnosti uopće biti važno je li ono što gledamo na ekranu stvarno ili kompjuterski generirano?
OpenAI na svojoj stranici navodi da u testiranje ulaze i procjene štete i rizika koje model može prouzročiti. Ipak, ne treba se previše oslanjati na to – internet postoji više od 30 godina, ali je regulatorno još uvijek u fazi divljeg zapada.
Jedno je sigurno – čekaju nas uzbudljiva i zastrašujuća vremena. U Blade Runneru iz 1982. smo gledali ljude koji glume umjetno stvorene replikante, a 2024. bismo mogli gledati stvarne replikante koje ne možemo razlikovati od ljudi. I’ve seen things you people wouldn’t believe…