NEBO JE GRANICA Upoznajte Soru, revolucionarni novi alat koji pretvara tekst u video

Sora, što na japanskom znači Nebo, tvrtke OpenAI novi je alat za umjetnu inteligenciju koji može stvoriti realistične videozapise od 60 sekundi na temelju tekstualnih uputa, fotografija ili postojećeg videa.

OpenAI je predstavio novi video model umjetne inteligencije nazvan Sora, pored koje prijašnji UI video alati izgledaju kao smiješne igračke. Sora stvara nevjerojatno realističke isječke s višestrukim kadrovima, preciznim detaljima prednjeg plana i pozadine te pokretima kamere — sve iz jedne tekstualne upute.

New York Times piše da je ime “Nebo” odabrano upravo zbog naglašavanja nevjerojatnih kreativnih potencijala alata.

Ma koliko predstavljeni rezultati djelovali impresivno i intrigantno, Soru još nećemo moći koristiti neko vrijeme jer, prema riječima glasnogovornika tvrtke, “prvo postoje sigurnosni problemi koje treba riješiti”, ali dobili smo uvid u njezine impresivne mogućnosti.

Dok je kvaliteta videa koje proizvodi Sora nedvojbeno začudna, OpenAI priznaje da model ima svojih nedostataka. “Možda će imati problema s točnom simulacijom fizike složene scene i možda neće razumjeti specifične slučajeve uzroka i posljedice”, napisala je tvrtka na svojoj stranici. “Na primjer, osoba može zagristi kolačić, ali nakon toga na kolačiću možda neće ostati trag zagriza”.

Ali kako je OpenAI postigao ovaj “ChatGPT ili Midjourney moment za generativni video” i što će drugi modeli morati učiniti da ga sustignu? Čini se da je odgovor vrlo jednostavan: “Trebamo još novca”.

Kako Sora radi?

Tvrtka, koju vodi Sam Altman, objavila je da “uči umjetnu inteligenciju da razumije i simulira fizički svijet u pokretu, s ciljem uvježbavanja modela koji pomažu ljudima u rješavanju problema koji zahtijevaju interakciju u stvarnom svijetu”.

Jedan od primjera upita koje je prikazao OpenAI bio je “filmski trailer koji prikazuje avanture 30-godišnjaka u svemirskom odijelu koji nosi crvenu vunenu pletenu motociklističku kacigu, plavo nebo, slana pustinja, filmski stil, snimljeno na 35 mm filmu, žive boje”.

Taj i ostalih tridesetak primjera koje je OpenAI objavio možete pogledati u sljedećem videu:

Kako možete pristupiti Sori?

Pristup Sori za sada je otvoren samo istraživačima i odabranim kreatorima sadržaja; dizajnerima, umjetnicima i filmskim redateljima, kako bi bili sigurni da se novi model umjetne inteligencije pridržava sigurnosnih politika OpenAI-ja, koja zabranjuje “ekstremno nasilje, seksualni sadržaj, slike pune mržnje, sličnosti sa slavnim osobama ili otkrivanje identiteta stvarnih osoba i IP adresa”, stoji u objavi. A svi videozapisi sadrže vodeni žig koji pokazuje da je isječak napravio AI.

Nakon predstavljanja Sore, Altman je također otišao na X (bivši Twitter) i odgovorio nekolicini korisnika s videozapisima na temelju njihovih upita.

Svjesni da bi upravo nevjerojatna realnost dobivenih videa, kao što je to slučaj šetnje snijegom prekrivenim Tokijom ili dokumentarnom snimkom Kalifornije iz razdoblja Zlatne groznice mogla predstavljati veliki problem, OpenAi neće omogućiti pristup Sori široj publici dokle ne poboljšaju način jasnog označavanja “autorstva”.

Osim za jasno isticanje i zaštitu vlastitih videa, OpenAI također radi na alatima koji mogu prepoznati je li bilo koji dostupni video stvorila umjetna inteligencija ili je plod ljudske kreativnosti i rada.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf

— OpenAI (@OpenAI) February 15, 2024

Državni hakeri istražuju mogućnost zloupotrebe

“Pet skupina hakera koje podupire država iskorištava OpenAI tehnologiju kako bi usavršili sposobnosti kibernetičkih napada”, objavila je tvrtka dan uoči predstvaljanja Sore.

Reuters prenosi da su ti hakeri prethodno bili povezani s ruskim GRU-om (državnom obavještajnom službom), iranskom Islamskom revolucionarnom gardom te kineskom i sjevernokorejskom vladom.

Kao odgovor na svoja otkrića, Microsoft je navodno uveo opću zabranu hakerima koje sponzorira država da koriste proizvode OpenAI-ja. No, ta zabrana ne uključuje Microsoftov paket proizvoda koji se pokreću umjetnom inteligencijom, uključujući Bing i nedavno predstavljeni Copilot.

Prema pisanju The New York Timesa, načini na koje su te hakerske skupine koristile OpenAI tehnologiju bili su kudikamo prizemniji nego što su se američki vojni dužnosnici možda bojali. Jedna skupina s vezama s iranskom vladom, na primjer, koristila je AI kako bi naučila kako izbjeći antivirusnu tehnologiju i sastavljati phishing e-poruke.

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq

— OpenAI (@OpenAI) February 15, 2024

Sve je u računalnoj snazi

OpenAI je od osnivanja u prosincu 2015. prikupio više od 11 milijardi dolara, od čega je većinu uložio Microsoft, i s trenutnom vrijednošću od oko 85 milijardi dolara posao je financijski najuspješniji startup svih vremena. A da taj novac ne troše uludo, tvrtka je početkom veljače objavila da je premašila dvije milijarde dolara prihoda.

Sam Altman sada je u potrazi za 7-8 bilijuna(!) dolara za stvaranje mreže globalnih tvornica čipova za umjetnu inteligenciju kako bi se dodatno zadovoljila sve zahtjevnija potreba za procesorskom snagom. Usporedbe radi, to je iznos koji odgovara zajedničkom BDP-u Njemačke i Francuske.

Iako glavni razvoj kojeg vidimo u Sori nije potpuno povezan s novcem ili računalnim resursima, igra veliku ulogu.

Duži i raznovrsniji isječci

Do Sore se činilo da je univerzalno u videu generiranom umjetnom inteligencijom da isječci imaju otprilike 24 sličice u sekundi, traju oko tri sekunde i niske su HD kvalitete.

Sora je objavila niz primjera, uključujući one generirane kao odgovor na zahtjeve korisnika na X-u (bivšem Twitteru), i svi traju oko minutee i veće su rezolucije. Što je je zaista impresivni iskorak u generiranom videu.

Druga značajna razlika, a to vjerojatno dolazi od mogućnosti stvaranja duljeg isječka u jednom potezu, je više kadrova u generiranom videu. U više predstavljenih isječaka mogu se vidjeti promjene kadra i kamere.

Analitičari procjenju da bismo do kraja godine mogli stvarati video dužine i do 15 minuta. Nakon toga vjerojatno će se ubrzo pojaviti i “cjeovečernji filmovi” visoke kvalitete koje je generirala umjetna inteligencija, kao što je to već sada slučaj s fotografijama ili glazbom.

welcome to bling zoo! this is a single video generated by sora, shot changes and all. https://t.co/81ZhYX4gru pic.twitter.com/rnxWXY71Gr

— Bill Peebles (@billpeeb) February 15, 2024

Stvaranje simulacije cijelog svijeta

“Naši rezultati ukazuju da je skaliranje modela generiranja videa obećavajući put prema izgradnji simulatora opće namjene fizičkog svijeta”, navodi se u istraživanju OpenAI-ja.

Ovo je jedan od glavnih ciljeva svih AI video alata. Stvaranje mehanizma za razumijevanje cijelog svijeta kako ga ljudi vide, zatim korištenje toga za stvaranje realistične fotografije ili vieda.

Što to znači za budućnost AI videa?

Je li ovo još jedno ostvarenje sna ili još dublji pad u sve strašniju noćnu moru — ovisno kako gledamo na razvoj UI — jest da ćemo otići na Netflix ili neku sličnu platformu i, umjesto da tražimo postojeći film, napisat ćemo upit “napravi mi dokumentarac o izmišljenim bićima koristeći glas Davida Attenborougha” ili “stvori film o povijesti Hrvatske uz naraciju Franje Tuđmana” i Sora će ga stvoriti na temelju tog zahtjeva.

Iako je to u ovom trenutu još uvijek nemoguće, uz nekoliko dodatnih koraka u smislu izgradnje računalne infrastrukture i daljeg usavršavanja UI-alata, to više i nije smješteno u neku nesagledivu budućnost.

Vjerojatnije je da će, slično kao i u slučaju alata za generiranje statičkih fotografija ili glazbe, alati za uređivanje videa koristiti UI video kako bi “popunili praznine” ili zamijenili izgubljene snimke.

Prava je korist u stvaranju dubljeg razumijevanja UI svijeta. Jim Fan, istraživač i stručnjak za AI agente za Nvidiju, objasnio je da je Sora u svojoj biti fizički motor, “simulacija mnogih svjetova, stvarnih ili fantastičnih” i da “simulacija prikazuje intuitivnu fiziku, njezino razumijevanje i primjenu”.

On misli da je Sora vjerojatno trenirana na sintetičkim podacima, koji uključuju hiperrealističke rendere, moguće uz Unreal Engine 5, i na stvarnim video zapisima. Kaže da bi to također moglo pomoći u razumijevanju fizike jer će UI alat imati odgovarajuće podatke za svaki aspekt okoliša.

https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw

— Sam Altman (@sama) February 15, 2024

Sad još samo treba prikupiti tih nekoliko bilijuna… Bilijuna!

Izvršni direktor OpenAI-ja Altman navodno traži čak 7 bilijuna dolara od investitora – među kojima je i vlada Ujedinjenih Arapskih Emirata – za proizvodnju grafičkih procesorskih jedinica ili GPU-ova, skupih poluvodiča koji su postali okosnica nadolazeće generativne UI industrije.

Kao što je istaknuo Wall Street Journal nakon predstavljanja Sore, “7 bilijuna dolara više je od ukupne tržišne vrijednosti Microsofta i Applea, dviju najvrednijih kompanija na svijetu”. Iznos je zaista vrtoglavo visok u usporedbi s većinom pokušaja prikupljanja sredstava u svijetu tehnologije.

Altman zbog nedostatka čipova i troškova već dugo zagovara ideju pokretanja vlastite tvornice za proizvodnju grafičkih kartica. Tržištem trenutno dominira američki proizvođač Nvidia, koji je zaslužan za izraz “GPU” i koji je doživio vrtoglavi porast tržišne vrijednosti posljednjih godina uslijed stalnog rasta potražnje za njegovim čipovima.

Čini se da su Altmanovi stalni napori prikupljanja sredstava dio njegove i OpenAI-jeve šire vizije proširenja globalnog lanca opskrbe GPU-om, smanjivanja opterećenja na energetsku mrežu i približavanja postignuću onoga što OpenAI na svojoj web stranici opisuje kao “siguran AGI koji koristi cijelo čovječanstvo”.