Microsoft otišao korak dalje: Mona Lisa se smije i pjeva putem umjetne inteligencije

featured image

21. apr 2024. 10:05

Mona Liza sada može i da se smije, zahvaljujući novoj tehnologiji umjetne inteligencije iz Microsofta.

Prošle sedmice, Microsoftovi istraživači su detaljno predstavili novi model umjetne inteligencije koji su razvili i koji može snimiti nepokretnu sliku lica i audio snimak nekoga ko govori i automatski kreirati realističan video te osobe koja govori. Video snimci — koji mogu biti napravljeni od fotorealističnih lica, kao i crtanih filmova ili umjetničkih djela — upotpunjeni su uvjerljivom sinhronizacijom usana i prirodnim pokretima lica i glave.

U jednom demo videu, istraživači su pokazali kako su animirali Mona Lizu da recituje komični rep glumice Anne Hathaway.

Rezultati AI modela, nazvanog VASA-1 , istovremeno su zabavni i pomalo neugodni u svojoj stvarnosti. Microsoft je rekao da bi se tehnologija mogla koristiti za obrazovanje ili “poboljšanje pristupačnosti za pojedince s komunikacijskim izazovima”, ili potencijalno za stvaranje virtuelnih pratilaca za ljude. Ali takođe je lako vidjeti kako se alat može zloupotrijebiti i koristiti za lažno predstavljanje stvarnih ljudi.

To je zabrinutost koja nadilazi Microsoft: kako se pojavljuje sve više alata za stvaranje uvjerljivih slika, video zapisa i zvuka generiranih umjetnom inteligencijom, stručnjaci se brinu da bi njihova zloupotreba mogla dovesti do novih oblika dezinformacija. Neki također brinu da bi tehnologija mogla dodatno poremetiti kreativne industrije od filma do reklama.

Za sada, Microsoft je rekao da ne planira da VASA-1 model odmah pusti javnosti. Ovaj potez je sličan onome kako Microsoftov partner OpenAI rješava probleme oko svog video alata generiranog umjetnom inteligencijom , Sora: OpenAI je zadirkivao Soru u februaru, ali ga je do sada učinio dostupnim samo nekim profesionalnim korisnicima i profesorima kibernetičke sigurnosti u svrhe testiranja.

“Protivimo se bilo kakvom ponašanju u cilju stvaranja obmanjujućih ili štetnih sadržaja stvarnih osoba”, rekli su istraživači iz Microsofta u postu na blogu. Ali, dodali su, kompanija “ne planira javno objaviti” proizvod “sve dok ne budemo sigurni da će se tehnologija koristiti odgovorno i u skladu sa odgovarajućim propisima”.

Pomjeranje lica

Microsoftov novi AI model obučen je na brojnim video zapisima lica ljudi dok govore, a dizajniran je da prepozna prirodne pokrete lica i glave, uključujući “pokret usana, izraz (bez usana), pogled i treptanje, između ostalog”, rekli su istraživači. Rezultat je realističniji video kada VASA-1 animira fotografiju.

Na primjer, u jednom demo videu postavljenom na snimak nekoga ko zvuči uznemireno, očigledno dok igra video igrice, lice koje govori ima namrštene obrve i stisnute usne.

Alat AI također može biti usmjeren da proizvede video u kojem subjekt gleda u određenom smjeru ili izražava određenu emociju.

Kada se bolje pogleda, još uvijek postoje znakovi da su video snimci generirani strojno, kao što su rijetko treptanje i pretjerani pokreti obrva. Ali Microsoft je rekao da vjeruje da njegov model “značajno nadmašuje” druge, slične alate i “utire put angažmanima u stvarnom vremenu sa realističnim avatarima koji oponašaju ljudska ponašanja u razgovoru”, piše CNN.