Da li je ovo početak kraja? OpenAI predstavio novi alat umjetne inteligencije koji oponaša ljudske glasove

featured image

9. apr 2024. 13:17

OpenAI je predstavio novi alat za umjetnu inteligenciju koji može imitirati ljudske glasove sa zapanjujućom preciznošću. AI generator glasa ima niz potencijalnih aplikacija, uključujući usluge pristupačnosti, ali bi također mogao izazvati zabrinutost zbog dezinformacija i drugih oblika zloupotrebe.

OpenAI je u petak podijelio uzorke iz ranih testova alata, nazvanog Voice Engine, koji koristi 15-sekundni uzorak nekoga ko govori kako bi stvorio uvjerljivu repliku njihovog glasa. Korisnici tada mogu dati odlomak teksta i alat će ga pročitati glasom generiranim umjetnom inteligencijom.

Postoji nekoliko glasovnih usluga koje generiše umjetna inteligencija već je dostupno javnosti, ali, kao što je to bio slučaj sa progresivnim chatbotom ChatGPT, OpenAI se pokazao posebno vještim u prikupljanju široko rasprostranjenog usvajanja AI alata.

Alat za pretvaranje teksta u glas sa AI-om mogao bi pomoći u prevođenju, pomoći pri čitanju za djecu ili pomoći ljudima koji su izgubili sposobnost govora, kaže kompanija. No, neki skeptici se brinu da bi to također moglo potaknuti stvaranje dezinformacija ili olakšati izvođenje prevara.

Shutterstock

Još se testira

OpenAI kaže da Voice Engine trenutno koristi samo “mala grupa partnera od povjerenja”, uključujući obrazovne i zdravstvene tehnološke kompanije, i da će koristiti njihove testove kako bi utvrdio da li i kako dozvoliti širu upotrebu. Ovi testeri su se složili da neće rekreirati glasove ljudi bez njihovog eksplicitnog pristanka i da jasno identifikuju slušaocima da je ono što čuju generisano umjetnom inteligencijom, navodi kompanija.

“Svjesni smo da stvaranje govora koji liči na glasove ljudi nosi ozbiljne rizike, koji su posebno na prvom mjestu u izbornoj godini”, rekao je OpenAI u blogu. Kompanija je priznala potrebu za velikim promjenama kako zvuk generiran umjetnom inteligencijom postaje sve dostupniji, iako ne planira odmah objaviti Voice Engine za javnost. Na primjer, kompanija je predložila postepeno ukidanje glasovne autentifikacije za bankovne račune.

„Svako široko uvođenje sintetičke glasovne tehnologije trebalo bi da bude popraćeno iskustvima glasovne provjere autentičnosti koja potvrđuju da izvorni govornik svjesno dodaje svoj glas”, rekao je OpenAI.

Voice Engine može koristiti uzorak glasa na jednom jeziku da stvori repliku glasa koji može govoriti na više drugih jezika.

Njegov blog post uključuje primjer audio klipa čovjeka koji čita odlomak o prijateljstvu, uz audio generiran AI koji zvuči kao da ista osoba čita isti odlomak na španskom, mandarinskom, njemačkom, francuskom i japanskom. U svakom od AI generiranih uzoraka, ton i naglasak originalnog zvučnika se prepoznaju.

Ispod su audio uzorci iz OpenAI koji pokazuju kako Voice Engine radi. Prvi audio snimak je pravi ljudski govor koji je korišten kao ulaz za alat.

Shutterstock

Pregled Voice Engine-a dolazi dok korisnici iščekuju javno izdanje Sore, video alata generiranog umjetnom inteligencijom koji je OpenAI ismijavao prošlog mjeseca. Sora može kreirati realistične video zapise u trajanju od 60 sekundi s mogućnošću serviranja scena s više likova, specifičnih vrsta pokreta i detalja u pozadini. OpenAI ChatGPT takođe može da generiše slike iz tekstualnog zapisa.

Odvojeno, OpenAI je također najavio u ponedjeljak da čini ChatGPT dostupnim svima bez potrebe da se prijave za korištenje usluge, javlja CNN.

Kompanija je napomenula da može koristiti bilo koji tekst koji je učitan u ChatGPT da poboljša svoje modele, ali je rekla da se to može isključiti kroz podešavanja čak i bez naloga. Bez naloga, međutim, korisnici neće moći da spremaju ili pregledaju historiju ćaskanja uključujući glasovne razgovore.