DeepMind razvija tehnologiju za generisanje zvučnih podloga i dijaloga iz videa

Laboratorija za veštačku inteligenciju DeepMind iz Google-a radi na novoj tehnologiji koja može generisati zvučne podloge, pa čak i dijalog na osnovu video zapisa.

Laboratorija je podelila svoj napredak na projektu tehnologije video-to-audio (V2A), koja se može upariti sa Google Veo i drugim alatima za kreiranje video zapisa kao što je OpenAI Sora.

U svom blog postu, tim iz DeepMind-a objašnjava da sistem može razumeti sirove piksele i kombinovati te informacije sa tekstualnim upitima kako bi kreirao zvučne efekte za ono što se dešava na ekranu.

DeepMind generiše zvučne efekte i dijaloge

Vredno je napomenuti da se alat može koristiti i za pravljenje zvučnih podloga za tradicionalne snimke, kao što su nemi filmovi i bilo koji drugi video bez zvuka.

Istraživači iz DeepMind-a su obučili tehnologiju na video zapisima, zvučnim zapisima i AI-generisanim anotacijama koje sadrže detaljne opise zvukova i transkripte dijaloga.

Prijavi se na nedeljni Benchmark newsletter

Hvala!

Uspešno ste se prijavili na na naš newsletter! Proverite vaš email nalog kako bi potvrdili prijavu.

Rekli su da je na taj način tehnologija naučila da povezuje specifične zvuke sa vizuelnim scenama. Kao što TechCrunch primećuje, tim iz DeepMind-a nije prvi koji je objavio AI alat koji može generisati zvučne efekte (ElevenLabs je nedavno objavio jedan) i neće biti poslednji.

“Naše istraživanje se izdvaja od postojećih rešenja za video-to-audio jer može razumeti sirove piksele, a dodavanje tekstualnog prompta je opcionalno,” piše tim.

Iako je tekstualni prompt opcionalan, može se koristiti za oblikovanje i fino podešavanje konačnog proizvoda tako da bude što tačniji i realističniji. Možete uneti pozitivne promptove kako biste usmerili izlaz ka kreiranju zvukova koje želite, na primer, ili negativne promptove kako biste ga usmerili dalje od zvukova koje ne želite.

U prikazanom primeru, tim je koristio prompt: “Kinematografski, triler, horor film, muzika, napetost, ambijent, koraci na betonu.” Istraživači priznaju da još uvek pokušavaju da reše postojeća ograničenja svoje V2A tehnologije, kao što je pad kvaliteta zvuka koji može nastati ako dođe do izobličenja u izvornom videu.

Takođe još uvek rade na poboljšanju sinhronizacije usana za generisani dijalog. Pored toga, obećavaju da će tehnologiju podvrgnuti “rigoroznim bezbednosnim procenama i testiranju” pre nego što je puste u svet, piše Engadget.

Source link

Laboratorija za veštačku inteligenciju DeepMind iz Google-a radi na novoj tehnologiji koja može generisati zvučne podloge, pa čak i dijalog na osnovu video zapisa. Laboratorija je podelila svoj napredak na projektu tehnologije video-to-audio (V2A), koja…