AI sada može da generiše muziku CD kvaliteta samo iz teksta


Stability AI je kompanija koja je 13. septembra predstavila Stable Audio koji obećava da korišćenjem veštačke inteligencije (AI) može da sintetizuje muziku ili zvukove iz tekstualnog opisa. Nakon ovako ambiciozne najave postavlja se pitanje da li bi slična tehnologija mogla da ugrozi muzičare.

Stability AI je kompanija koja je pomogla u finansiranju stvaranja Stable Diffusion, modela koji je objavljen u avgustu 2022. a koji je stekao brzu globalnu popularnost mogućnošću generisanja slika na osnovu tekstualnog unosa, korišćenjem AI.

Ne zadovoljavajući se time da se ograniči samo na generisanje slika, kompanija se proširila na audio sferu. Oni su podržali Harmonai, AI laboratoriju koja je u septembru pokrenula muzički generator Dance Diffusion.

Sada Stability AI i Harmonai žele da se probiju u komercijalnu AI audio proizvodnju pomoću Stable Audio. Ako je sudeći po uzorcima proizvodnje, deluje da je to značajna nadogradnja kvaliteta zvuka u odnosu na prethodne AI audio generatore koje smo videli.

Na svojoj promotivnoj stranici, Stability pruža primere AI modela sa zahtevima kao što su „epska trejler muzika intenzivne plemenske perkusije“ i „lofi hip hop ritam melodični chillhop 85 bpm“. Takođe nudi uzorke zvučnih efekata generisanih korišćenjem Stable Audio, kao što je pilot aviona koji govori preko interfona i ljudi koji razgovaraju u restoranu u kojem je gužva.

Da bi obučio svoj model, Stability se udružio sa kompanijom AudioSparx, koja prodaje muziku i licencirao skup podataka “koji se sastoji od preko 800.000 audio fajlova koje sadrže muziku, zvučne efekte i osnove jednog instrumenta, kao i odgovarajuće tekstualne metapodatke”. Nakon što je u model uneo 19.500 sati zvuka, Stable Audio zna kako da imitira određene zvukove koje je čuo, jer su zvuci povezani sa njihovim tekstualnim opisima unutar njegove neuronske mreže.

Stable Audio sadrži nekoliko delova koji rade zajedno kako bi brzo kreirali traženi zvuk. Jedan deo smanjuje audio datoteku na način koji zadržava njene važne karakteristike dok uklanja nepotreban šum i buku. Ovo čini sistem bržim za učenje i bržim u stvaranju novog zvuka. Drugi deo koristi tekst (opisi metapodataka muzike i zvukova) da bi pomogao u vođenju vrste zvuka koji se generiše.

Da bi se stvari ubrzale, Stable Audio arhitektura radi na veoma pojednostavljenoj, komprimovanoj audio reprezentaciji kako bi se smanjilo vreme zaključivanja (količina vremena koja je potrebno modelu mašinskog učenja da generiše izlaz nakon što mu je dat ulaz). Prema Stability AI, Stable Audio može da generiše 95 sekundi stereo zvuka pri 44,1 kHz kvalitetu (koji se često naziva “CD kvalitet”) za manje od jedne sekunde na Nvidia A100 GPU-u.

Kao što je pomenuto, Stable Audio nije prvi muzički generator zasnovan na tehnikama latentne difuzije. Tu je i Riffusion, hobističku verziju audio verzije Stable Diffusion, a u januaru je Google objavio MusicLM, AI muzički generator koji kreira 24 kHz zvuk. Meta je u avgustu lansirala paket audio alata otvorenog koda (uključujući generator za pretvaranje teksta u muziku) pod nazivom AudioCraft. Sada je, sa stereo zvukom od 44,1 kHz, Stable Diffusion za korak ispred konkurencije.

Stability navodi da će Stable Audio biti dostupan u besplatnom i Pro planu koji košta 12 USD mesečno. Uz besplatnu opciju, korisnici mogu da generišu do 20 numera mesečno, svaka sa maksimalnom dužinom od 20 sekundi. Pro plan proširuje ova ograničenja, omogućavajući 500 numera mesečno sa dužinom do 90 sekundi.

Prekretnica u sferi muzike

Kako sada stoji, izgleda da smo možda na ivici produkcijske muzike generisane veštačkom inteligencijom sa Stable Audio, piše Ars Technica, s obzirom na njenu audio vernost. Da li će muzičari biti srećni ako ih zamene AI modeli? Verovatno ne.

Za sada, čovek može lako da nadmaši sve što veštačka inteligencija može da generiše, ali to možda neće dugo trajati. U svakom slučaju, AI generisan zvuk može postati još jedan alat u okviru alata za audio produkciju profesionalaca.



Source link

Stability AI je kompanija koja je 13. septembra predstavila Stable Audio koji obećava da korišćenjem veštačke inteligencije (AI) može da sintetizuje muziku ili zvukove iz tekstualnog opisa. Nakon ovako ambiciozne najave postavlja se pitanje da…