Istraživači otkrili zlostavljanje dece u najvećem AI datasetu slika


Istraživači sa Stenfordske internet opservatorije kažu da skup podataka koji se koristi za obuku alata za generisanje slika veštačke inteligencije sadrži najmanje 1.008 potvrđenih primera materijala seksualnog zlostavljanja dece. Istraživači sa Stanforda napominju da bi prisustvo CSAM-a u skupu podataka moglo omogućiti AI modelima koji su obučeni na podacima da generišu nove, pa čak i realistične instance CSAM-a.

PCPress.rs Image

Politika nulte tolerancije

LAION, neprofitna organizacija koja je kreirala skup podataka, rekla je za 404 Media da „ima politiku nulte tolerancije na nezakonit sadržaj i uz obilje opreza, privremeno uklanjamo LAION skupove podataka kako bismo bili sigurni da su bezbedni pre nego što ih ponovo objavimo. Organizacija je dodala da je, pre nego što je objavila svoje skupove podataka, kreirala filtere za otkrivanje i uklanjanje nelegalnog sadržaja iz njih. Međutim, 404 ističe da su lideri LAION-a bili svesni najmanje 2021. godine da postoji mogućnost da njihovi sistemi pokupe CSAM dok su usisavali milijarde slika sa interneta.

Prema prethodnim izveštajima, skup podataka LAION-5B u pitanju sadrži „milione slika pornografije, nasilja, golotinje dece, rasističkih memova, simbola mržnje, umetničkih dela zaštićenih autorskim pravima i dela preuzetih sa veb sajtova privatnih kompanija“. Sve u svemu, uključuje više od 5 milijardi slika i pripadajućih opisnih naslova (sam skup podataka ne uključuje slike, već linkove do slikanih slika i alternativnih tekstova). Osnivač LAION-a Kristof Šuman rekao je ranije ove godine da, iako nije bio svestan nijednog CSAM-a u skupu podataka, nije detaljno ispitao podatke.

Za većinu institucija u SAD je nezakonito da pregledaju CSAM u svrhu verifikacije. Kao takvi, istraživači sa Stanforda su koristili nekoliko tehnika da traže potencijalni CSAM. Prema njihovom radu, oni su koristili „detekciju zasnovanu na percepciji heša, detekciju zasnovanu na kriptografskom hešu i analizu najbližih suseda koristeći ugrađene slike u sam skup podataka“. Pronašli su 3.226 unosa koji su sadržavali sumnjive CSAM. Treće strane kao što su PhotoDNA i Kanadski centar za zaštitu dece potvrdile su mnoge od tih slika kao CSAM.

Izvor: Engadget





Source link

Istraživači sa Stenfordske internet opservatorije kažu da skup podataka koji se koristi za obuku alata za generisanje slika veštačke inteligencije sadrži najmanje 1.008 potvrđenih primera materijala seksualnog zlostavljanja dece. Istraživači sa Stanforda napominju da bi…