Istraživači otkrili zlostavljanje dece u najvećem AI datasetu slika

11/01/2024

Istraživači sa Stenfordske internet opservatorije kažu da skup podataka koji se koristi za obuku alata za generisanje slika veštačke inteligencije sadrži najmanje 1.008 potvrđenih primera materijala seksualnog zlostavljanja dece. Istraživači sa Stanforda napominju da bi prisustvo CSAM-a u skupu podataka moglo omogućiti AI modelima koji su obučeni na podacima da generišu nove, pa čak i realistične instance CSAM-a.

Politika nulte tolerancije

LAION, neprofitna organizacija koja je kreirala skup podataka, rekla je za 404 Media da „ima politiku nulte tolerancije na nezakonit sadržaj i uz obilje opreza, privremeno uklanjamo LAION skupove podataka kako bismo bili sigurni da su bezbedni pre nego što ih ponovo objavimo. Organizacija je dodala da je, pre nego što je objavila svoje skupove podataka, kreirala filtere za otkrivanje i uklanjanje nelegalnog sadržaja iz njih. Međutim, 404 ističe da su lideri LAION-a bili svesni najmanje 2021. godine da postoji mogućnost da njihovi sistemi pokupe CSAM dok su usisavali milijarde slika sa interneta.

Prema prethodnim izveštajima, skup podataka LAION-5B u pitanju sadrži „milione slika pornografije, nasilja, golotinje dece, rasističkih memova, simbola mržnje, umetničkih dela zaštićenih autorskim pravima i dela preuzetih sa veb sajtova privatnih kompanija“. Sve u svemu, uključuje više od 5 milijardi slika i pripadajućih opisnih naslova (sam skup podataka ne uključuje slike, već linkove do slikanih slika i alternativnih tekstova). Osnivač LAION-a Kristof Šuman rekao je ranije ove godine da, iako nije bio svestan nijednog CSAM-a u skupu podataka, nije detaljno ispitao podatke.

Za većinu institucija u SAD je nezakonito da pregledaju CSAM u svrhu verifikacije. Kao takvi, istraživači sa Stanforda su koristili nekoliko tehnika da traže potencijalni CSAM. Prema njihovom radu, oni su koristili „detekciju zasnovanu na percepciji heša, detekciju zasnovanu na kriptografskom hešu i analizu najbližih suseda koristeći ugrađene slike u sam skup podataka“. Pronašli su 3.226 unosa koji su sadržavali sumnjive CSAM. Treće strane kao što su PhotoDNA i Kanadski centar za zaštitu dece potvrdile su mnoge od tih slika kao CSAM.

Izvor: Engadget

Možda će vas zanimati:

Source link

Istraživači sa Stenfordske internet opservatorije kažu da skup podataka koji se koristi za obuku alata za generisanje slika veštačke inteligencije sadrži najmanje 1.008 potvrđenih primera materijala seksualnog zlostavljanja dece. Istraživači sa Stanforda napominju da bi…