Skoro milijun knjiga, objavljenih još od 15. stoljeća na čak 254 jezika, dio su zbirke Sveučilišta Harvard koja se od četvrtka otvara istraživačima umjetne inteligencije. Uskoro se očekuje i digitalizacija goleme građe starih novina i vladinih dokumenata iz Javne knjižnice Bostona.
Otvaranje vrata višestoljetnim rukopisima predstavlja potencijalno neprocjenjiv izvor podataka za tehnološke kompanije koje se trenutno suočavaju s nizom tužbi živućih književnika, vizualnih umjetnika i drugih autora čija su autorska djela korištena za treniranje AI modela – bez njihova znanja i pristanka, piše AP News.
‘Razumno je započeti s podacima iz javne domene jer je to u ovom trenutku znatno manje kontroverzno od sadržaja koji je još uvijek pod autorskim pravima’, rekao je Burton Davis, zamjenik glavnog pravnog savjetnika u Microsoftu.
Knjižnice, dodaje Davis, posjeduju ‘značajne količine vrijednih kulturnih, povijesnih i jezičnih podataka’ koji nedostaju u digitalnim zapisima zadnjih nekoliko desetljeća, na kojima su trenutačno utemeljeni gotovo svi AI chatbotovi. Strah od nedostatka kvalitetnih podataka potaknuo je brojne AI tvrtke da se okrenu tzv. sintetskim podacima – koje sami chatbotovi generiraju, ali oni su često niže kvalitete.
Digitalna suradnja uz podršku Microsofta i OpenAI-ja
Uz financijsku podršku u obliku ‘neograničenih donacija’ Microsofta i OpenAI-ja, harvardska Institucionalna inicijativa za podatke surađuje s knjižnicama i muzejima diljem svijeta na načinima kako učiniti njihove povijesne zbirke dostupnima za AI, pritom vodeći računa o zajednicama koje te ustanove služe.
‘Pokušavamo dio moći ovog AI trenutka vratiti u ruke institucija’, rekla je Aristana Scourtas iz Laboratorija za inovacije pri knjižnici Pravnog fakulteta Sveučilišta Harvard. ‘Knjižničari su oduvijek bili čuvari podataka i informacija.’
Harvardska nova zbirka, nazvana Institutional Books 1.0, obuhvaća više od 394 milijuna skeniranih stranica. Među najstarijim djelima nalazi se rukopis korejskog slikara iz 1400-ih o uzgoju cvijeća i drveća. Najveći broj djela datira iz 19. stoljeća i pokriva teme poput književnosti, filozofije, prava i poljoprivrede – sve to sustavno i pažljivo sačuvano kroz generacije knjižničara.
‘Velik dio dosada korištenih podataka za treniranje AI-ja nije došao iz izvornih izvora’, ističe Greg Leppert, izvršni direktor Inicijative za podatke i glavni tehnološki stručnjak na Harvardovu Berkman Klein Centru. ‘Ova zbirka ide izravno do fizičkih kopija koje su skenirale ustanove koje su ih izvorno prikupile.’

Izvor: Profimedia / Autor: Andrew Brookes / ImageSource / Profimedia
Od foruma do klasika – AI dobiva novu lektiru
Prije nego je ChatGPT pokrenuo globalnu AI euforiju, istraživači su rijetko razmišljali o porijeklu tekstova koje su crpili s Wikipedije, Reddita ili piratskih digitalnih knjižnica. Ključno je bilo samo – što više podataka, što više tzv. ‘tokena’, jedinica informacija koje predstavljaju dijelove riječi.
Harvardska kolekcija sadrži oko 242 milijarde tokena – brojku gotovo nemoguću za ljudsko poimanje, ali još uvijek tek kap u oceanu podataka koje gutaju najnapredniji AI sustavi. Meta, primjerice, tvrdi da je trenirala najnoviji model svoje velike jezične umjetne inteligencije na više od 30 trilijuna tokena dobivenih iz teksta, slika i videa.
Meta je, kao i OpenAI, trenutačno na sudu – među ostalim i zbog tužbe komičarke Sarah Silverman i drugih autora koji optužuju kompaniju za krađu knjiga iz ilegalnih online zbirki digitaliziranih knjiga.
Stvarna znanja protiv sintetske hiperprodukcije
Sada, unatoč određenim rezervama, prave knjižnice izlaze na scenu. OpenAI je ove godine donirao 50 milijuna dolara nizu istraživačkih institucija, uključujući i knjižnicu Bodleiana na Sveučilištu Oxford, staru 400 godina, koja trenutačno digitalizira rijetke tekstove i koristi AI za njihovu transkripciju.
Kada je OpenAI prvi put kontaktirao s Javnom knjižnicom Bostona, jednom od najvećih u SAD-u, knjižnica je jasno poručila da svi digitalizirani podaci moraju biti dostupni svima.
‘OpenAI je tražio goleme količine podataka za treniranje. Mi pak imamo goleme količine digitalnih objekata. Ovo je jednostavno bila situacija u kojoj su nam se interesi poklopili’, rekla je Jessica Chapel, voditeljica digitalnih i online usluga knjižnice.
Digitalizacija je skup i mukotrpan posao. Boston, primjerice, već godinama digitalizira desetke novina na francuskom jeziku iz Nove Engleske, koje su krajem 19. i početkom 20. stoljeća bile omiljene u zajednicama kanadskih iseljenika iz Québeca. Sada, kada ti tekstovi postaju korisni za treniranje AI-ja, taj interes pomaže financirati projekte koje bi knjižničari ionako htjeli provesti.

Izvor: Hugging Face / Autor: Miroslav Wranka
Od Google Books do Hugging Facea
Zbirka s Harvarda bila je djelomično digitalizirana još 2006. za potrebe Googleova kontroverznog projekta stvaranja online knjižnice s više od 20 milijuna knjiga. Taj projekt godinama je bio predmetom pravnih sporova s autorima, a konačno je zaključen 2016., kada je Vrhovni sud SAD-a odbio osporiti ranije presude u korist Googlea.
Sada, prvi put, Google surađuje s Harvardom kako bi naslovi u javnoj domeni iz Google Books zbirke ponovno bili dostupni, ovaj put za treniranje AI-ja. U SAD-u, zaštita autorskih prava za knjige obično traje 95 godina, dok je za zvučne zapise još i dulja. Ovu inicijativu pozdravila je i Authors Guild, udruga koja je nekoć tužila Google, a danas vodi pravne bitke i protiv AI kompanija.
‘Mnogi od ovih naslova postoje samo u arhivima velikih knjižnica. Stvaranje i korištenje ovog skupa podataka omogućit će proširen pristup tim djelima i znanju koje nose’, izjavila je izvršna direktorica Mary Rasenberger. ‘Štoviše, stvaranje zakonitog i velikog skupa podataka za treniranje može demokratizirati razvoj novih AI modela.’
Što sve AI može naučiti iz prošlosti?
Podaci će od četvrtka biti dostupni na platformi Hugging Face, poznatoj po hosting servisu za AI modele i podatkovne skupove otvorenog koda. Zbirka knjiga je i jezično daleko raznolikija od standardnih AI korpusa. Manje od polovice naslova je na engleskom jeziku, dok prevladavaju europski jezici – osobito njemački, francuski, talijanski, španjolski i latinski.
Djela iz 19. stoljeća mogla bi biti iznimno važna za razvoj AI sustava koji pokušavaju planirati i zaključivati poput ljudi, smatra Leppert. ‘Na sveučilištima imate cijele sustave poučavanja o tome što znači razmišljati, analizirati, zaključivati’, kaže.
Tu je i golema količina znanstvenih podataka o upravljanju procesima. No, u toj riznici podataka krije se i mnoštvo zastarjelih, pogrešnih ili štetnih ideja – od pseudonaučnih i medicinskih zabluda do rasističkih i kolonijalnih narativa.
‘Kad radite s tako velikim skupom podataka, postoje ozbiljna pitanja o štetnom sadržaju i jeziku’, upozorava Kristi Mukk iz Harvardskog laboratorija za knjižnične inovacije. Inicijativa zato nudi i smjernice za ublažavanje rizika i pomoć u donošenju informiranih odluka kako bi se umjetna inteligencija koristila odgovorno.





