haku kartta
hakemisto

Googlen kunnianhimoinen kirjahaku herättää kritiikkiä

Hakukonefirma Googlen viimeisimpiä uutuuspalveluja on Google Print –kirjahaku. Viime syksynä julkistetun projektin tavoitteena on digitoida miljoonia kirjoja ja saattaa niiden koko sisältö suositun hakukoneen ulottuville. Historiantutkijoille täysin uusia ovia avaava projekti on kuitenkin herättänyt kritiikkiä monella suunnalla.

Kaikille internetin käyttäjille tuttu Google on viime vuosina laajentanut perinteisestä hakukoneesta moneen suuntaan. Viimeisimpiin lisäyksiin kuuluvat esimerkiksi uutispalveluja kokoava Google News, karttoihin ja satelliittikuviin erikoistunut Google Maps sekä videohaku Google Video. Tutkijoiden ja opiskelijoiden näkökulmasta varmasti kiinnostavin uutuus on kuitenkin viime lokakuussa Frankfurtin kirjamessuilla julkistettu kirjahaku Google Print.

Google Print lähti liikkeelle hakukoneyhtiön ja kirjojen kustantajien yhteistyönä. Kustantajille annettiin syksyllä mahdollisuus liittää uusien kirjojensa koko sisältö maksutta hakujätin tietokantaan. Ideana oli luonnollisesti kirjamyynnin kasvattaminen. Joulukuussa projekti siirtyi täysin uusiin mittasuhteisiin, kun digitoitavien kirjojen listalle lisättiin osia Harvardin, Stanfordin, Michiganin ja Oxfordin yliopistojen kirjastojen sekä New Yorkin kaupungin kirjaston kokoelmista. Kokonaisuudessaan julkisuudessa on puhuttu 15 (jossain tapauksissa jopa 50) miljoonasta kannesta kanteen digitoitavasta teoksesta.(1)

Tutkimuskirjallisuuden hakeminen tuntuisi siis helpottuvan melkoisesti. Käytännössä tilanne ei kuitenkaan ole näin valoisa varsinkaan Suomesta katsottaessa. Vaikka palvelun sivuilla ilmoitetaan digitoinnin koskevan myös muita kuin englanninkielisiä kirjoja, näkee jo osallistuvista kirjastoista missä painopiste tulee joka tapauksessa olemaan. Tämä epätasapaino on herättänyt kritiikkiä Manner-Euroopassa – erityisesti Ranskassa.


Kuva Google Print -palvelun sivulta

Historian Googlesoituminenko vaarana?

Eri hakukoneiden suosiota tarkkailevan Searchenginewatch -sivuston mukaan lähes puolet kaikista internethauista tehdään Googlella (2). Vastaava asema on ollut yhtiön hallussa jo muutamia vuosia. Googlen suosio sisältää kuitenkin myös epäkohtia, jotka on nostettu esiin erityisesti kirjahakupalvelun myötä. Helppokäyttöisen hakupalvelun takana olevat kirjat voivat nimittäin saavuttaa erityisaseman tiedonhakijoiden keskuudessa jättäen näin ollen digitoimattomat teokset nurkkiin pölyttymään.

Ranskan kansalliskirjaston johtajan Jean-Noël Jeanneneyn mukaan Google Print tulee entisestään vahvistamaan nimenomaan englanninkielisen kulttuurin asemaa internetissä ja samalla myös koko maailmassa. Deutsche Wellelle antamassaan haastattelussa hän sanoo olevan selvää, että digitoitavien kirjojen enemmistö tulee edustamaan anglosaksista kulttuuria. Jeanneneyn mielestä vaarana on ennen kaikkea se, että Google Print johdattelee ihmiset näkemään tapahtumat, kuten Ranskan vallankumouksen, angloamerikkalaisin silmin.(3) ”Mikäli Googlea ei haasteta, sen vahva asema saattaa vaikuttaa siihen, miten tulevat sukupolvet ymmärtävät koko länsimaista historiaa ja kulttuuria.”, kansalliskirjaston johtaja selvittää edelleen Wired – lehdelle.(4)

Vastavedoksi historiaa mahdollisesti vääristävälle amerikkalaiselle hakupalvelulle Jeanneney nosti kevättalvella ajatuksen Googlen tapaisesta eurooppalaisesta projektista. Nyt yhteensä 19 eurooppalaista kansalliskirjastoa, Suomen mukaan lukien, ovat allekirjoittaneet sopimuksen kokoelmiensa digitoimisesta(5). Jeanneneyn mukaan eurooppalaisessa Google Printin vastineessa ei ole kyse niinkään kilpailusta hakukoneyhtiön kanssa, vaan ennen kaikkea yksipuolisen kuvan korjaamisesta.(6) Julkisuuteen tulleiden tietojen mukaan tapaaminen Bibliotheque Nationalen ja Googlen välillä sujuikin vielä toukokuussa yhteisymmärryksessä(7). Hakukoneyhtiö on kuitenkin kohdannut vastatuulta hankkeensa kanssa myös kotimaassaan.


Kuva Google Print -palvelun sivulta

Miten käy tekijänoikeuksien?

Googlen palveluun digitoidun kirjan näkyvyys riippuu tekijänoikeuksista. Vanhojen kirjojen tapauksessa koko sisältö on luettavissa, kuten on esimerkiksi Project Gutenbergin kirjojen laita. Kustantajien itsensä lisäämiä uusia kirjoja, pääsee selaamaan muutaman sivun verran. Kolmantena tapauksena ovat ne kirjat, jotka on tarkoitus digitoida yllä mainittujen kirjastojen kokoelmista. Jos kirjastosta skannattu kirja on vielä tekijänoikeuksien alainen, näkee sen sisällöstä vain pieniä katkelmia annetun hakusanan ympäriltä.

Vaikka Google ei siis näytä kirjastojen kokoelmien tekijänoikeudella suojattua materiaalia kokonaisuudessaan sivuillaan, ovat jotkin yhdysvaltalaiset kustantajat kyseenalaistaneet yhtiön oikeuden edes kopioida tietokantaansa tekijänoikeuden alaisia teoksia. Googlen edustajat ovat tarjonneet kustantajille mahdollisuutta estää omien kirjojensa näkyminen kirjahaun käyttäjille, mutta kustantajien mielestä rikkomus on jo tapahtunut siinä vaiheessa kun kirja on kopioitu Googlen toimesta. Amerikkalainen kustantajien järjestö Association of American University Presses esitti aiheeseen liittyviä kysymyksiä hakukoneyhtiölle toukokuun lopussa julkaistussa kirjeessä.(8)

Kustantajien huolta kirjojensa kohtalosta ei varmasti vähennä se, että jo tällä hetkellä hakkerit ovat löytäneet keinoja tekijänoikeudella suojattujen kirjojen kopiointiin Google Print -palvelusta. Esimerkiksi osoitteessa http://www.kuro5hin.org/story/2005/3/7/95844/59875 nuori opiskelija kertoo suunnittelemastaan ohjelmasta, jolla hän pystyi kopioimaan kirjahaun kautta kokonaisia kirjoja ja tallentamaan ne käytännölliseen pdf-muotoon omalle tietokoneelleen.

Onko 99.95 prosentilla ja 99.995 prosentilla eroa?

Googlen tavoitteena on suorittaa kirjojen digitoiminen satojentuhansien teoksien vuosivauhdilla. Moinen nopeus tuntuu uskomattomalta, koska pelkän sivujen skannaamisen lisäksi tarkoituksena on saattaa sisältö hakukoneen ymmärtämään muotoon. Tähän tarkoitukseen käytettävistä ohjelmista käytetään nimitystä optical character recognition, eli optinen merkin tunnistus. OCR-ohjelmat ovat kehittyneet paljon viime vuosina, mutta virheitä syntyy tästä huolimatta edelleen.

Yleinen pelko on se, että Google panostaa skannausprojektissaan laadun sijasta määrään. Googlen ilmoitus kirjastojen kokoelmien skannaamisesta herätti joulukuussa keskustelua e-docs@listserv.uic.edu -sähköpostilistalla. Keskusteluun osallistuneet, lähinnä Project Gutenberg ja Constitution.org -sivustojen ylläpitäjät, olivat kiinnostuneita erityisesti siitä millä virhemarginaalilla hakuyhtiö aikoo muuntaa skannatut kuvat tekstiksi. Keskustelu lähti liikkeelle viestistä, jossa Constitution.org -sivuston parissa työskentelevä Jon Roland kyseenalaisti Googlen mahdollisuudet toteuttaa massiivinen digitoimisprojekti muutamassa vuodessa käyttämällä kymmenen dollaria kirjaa kohti. Sekä Rolandin että keskusteluun osallistuneen Kathryn Greenin huolena on se, että Google Print tulee tuottamaan verkkoon virheitä viliseviä digiteoksia, joita ei ehkä koskaan tulla korjaamaan.

Project Gutenbergin perustaja ja e-kirjojen kehittäjänä tunnettu Michael Hart edustaa täysin toista näkökulmaa. Hartin mielestä kaksinkertainen määrä 99,95% tarkkuudella tarkastettuja kirjoja on parempi vaihtoehto kuin pienempi määrä 99,995 % tarkkuudella tarkastettuja. Pieneltä virhemarginaalilta tuntuva 99,95% tarkoittaisi käytännössä noin yhtä virhettä jokaisella kirjan sivulla. Tästä huolimatta Hart näkee määrän laatua parempana ja on luottavainen automaattisten oikolukuohjelmien kehitykseen.

Googlen oma kanta skannauksen tarkkuudesta on edelleen epäselvä. Google Print -palvelun vastineessa Jon Rolandin ensimmäiseen viestiin yhtiö vihjasi oikoluvun tarkkuuden riippuvan sen kirjaston vaatimuksista, jonka kirja on käsittelyssä. Tarkempia tietoja tarkkuudelle asetetuista vaatimuksista ei vielä löytynyt - ei edes googlettamalla.

  1. http://www.forbes.com -sivuston artikkeli ilmoittaa luvuksi 50 miljoonaa.
  2. Searchenginewatch -sivuston raportti.
  3. http://www.dw-world.de -sivuilla julkaistu artikkeli.
  4. http://wired-vig.wired.com/ -sivuilla julkaistu artikkeli.
  5. http://www.dw-world.de/ -sivuilla julkaistu artikkeli . Tosin Suomen kansalliskirjaston sivuilla ei ainakaan tätä kirjoitettaessa ollut mainintaa kyseisestä hankkeesta.
  6. http://news.com.com/ -sivuilla julkaistu artikkeli.
  7. http://wired-vig.wired.com/ -sivuilla julkaistu artikkeli.
  8. http://news.com.com/ -sivuilla julkaistu artikkeli.

 

Antti-Jussi Nygård

Tämän numeron pääsivulle
Agricolan Tietosanomien pääsivulle
Agricolan Tietosanomien arkisto

Lehden toimituskunta


Historian äärelle | Tutkimus, opetus, seurat | Arkistot, kirjastot, museot | Ajankohtaista
Agricolan kartta | Haku Agricolasta | Hakemisto | Uutta!
Tekijät | Palaute | Etusivulle

Etusivulle