haku Agricola - Suomen historiaverkko kartta
uutta hakemisto


Internetarkistot tulevat ja tallentavat kaiken
AGRICOLA


Minkälaiseen lähdeaineistoon tulevaisuuden historiantutkija tarttuu kirjoittaessaan 1990-luvun ja 2000-luvun alun historiaa? 1990-luvulla käynnistynyt digitaalinen kumous on johtanut siihen, että valtava määrä lähteitä elämästämme on ainoastaan sähköisessä muodossa. Historiantutkimuksella on ratkaistavanaan myös muita hankalia ongelmia Internetin aikakaudella: miten todetaan digitaalisen lähteen autenttisuus? Tai miten voidaan viitata Internet-lähteisiin kun lähteen verkko-osoite ei ole pysyvä? Eräs ratkaisu tähän ongelmaan ovat Internet arkistot.

Suuri osa ensimmäisistä mykkäelokuvista on hävinnyt jäljettömiin koska elokuvat tehtiin alustalle, joka oli niin herkkää ja huonosti säilyvää, että se helposti tuhoutui. Mutta myös asenteet vaikuttivat. Elokuvia ei pidetty säilyttämisen arvoisena korkeakulttuurina kuten esimerkikisi kirjoja. Samankaltainen asenneongelma vaivaa Internetin varhaista materiaalia. Miljardeja sivuja vain verkossa ilmestyneitä aineistoja, verkkolehtiä, yksityishenkilöden sivustoja ja uutisryhmäkeskusteluja on ollut vaarassa kadota. Tämän "harmaan" aineiston sisällä on valtava määrä arvokasta tietoa, jota ilman tulevaisuuden historiantutkija ei voi luoda kelvollista kuvaa nykyisestä elämästämme.

Internetissä olevan aineiston tallentamiseen liittyy runsaasti vaikeita ongelmia. Ensimmäinen on aineiston suunnaton laajuus. Kesällä 2000 arvioitiin Internetin kooksi peräti 550 miljardia sivua. Toinen ongelma on aineistojen kirjavuus. Internet-aineisto voi olla ruokareseptejä, pornosivuja tai vaikkapa 1700-luvun diplomaattipostia. Ja jotta asia ei olisi liian yksinkertainen, aineisto voi myös muodoltaan olla: liikkuvaa kuvaa, stillkuvia, ääntä tai tekstiä tai näiden kaikkien yhdistelmiä. Näin heterogeenisen aineiston luokitteleminen ja tärkeysjärjestykseen asettaminen on äärimmäisen hankala tehtävä. Historiantutkijan kannalta on lisäksi tavallista, että jos jotain valintoja tehdään niin usein juuri siinä tuhotussa materiaalissa oli se kaikkien kiinnostavin tieto. Jos valikointia tehdään niin mitkä kriteerit määrittävät valikoitavan aineiston?

Internetin valtavan tietomassan tallentamiseksi on tekeillä useita hankkeita. Yhdysvalloissa asiaa on mietitty sekä virallisella taholla, että vapaaehtois-aatteellis-kaupallisella puolella. Commission on Preservation and Access sekä Research Libraries Group ovat perustaneet asiaa käsittelevän elimen, vastaavanlaisia hankkeita on myös esimerkiksi Australiassa ja Kanadassa. Joissakin hankkeissa mietitään muun muassa sitä, mikä aineisto on säilyttämisen arvoista. Etukäteisvalikointiin perustuva tallennustapa syö kuitenkin huomattavan paljon ihmisresursseja .

Toinen mahdollisuus on tallentaa "kaikki" Internetissä oleva aineisto. Tätä vaihtoehtoa pidettiin aluksi mahdottomana mutta massamuistien jatkuvasti laskevat hinnat ja koneiden nopeutuminen on poistanut monia esteitä. Ensimmäisenä tämän suuruudenhullulta tuntuvan ajatuksen toteutti Brewster Kahlo joka vuonna 1996 aloitti Internetin tallentamisen Internet Archive-projektissaan .

Kahlen hanke on tyypilliseen amerikkalaiseen tapaan sekoitus bussinestä ja idealismia. Kahle on Thinking Machinesin, WAIS:n (Wide Area Information Server) ja Alexa Internetin luoja. (Thinking Machinen hän myi Oraclelle, WAISI:n AOL:lle ja Alexa Internetin Amazon comille). Internet Archive-projekti toimii läheisessä yhteistyössä kaupallisen Alexa-Internetin kanssa, joka puolestaan lahjoittaa aineistoja arkiston käyttöön. Arkistoon tulevat pääsemään käsiksi veloituksetta muun muassa historiantutkijat.

Internet-arkiston ensimmäinen "kattava" koko maailman kaikkien Internet-sivustojen kokoelma sisältää Internetin vuodesta 1996 lähtien. Tämän aineiston kooksi ilmoitettiin 33,5 terabittiä (maaliskuussa 2000) ja arkisto kasvaa 10%:n vauhdilla joka kuukausi. Vertailun vuoksi: maailman suurin kirjasto, Yhdysvaltojen kongressin kirjasto sisältää noin 20 miljoonaa kirjaa ja on kooltaan bitteinä, ilman kuvia, noin 20 terabittiä. Internet-arkisto on tallentanut tavallisten WWW-sivujen lisäksi myös FTP-arkistoja ja Usnet-uutisryhmien keskustelut.

Ruotsalainen "Kulturarw3-projekti" on myös valinnut "kaikki talteen" vaihtoehdon koska se on kattavampi, taloudellisempi ja helpommin hallittavissa oleva menetelmä. Menetelmän avulla otetaan "tuokiokuvia" eräänlaisia "snapshotteja" kaikesta verkossa olevasta aineistosta tiettynä aikana. Tallentamisen hoitaa sitä varten kehitetty ohjelmisto, Combine Keräys tapahtuu automaattisesti hakurobotin avulla, joka etsii ja tallentaa sivustoja. Aineisto tallennetaan suuriin massamuisteihin joista se on sitten myöhemmin saatavilla. Ei tietenkään ole ollenkaan selvää, että tälläkään menetelmällä saataisiin talteen läheskään kaikkea sillä hakurobotit eivät ylety kovin "syvälle" verkkoon, esimerkiksi salasanojen taakse suojattuihin arkistoihin ne eivät pääse käsiksi. Melko suuren aineistomäärän ne kyllä tavoittavat, varsinkin jos haku tehdään alueellisesti rajattuna.

Ruotsalainen verkkoaineisto on koottu yhteen nyt jo useita kertoja. Ruotsin kansalliskirjasto Kungliga Bibliotek jatkaa näin vuodesta 1661 jatkunutta käytäntöä, jossa periaatteessa kaikki julkaistu aineisto on saatavilla ja ulottaa sen nyt koskemaan myös Internetissä julkaistua aineistoa. Suomessa tällainen tallennus on tehty ensimmäisen kerran syksyllä 1998, jolloin CSC- Tieteellinen laskenta Oy keräsi ja tallensi kaikki suomalaiset verkkosivut myöhemmin käytettäväksi. Datan kokonaismäärä oli yllättävästi vain 60 gigatavua, mikä on Helsingin yliopiston kirjaston asiantuntijan Juha Hakalan mukaan selvästi vähemmän kuin esimerkiksi Linnea-tietokannoissa olevan bibliografisen datan määrä, kun taas pelkästään sanomalehtiartikkeleiden tekstit veisivät hänen mukaansa noin 250 gigatavua vuosittain. (Juha Hakala: Suomalainen Internet arkistoon Tietolinja 3/1999) Toinen kattava suomalaisen aineiston "haravointi" ollaan tekemässä syksyllä 2000.

Tämän "kaikki talteen" keruutavan ongelma on siinä, että nopeasti muuttuvaa aineistoa ei saada talteen kattavasti. Esimerkiksi erilaisten verkossa olevien uutispalvelujen tai verkkosanomalehtien aineisto ei välttämättä tule kokonaisuudessaan tallennetuksi.

Internet-arkiston avulla on mahdollista surffata verkossa paitsi "tilassa" myös "ajassa" kun on mahdollista seurata sivustojen kehitystä eri aikoina. Ruotsalaisessa arkistossa on tarkoitus saattaa julkisuuteen dokumentteja tietyn karenssiajan jälkeen, jolloin arkistosta todellakin olisi saatavailla vain hiukan vanhempaa aineistoa, jota voidaan etsiä samalla tavoin kuin "elävästä" verkosta hakukoneen avulla. Tämä viive on järjestetty siksi, että halutaan estää sivujen tukkeutuminen tuoreilta hakukyselyiltä.

Tällä hetkellä ruotsalaisessa kokoelmassa on nähtävillä kolme kokoelmaa viidestä keräyksestä: kevät 1997, joka sisältää ruotsalaisen, eli .se domainien alla olevan verkkoaineiston, noin 6 miljoonaa dokumenttia (140 gigabittiä). Talvi 1998-1999 sisältää 15 miljoonaa dokumenttia (240 gigabittiä)

Tulevaisuus siis näyttää lupaavalta Internet-aineistojen käytön suhteen. Ihan vielä ei kuitenkaan kannata nuolaista sillä itse aineistojen äärelle ei niin vain vielä pääse, joka johtuu paitsi tekniikan monimutkaisuudesta, myös lainsäädännön kehittymättömyydestä. Ruotsin kokoelmaa ei ole vielä avattu asiakaskäyttöön koska Ruotsin nykyinen vapaakappalelaki ei anna tähän mahdollisuutta. Sitä voi tosin selata tietyistä Ruotsissa olevista domain alueista käsin. Kahlen Internet-arkisto puolestaan on taltioitu Unix-muodossa ja vaatii ensin hakemuksen, jonka jälkeen saa salasanan tietokantaan, sen jälkeen aineistoa voi käyttää SSH-yhteyden kautta, mikäli osaa Unix-komentoja.

Suomessa kuten muuallakin verkon aineiston tallentaminen liittyy alan lainsäädäntöön ja sen uudistamiseen hyvin kiinteästi. Tällä hetkellä kirjastot keräävät kaikista painotuotteista vapaakappalelain perusteella kokoelmia ja uuden lakiesityksen mukaan tuohon vapaakappalelakiin lisättäisiin myös sähköiset julkaisut. Arkistointia pidetään yleisesti hyvänä ajatuksena. Hakalan mukaan siihen suhtautuvat negatiivisesti vain tekijänoikeusjärjestöt. Ne eivät ole täysin ymmärtäneet esimerkiksi sitä että arkisto on erinomainen väline tekijänoikeusrikkomusten todentamiseen.

Verkkoa haravoiva ohjelma ei toistaiseksi tee muuta kuin kerää aineiston talteen. Nordunet2-projekti myönsi hiljattain 1.4 miljoonaa Tanskan kruunua pohjoismaisten kansalliskirjastojen yhteiselle hankkeelle, joka kehittää verkkoarkistojen päälle hakujärjestelmän. Projektin budjetti on kaikkiaan 2 miljoonaa kruunua, eli kyse on suuresta hankkeesta. Projektin tarkoituksena on käyttää tavallista hakukonetta ja muokata siitä verkkoarkistolle sopiva. Ohjelman pitäisi osata indeksoida myös haravan luoma metadata, eli arkiston sisäinen ID sekä keruuajankohdan aikaleima.

Uuden lakiesityksen tavoitteena on turvata kansallisen henkisen perinnön säilyminen mahdollisimman kattavasti. Tämä edellyttää digitaalisen median aikakaudella sitä, että esimerkiksi myös CD ja DVD-levyt tai verkkosivustot arkistoitaisiin. Tulevaisuudessa aineiston saatavuus ilmeisesti järjestetään siten, että viitetiedot ovat vapaasti saatavilla mutta itse dokumentteihin pääsee ainoastaan vapaakappalekirjastojen kautta.


Tapio Onnela

Sisällysluettelo 2/00
Agricolan Tietosanomien pääsivulle

Agricolaverkon vintti