haku Agricola - Suomen historiaverkko kartta
uutta hakemisto


Digitaaliset lähteet ja historiantutkimus
AGRICOLA


[Mikä on digitaalinen lähde?] [Metadata, tieto ja infosaaste] [Uskottavuus, lopullisuus, luotettavuus]

Digitaalisista tietovarannoista ja dokumenteista on tullut yhä tärkeämpiä myös historiantutkimukselle ja niiden merkitys tulee kasvamaan tulevaisuudessa entisestään. Vaikka tiedonkäsittelyssä, siirrossa ja tallentamisessa käytettävät uudet mediat tuovat uudenlaisia ongelmia ja haasteita tutkimukselle, lähteiden lukemisen (lähdekritiikin ) tai lähdetekniikan kannalta kyse ei loppujen lopuksi ole kovin suuresta muutoksesta.

‘Digitaalinen’-termi pohjautuu latinankielen digitalis-sanaan. Se viittasi aluksi sormiin, myöhemmin sormin laskemiseen ja numeroihin. Elektronisiin tietokoneisiin digitaalisuus on kytkeytynyt 1940-50-luvuilta lähtien ja yhä voimakkaammin parin viime vuosikymmenen aikana. Digitaalisuus viittaakin ainakin suppeasti ja teknisesti tulkittuna sähköiseen, pitkälti "aineettomaan" tiedon käsittelyyn, siirtämiseen ja tallentamiseen "nollina ja ykkösinä", binäärimuodossa. Digitaalinen tiedon tai informaation esitystapa on seurausta pitkästä monisyisestä kehityksestä. Samaten digitaalisuuden vaikutukset ja mahdollisuudet ovat moninaiset, ja niitä on ruodittu monissa yhteyksissä laajasti.

Emme tässä yhteydessä syvenny ’digitaalisuuden’ olemuksen tai luonteen määrittelyyn vaan keskitymme siihen, millaisia haasteita digitaalinen lähdeaineisto asettaa historiantutkimukselle. Syvennymme tässä erityisesti Internet-verkosta löytyvään aineistoon. (digitaalisuudesta lisää ks. esim. Aki Järvinen ja Ilkka Mäyrä (toim.) Johdatus digitaaliseen kulttuuriin. Vastapaino 1999; Ks. myös Raine Koskimaa: "Digitaalinen kulttuuri. Esitelmä Radio Aurorassa 12.9.2001. http://www.utu.fi/hum/satakunta/digi/esitelmat/digiesitelma01_2001.html ja Tapio Onnela: "Historiantutkimus Internetin ja digitaalisen kumouksen aikakaudella." Teoksessa Kulttuurihistoria. Johdatus tutkimukseen. Toim. Kari Immonen ja Maarit Leskelä-Kärki. SKS 2001. )

Mikä on digitaalinen lähde?

Tieteellisessä tutkimuksessa - myös historiantutkimuksessa - lähteillä tarkoitetaan kaikkea materiaalia ja "johtolankoja", joiden perusteella tutkija muovaa oman tulkintansa tutkimuskohteesta. Historiantutkimuksessa on perinteisesti puhuttu primäärilähteistä ja sekundäärilähteistä. Primäärilähteillä on tarkoitettu erityisesti kirjallisessa muodossa olevia lähteitä, menneisyydessä tuotettuja alkuperäisasiakirjoja, kirjeitä, dokumentteja ja aikalaiskuvauksia. Sekundäärilähteet ovat kuvauksia ja tulkintoja primaarilähteistä, esimerkiksi tutkielmia ja tutkimuksia, joita käytetään myöhemmän tutkimuksen pohjana. Tämä jaottelu, johon on sisältynyt ajatus varman tai oikean tiedon tavoittelusta, on useaan otteeseen todettu kestämättömäksi, vaikka jaottelu sinänsä voi olla lähteiden luokittelun kannalta käyttökelpoinen. Historiantutkija voikin käyttää tutkimuksissaan lähes mitä tahansa lähteistöjä tai aineistoja, jotka hän katsoo oman tutkimuksensa kannalta hedelmällisiksi ja relevanteiksi. (Katso esim. Jorma Kalela: Historiantutkimus ja historia, Gaudeamus 2000, erityisesti luku 4.) Lähteiden muoto voikin olla yhtä lailla digitaalinen tai tutkimus voi kohdistua yhtä hyvin digitaalisen kulttuurin historian eri osa-alueisiin. Lähteiden valinta ei toki ole mielivaltaista.

Digitaalisilla lähteillä tarkoitamme digitaalisessa muodossa olevia jäänteitä ja johtolankoja, joiden pohjalta tutkija tekee työtään, tai hermeneuttisesti ilmaistuna: tutkija käy dialogia lähteiden ja kohteensa kanssa. Tällaisia digitaalisia lähteitä ovat esimerkiksi cd-rom- ja dvd-levyjen (vuorovaikutteiset) sisällöt, Internetin moninaiset teksti-, kyberteksti-, kuva-, video-, ääni-, jne. aineistot, hypermedia, tietokonepelit ja videopelit. Digitaalisuuden rajojen tarkka määrittäminen on mahdotonta, ja mukaan voidaan liittää vielä digitaaliset esineet artefakteina, sillä tutkimushan voi kohdistua vaikkapa tietokonelaitteiden tai kännyköiden muotoiluun. Tässä kirjoituksessa pohdimme kuitenkin lähinnä digitaalisia "sisältöjä" ja sen luokittelua.

Voi olla, että puhe digitaalisista lähteistä on tyypillinen murroskauden tuote, joka alleviivaa tietyn teknisen tiedon esittämistavan erityisluonnetta turhankin voimakkaasti. Harvemmin kuulee puhuttavan esimerkiksi puupaperi-lähteistä, aakkosellisista tai analogisista lähteistä. Samaten puhe digitaalisesta kulttuurista voi osoittautua ohimeneväksi. Emmehän juuri koskaan puhu "analogisesta kulttuurista" tai vaikkapa sähköradioista, kuten Raine Koskimaa on huomauttanut. Voi kuitenkin olla hyvä, että digitaalisuus nostetaan pöydälle, jotta uuden tiedon esittämistavan moninaiset uudenlaiset haasteet, ongelmat ja niiden ratkaisut nousevat esiin. Tämä on tärkeää siksi, että historiantutkimuksessa käytettiin pitkään hyvin suppeaa osaa kaikista mahdollisista menneisyyden johtolangoista, eli lähinnä viranomaisten tuottamaa kirjallista arkistoaineistoa, jota vakiintuneet ja viralliset laitokset, esimerkiksi kirjastot ja arkistot ovat säilyttäneet vuosisadasta toiseen. Aikaisemmin katsottiin, että vain tämän aineiston pohjalta oli luotavissa oikeaa ja luotettavaa tietoa menneisyydestä. Tutkimuskohteet ja -ongelmat olivat sen mukaisia. Kiinnostus oli kohdistunut lähinnä poliittisen ja taloudellisen eliitin päätöksentekoon ja vuorovaikutukseen.

Epäluulot

Tämä lienee yksi syy siihen, että varsinkin vielä 1990-luvun puolivälissä digitaalisessa muodossa olevaa lähdeaineistoa, lähinnä Internetistä löytyvää materiaalia kohtaan tunnettiin epäluuloja. Epäiltiin, säilyvätkö digitaaliset lähteet yhdessä paikassa tai säilyvätkö ne ylipäätään. Voiko helposti muokattavien lähteiden autenttisuuteen luottaa? Voiko tekijän auktoriteettiin nojata, kun Internetissä "kuka tahansa" voi esiintyä minä tahansa tai julkaista mitä tahansa? Kysymykset kytkeytyivät digitaalisen viestinnän ja Internetin pelkoihin ja uhkakuviin yleensä. Internet oli uutena ja murroksellisena markkinoitu teknologinen verkosto, joka alkoi nivoutua yhä useammille elämän alueilla muuttaen totuttuja käytäntöjä. Digitaalisuuden kesyyntyessä tunnustetuksi osaksi elämää ja kulttuuria ainakin osa epäluuloista on hälvennyt ja 2000-luvun alussa useimmat "vakiintuneet instituutiot" ovat mukana digitoimassa kokoelmiaan ja julkaisemassa materiaaliaan Internetin välityksellä.

Kynnystä digitaalisuuteen ja uusiin lähteisiin on madaltanut niin ikään historiantutkimuksen näkökulma, jota on kutsuttu "uudeksi historiaksi" tai "uudeksi kulttuurihistoriaksi", vaikkei se varsinaisesti enää niin uutta olekaan. Uusi tutkimusnäkökulma johti siihen, että käyttöön otettiin yhä enemmän myös muita kuin virallisen hallinnon tuottamia aineistoja. Menneisyyttä on arvioitu uudelleen, uudenlaisten - ei välttämättä ajallisesti uusien - lähteiden, kuten vaikkapa kuvien, elokuvien, kaunokirjallisuuden tai muistitiedon kautta. Tästä syystä "digitaalisuus" ei ole tuntunut lopultakaan niin vieraalta tai poissuljettavalta ilmiöltä.

Digitaalisen muodon käyttö ei siis ilmiönä ole kovin erikoinen. Digitaalinen muoto ja digitaalinen julkaisu aiheuttavat kuitenkin haasteita lähteiden olemuksen ja tarkoituksen arviointiin. Sähköisten lähteiden perusongelmia ovat sen autenttisuuden eli aitouden ja alkuperäisyyden todentamisen lisäksi myös se, miten voidaan luotettavasti päätellä, onko kyseinen lähde asiakirja luonnos vai lopullinen versio. Onko kyse julkaistavaksi tarkoitetusta pitkälle mietitystä ja käsitellystä versiosta vai tarkemman ajattelun pohjaksi tarkoitettu välitulos. Nämä ongelmat toki esiintyvät kaikessa lähdeaineistossa.

Metadata, tieto ja infosaaste

Varmemman autenttisuuden kannalta kelvollinen digitaalinen dokumentti on kokonaisuus, jossa on myös kuvattu, mitä asiakirja pitää sisällään ja missä olosuhteissa se on luotu. Se sisältää ns. "metadataa", eli tietoa tiedosta. Yksittäisen paperisenkin asiakirjan lähdearvo riippuu ratkaisevasti siitä, että se osataan sijoittaa aikaan, paikkaan ja kokonaisuuteen, jossa se on syntynyt. Sähköisessä muodossa oleva asiakirja herättää helpommin epäilyjä autenttisuudesta. Elektroninen muoto ei nauti samanlaista luottamusta kuin paperi- tai pergamenttialustalla oleva asiakirja, joka on konkreettisesti nähtävissä, käsin kosketeltavissa oleva ja säilyvä. Sähköisen dokumentin muokkaaminen digitaalisesti on helppoa, eikä muokkauksesta jää yleensä jälkiä, kuten analogiseen dokumenttiin.

Metatietoa, eli tietoa tiedosta, voidaan tuottaa joko käsityönä tai koneellisesti. Koneellinen metatieto tarkoittaa käytännössä, että hakuohjelma indeksoi, luokittelee verkossa olevasta tekstimassasta sanoja ja painottaa niitä sitten jonkin oman logiikkansa mukaan, vaikkapa sen mukaan miten paljon kyseiseen tiedostoon on tehty muualta Internetistä viittauksia. Käsin tehty metadata on ihmisen arvioimaa tietoa, joka on koottu omaksi dokumentikseen ja liitetty sitten alkuperäisdokumentin yhteyteen.

Metadataa on erilaisia formaatteja, joista yksinkertaisimpia ovat yleisten hakukoneiden, kuten Googlen käyttämä koneellinen indeksointi. Ihmisen tekemä, rakenteistettu metadata on sellaista, jossa kuvailun pohjana on jokin malli tai muotti, joka jaottelee kuvailun kenttiin. Esimerkiksi kirjastoluettelo, joka kuvailee kirjaa tekijän, painovuoden, kustantajan tai sivumäärän mukaan on rakenteistettua metadataa. Tästä voidaan edetä monimutkaisempiin monikymmensivuisiin kuvailuihin. Aikaisemmat kuvailumuodot luotiin pitkälti kirjastoja ja muita ammattilaisia varten ja ne olivat hyvin monimutkaisia ja paljon aikaa vieviä järjestelmiä. Kirjastoalalla tunnetuin formaatti on MARC, eli "Machine Readable Cataloquing". Tämä Yhdysvalloissa kehitetty malli otettiin varsin varhain käyttöön Suomessa ja se mahdollisti mm. USA:n kongressin kirjastossa tallennetun kirjan tietojen kopioimisen suoraan suomalaiseen järjestelmään.

Internetin tulon myötä nousi nopeasti esiin tarve hallita verkon erittäin sekavaa, monenkirjavaa ja nopeasti paisuvaa aineistoa. Tätä tarkoitusta varten kehitettiin kansainvälinen ns. "Dublin Core ", metadata-malli, jossa on 15 täytettävää kenttää (sitä voidaan vielä täydentää 70:llä tarkennetulla kentällä). Tästä mallista näyttää tulevan pohja Internetin metadatan hallintaan . Dublin Core -tallennusalustaa voi tarkastella Helsingin yliopiston kirjaston sivulla ja sen avulla saa tehtyä kohtuullisen helposti itselleen omiin verkkojulkaisuihinsa metadataa.

Uusi tulokas metadatan luomisessa ovat URN-tunnukset (Uniform Resource Names) ne mahdollistavat Internet-julkaisujen identifoinnin. URN-tunnukset ovat pysyviä ja uniikkeja: dokumentille annettu URN ei koskaan muutu, eikä "käytettyä" URN-tunnusta anneta jollekin toiselle julkaisulle. Koska URN on pysyvä, dokumentin siirtyminen osoitteesta toiseen ei estä sen löytämistä. URN-tunnukset korvaavat vähitellen URL-tunnukset Internet-julkaisujen paikallistamisessa. Tulevaisuudessa URL:n asemesta voit klikata URN-tunnusta tai antaa sen osoite-tiedoksi. Vanhoihin, vielä käytössä oleviin URL-tunnuksiin verrattuna oleellinen ero on, että dokumentti löytyy verkosta vaikka sen sijainti olisi muuttunut. Jos suomalainen dokumentti on jo ehtinyt kadota Internetistä, sen voi tulevaisuudessa löytää URN-tunnuksen avulla Helsingin yliopiston kirjaston ylläpitämästä verkkojulkaisujen arkistosta, joka sisältää jo nyt noin 1.5 miljoonaa dokumenttia. (verkkoarkistoista katso: Tapio Onnela: Internetarkistot tulevat ja tallentavat kaiken Agricolan Tietosanomat 2/2000) URN-tunnuksista katso lisää Juha Hakalan laatimasta URN-oppaasta., sekä laajemmin problematiikasta Juha Hakala: Elektronisten julkaisujen identifiointi .

Helsingin yliopiston sivuilla toimiva metadatan "pulautin" toimii siten, että tuolla kyseisellä sivulla olevat kentät täytetään, valitaan tallennusmuoto, (esim html) ja painetaan "Palauta Dublin Core metadata" nappulaa, jonka jälkeen sivu on koodannut tekstille automaattisesti html-tiedostoon liitettävissä olevan pätkän metadataa, joka on helpommin hakurobotin kerättävissä ja indeksoitavissa. Voit tarkastella tämän dokumentin metadataa valisemalla selaimesi "View" valikosta kohdan "Source" niin näet dokumentin koodatussa muodossa. Metatietojen liittäminen kaikkeen verkossa julkaistavaan aineistoon helpottaa tiedon etsimistä ja jäsentelyä.

Jakautuvatko Internet-aineistot tulevaisuudessa yhtäältä luokiteltuun ja hallittuun, luotettavaa metadataa sisältävään aineistoon, "Tietoon" sekä toisaalta kaaosmaiseen, epäluotettavaan "infosaasteeseen"? Tämä jakautuminen vaikuttaa todennäköiseltä, sillä harva jaksaa kiinnittää huomiota kelvollisen metadatan laatimiseen Internet-dokumentilleen. Vaikka metadatan laatiminen on pyritty tekemään mahdollisimman helpoksi siihen kuluu kuitenkin jonkin verran aikaa. Erilaisten luokitusten ja tunnusten viidakossa jonkin aikaa ihmeteltyään, tavallinen verkossa julkaisija varmaankin jättää metadatan laatimisen helposti silleen.

Uskottavuus, lopullisuus, luotettavuus

Palataan vielä paperidokumentteihin. Mihin analogisen dokumentin uskottavuus oikeastaan perustuu? Sen totuusarvo lepää vuosisatojen aikana kehittyneen järjestelmän päällä. Järjestelmän, joka perustuu luottamukseen. Tuossa järjestelmässä kirjaston tai arkiston virkailija tuottaa tietoa dokumentista muun muassa näiden instituutioiden ylläpitämiin luetteloihin.

Käsinkirjoitettu tai painettu dokumentti herättää samoja kysymyksiä kuin digitaalinen dokumentti, vaikka digitaalisella dokumentilla ei ole sellaisia fyysisiä ominaisuuksia, joiden avulla siitä voitaisiin tehdä päätelmiä: onko kirjoittajaksi väitetty henkilö kirjoittanut dokumentin? Onko kirjoitus hänen käsialaansa? Onko paperissa vesileima ja voiko se olla peräisin väitetyltä ajalta? Onko käsikirjoituksesta olemassa muita kopioita? Onko dokumentin laatija tai joku muu aikalainen allekirjoittanut sen? Kuka on kuvaillut dokumentit? Onko jokin kolmas luotettava osapuoli tunnistanut sen? Entä onko kirja autenttinen? Kuka sen on julkaissut ja voiko julkaisijoihin luottaa?

Luotamme helposti enemmän painettuun dokumenttiin tai kirjaan kuin käsin kirjoitettuun dokumenttiin. Syyt luottamukseen ovat - jälleen todeten - historiallisesti ja kulttuurisesti rakentuneita. Kirjan on yleensä pitänyt käydä läpi tietty institutionaalinen prosessi, kustantajien ja toimittajien käsittely muun muassa, ennen kuin opus on julkaistu. Viime kädessä on kysymyksessä luottamus, jota tunnemme arkistovirkailijoita, vertaisarvioijia, kirjastojen henkilökuntaa tai kustantajien laaduntarkkailujärjestelmää kohtaan. Sähköisen (digitaalisen) asiakirjan tai kirjan luotettavuus voidaan varmistaa samankaltaisella järjestelmällä, kun tiedot lisätään elektronisen dokumentin yhteyteen. Tämä varmistaminen ja järjestelmällisyys voi tosin merkitä liiallistakin kontrollia ja kesyttämistä, joka menee hieman sivuun Internetin perustavanlaatuisesta anarkistisesta tai vapaasta luonteesta.

Miten Internetistä haetun tiedon luotettavuutta voisi parhaiten arvioida? Mitään yksiselitteistä ohjetta ei voida antaa, sillä kuten kaikkien lähteiden, myös elektronisen lähteen arvo riippuu siitä, mihin tarkoitukseen tutkija sitä tarvitsee. Vakiintuneiden instituutioiden kuten arkistojen, kirjastojen tai museoiden ylläpitämät digitaaliset kokoelmat ovat tietysti "luotettavampia" kuin vaikkapa yksityisten asianharrastajien lähdekokoelmat. Ensin mainituissa julkaisujen kontrolli on julkinen ja lähteiden käsittelyssä on pitkät perinteet. Lähteitä ovat muokanneet tehtävään koulutetut ammattilaiset. Julkisen kontrollin alaiset lähteet ovat tosin luotettavampia vain tietyin reunaehdoin! Pitää muistaa, että ainakin tietyissä historiallisissa tilanteissa vakiintuneiden instituutioiden rooli tietojen käsittelyssä, tallentamisessa ja käytössä on ollut kyseenalaista. Tuskinpa luotamme esimerkiksi siihen, että natsi-Saksan aikana kerätyt arkistot olisivat aukottomia, puolueettomia tai väärentämättömiä. Ja onhan monesti esitetty sellainen väite, että Internet-verkko mahdollistaa "oikean tiedon" epävirallisen välittämisen tilanteissa, joissa vaikkapa valtiovalta kontrolloi lähes kaikkea tiedotustoimintaa. Internet-verkko on auttanut muun muassa valtiovallan ohi tapahtuvassa tiedonvälityksessä viimeaikaisissa sodissa ja kriisitilanteissa.

Täytyy muistaa myös se, että kysymys luotettavuudesta on monissa tutkimuksissa toisarvoista. Historioitsija ei enää nykyään aina ollenkaan kuvittele löytävänsä yhtä totuutta tai ainoaa oikeaa tulkintaa, menneisyyden todellisuutta, lähteidensä avulla. Tutkijan tulee kuitenkin varmistua siitä, että lähde on se, joksi se itseään väittää. Kun kyseessä on analogisesta digitaaliseen muotoon muutettu dokumentti, tulee ottaa huomioon sekin mahdollisuus, että digitointivaiheessa on saattanut tapahtua jotain, joka on muuttanut lähteen informaatiosisältöä. Kun dokumentti on saatavilla luotettavasta julkisesta lähteestä, ei kenties kuitenkaan kannata kiinnittää pääasiallista huomiota pohdintaan, onko dokumentti fyysisesti aito vai muokattu.

Digitaalisten lähteiden käytössä on monia ongelmia, mutta suurin osa niistä ratkeaa tutulla lähdekriittisellä asenteella. Tai parempi olisi puhua lähteiden lukemisesta tai erittelystä, kuten Jorma Kalela on todennut teoksessaan Historiantutkimus ja historia (Kalela 2000, 91). Tällöin lähdetyöskentelyyn ei liity samanlaisia arvotuksia kuin aiemmin. Näkökulma ei olennaisesti poikkea suhtautumisesta "analogisiin", esimerkiksi paperille painettuihin lähteisiin. Eräs vaikea asia liittyy iät ja ajat arkistolaitoksissa noudatettuun provenienssiperiaatteeseen. Sen mukaan asiakirjat kuuluvat sen yhteisön tai henkilön arkistoon, jonka haltuun dokumentit ovat asian käsittelyn yhteydessä päätyneet. Historiantutkijan kannalta onkin usein ensiarvoisen tärkeää tietää, missä yhteydessä lähde on syntynyt ja mihin kokonaisuuteen se liittyy. Siksi "virallisiin" digitaalisiin lähteisiin on hyvä liittää edellä mainittua rakenteistettua metatietoa eli tietoa tiedosta, jotta lähde soveltuisi paremmin tutkijan käyttöön.

Tapio Onnela ja Jaakko Suominen
Kirjoitus perustuu Historia nyt -konferenssissa Turussa 13.9.2001 pidettyyn esitelmään

Agricolan Tietosanomien pääsivulle
Lehden arkisto
Lehden toimituskunta
Kaikkien numeroidensisällysluettelot yhtenä tiedostona


Agricolaverkon vintti