Vaikka verkkobisneksen ja uusmedia-alan kovasti mainostetulla "sisällöntuotannolla"
ei nykymuodossaan näytä olevan paljonkaan yhteistä humanismin kanssa,
kaiken kaupallisen turhuuden varjossa on edelleen työn
alla sellaisiakin hankkeita, jotka hyödyttävät myös aivan perinteistä humanistista tutkimusta.
Useissa ajankohtaisissa koti- ja ulkomaisissa julkaisuprojekteissa ollaan tuomassa verkon kautta
saataville sekä sanomalehtien että tieteellisten aikakausjulkaisujen vanhoja vuosikertoja taannehtivasti
aina viime vuosisadalta lähtien. Tieteellisiin aikakauslehtiin erikoistunut amerikkalainen
JSTOR on yksi historioitsijan kannalta kiinnostavimmista
julkaisuhankkeista. Nimi JSTOR on lyhennys sanoista journal storage, mikä viittaa
hankkeen taustaan: aikakausjulkaisujen säilyttäminen vaatii kirjastoilta
runsaasti hyllytilaa, ja yksi JSTOR:in
perustamisen taustalla olleista motiiveista oli nimenomaan pyrkimys pienentää
yksittäisten kirjastojen varastointikustannuksia
tarjoamalla vanhat numerot keskitetysti saataville verkon kautta. Lisäksi tavoitteena oli
luoda keskeisistä julkaisuista koottu peruskokoelma, joka olisi tasaveroisesti kaikkien
(amerikkalais)yliopistojen käytettävissä. Hanke pääsi vauhtiin vuonna
1995, ja nyt se on edennyt jo
seuraavaan vaiheeseen, jossa nykyistä kokoelmaa laajennetaan luonnontieteiden suuntaan. Tällä hetkellä JSTOR sisältää yhteensä 117 amerikkalaisen, etupäässä humanistisen ja yhteiskuntatieteellisen
aikakausjulkaisun täydelliset vuosikerrat elektronisessa muodossa. Useissa tapauksissa lehtien
varhaisimmat numerot ovat peräisin 1800-luvun puolelta. Joukkoon mahtuu useita historioitsijan kannalta
keskeisiä julkaisuja, mm. American Historical Review, Journal of Modern
History, Journal of Economic History ja Journal of the History of Ideas, joista on saatavilla
kaikki yli viisi vuotta vanhat numerot. Lehtien uusimpia vuosikertoja palvelusta on turha etsiä,
sillä kyseessä on nimenomaan varasto, johon uudet lehdet siirretään vasta myöhemmin.
Tämä on luonnollisesti myös lehtien kustantajien etujen mukaista. JSTOR:in tekninen toteutus on mielenkiintoinen. Yhdistämällä samaan tietokantaan
sekä kuvatiedoston että tekstintunnistusohjelmalla luodun tekstitiedoston JSTOR ratkaisee
näppärästi kokotekstijulkaisuihin tähän asti liittyneet ongelmat.
Nykyiset OCR-ohjelmat tekevät näet väistämättä ainakin jonkin verran virheitä,
joiden korjaaminen ihmisvoimin olisi erittäin hankalaa ja kallista. JSTOR-projektissa
tekstintunnistuksen tarkkuudeksi on saatu 99.95%, eli OCR-ohjelman läpi ajetussa aineistossa on keskimäärin
yksi virhe 2000 merkkiä kohden. Tämä tarkkuus riittää kyllä hyvin hakuohjelmien tarpeisiin,
mutta prosessin tuloksena syntynyt tekstitiedosto ei kuitenkaan sinällään kelpaa alkuperäisen paperille
painetun julkaisun korvikkeeksi. Tekstitiedostosta poiketen elektroninen faksimile
taas säilyttää muuttumattomana sekä alkuperäisen informaation
että julkaisun ulkoasun,
mutta toisaalta pelkistä kuvatiedostoista ei voi tehdä minkäänlaisia tekstihakuja.
JSTOR yhdistää nämä
kaksi formaattia siten, että hakuohjelmalla on käytössään OCR-ohjelman läpi ajettu
tekstitiedosto, kun taas lukijalle annetaan samat sivut kuvatiedostoina. Näin voidaan
kätevästi hyödyntää kummankin formaatin hyvät puolet. JSTOR:iin tallennetut artikkelit voi halutessaan myös tulostaa,
eli niitä ei ole pakko lukea pelkästään näyttöruudulta. Aineistoa voi käyttää joko
selailemalla lehtien vuosikertoja alkuperäisessä järjestyksessä numero kerrallaan tai sitten
tekemällä aineistosta hakuja, joiden avulla on mahdollista löytää yksittäisiä
artikkeleita tai jopa jonkin erisnimen tai sanan esiintymiä jossakin aineistoon
sisältyvässä lehdessä jonakin tiettynä aikana. Niinpä
palvelusta on jo nyt ollut hyötyä esim. kielentutkijoille. JSTOR:in sisältämästä
aineistosta on voitu tutkia esim. tiettyjen sanojen ja sanontojen esiintymistä eri
ikäisissä teksteissä, ja joissakin tapauksissa aikaisimmat löytyneet esiintymät ovat
olleet vuosikymmeniä aiemmin tunnettuja esiintymiä varhaisempia. Muutenkin jotain
tiettyä aihetta käsittelevät artikkelit löytyvät tietokannasta vaivattomasti, siinä missä
saman materiaalin etsiminen bibliografioiden tai indeksien avulla olisi aiemmin
saattanut viedä päiväkausia. JSTOR:in toiminnan rahoitus perustuu sitä käyttäviltä kirjastoilta ja muilta yhteisöiltä
kerättäviin vuosittaisiin maksuihin, eli se ei ole vapaata verkkoaineistoa. Suomessa se on
kuitenkin Kansallisen elektronisen kirjaston FinELibin
kautta käytettävissä useimmissa suomalaisissa yliopistoissa, ja kuten edellä on toivottavasti
käynyt ilmi, kyseessä on historioitsijankin kannalta erittäin hyödyllinen ja suositeltava palvelu. Suomessa ei ole käytettävissä miljoonien dollarien budjetteja,
mutta mikään ei kuitenkaan estä samanlaisen tekniikan soveltamista
hieman pienemmissä ympyröissä. Itse asiassa Helsingin yliopiston kirjaston Mikkelin
mikrokuvaus- ja konservointilaitoksen Aurora-projektissa on jo parin vuoden ajan kokeiltu
kotimaisen autonomian ajan sanomalehdistön muuntamista elektroniseen muotoon.
Tämä projekti on osa laajempaa pohjoismaista hanketta, jossa pyritään saattamaan verkon
kautta saataville kaikki pohjoismainen ennen vuotta 1850 julkaistu sanomalehtiaineisto.
Suomessa digitoinnin on tämänhetkisten suunnitelmien mukaan tarkoitus edetä aina
vuoteen 1860 saakka. Tulevaisuudessa projektia on luonnollisesti mahdollista jatkaa
pitemmällekin, joskin intoa vähentää toistaiseksi se, että 1800-luvun lopun aineiston kohdalla
alkaa jo tulla vastaan potentiaalisia tekijänoikeusongelmia Mikkelin projektissa alkuperäiset lehdet kuvataan ensin uudestaan mikrofilmille, josta ne sitten
skannataan digitaaliseen muotoon. Aineiston ajaminen tekstintunnistusohjelman läpi vaatii
runsaasti ihmistyötä, sillä ohjelma täytyy opettaa jokaisen lehden kohdalla erikseen tunnistamaan
kaikki siinä käytettyjen kirjaimien eri variaatiot. Vanhojen lehtien epätasainen painojälki ja monissa lehdissä kirjasinlajina
käytetty fraktuura vaikeuttavat prosessia, ja käytännössä samankin lehden kirjaimisto
täytyy opettaa ohjelmalle tietyin väliajoin uudestaan sen takia, että lehden painamisessa käytetyt
kirjasimet ovat vähitellen kuluneet. JSTOR:ista poiketen tämä projekti on yhä kesken, ja sen tuloksia voitaneen odottaa yleisesti
saataville aikaisintaan parin vuoden päästä. Digitoitu aineisto on tarkoitus koota tietokantaan,
joka sitten asetetaan käytettäväksi Internetin kautta. Tietokannan hakuominaisuuksia pyritään
parantamaan myös hyödyntämällä 1800-luvulla koottua sanomalehtien artikkelihakemistoa,
joka sekin skannataan ja ajetaan tekstintunnistusohjelman läpi. Näin siis myös viime vuosisadan
kirjastotätien ja -setien tekemä työ koituisi digitaalisen aikakauden tutkijoiden hyödyksi. Aurora-projektissa keskitytään vanhaan autonomian ajan materiaaliin, mutta Mikkelissä
aloitellaan myös toista digitointi-projektia (Peri+), jossa kokeillaan tieteellisten
aikakausjulkaisujen takautuvaa julkaisemista elektronisessa muodossa. Hanke sai Auroran
tavoin täksi vuodeksi rahoitusta opetusministeriön tietoyhteiskuntamäärärahoista. Alustavien
suunnitelmien mukaan koemateriaalina
on tarkoitus käyttää vuodesta 1903 lähtien ilmestynyttä Historiallista aikakauskirjaa, jonka
vanhoista numeroista ryhdytään siis työstämään elektronista versiota. Samalla täytyy selvittää
myös tieteellisissä aikakauslehdissä julkaistun aineiston taannehtivaan digitointiin
liittyviä tekijänoikeuskysymyksiä. Uudempia tieteellisiä aikakauslehtiä on julkaistu jo aiemmin
Elektra-tietokannassa, joka on
keväästä 2000 lähtien tullut FinELibin kautta aiempaa laajemmin saataville kaikissa suomalaisissa
yliopistoissa. Elektra on myös siirtymässä uudelle palvelimelle, jolloin se
toivottavasti toimii tähänastista juohevammin. Lehtien lisäksi Elektrassa on julkaistu myös
Bibliotheca Historica -sarjassa
ilmestyneet väitöskirjat,
joita on muutamassa vuodessa kertynyt jo kolmisenkymmentä
kappaletta. Elektran julkaisut ovat PDF-muodossa, joten palvelun
hakuominaisuudet eivät ole samaa luokkaa kuin esim. JSTOR:issa, mutta artikkelit
soveltuvat joka tapauksessa hyvin sekä ruudulta luettaviksi että tulostettaviksi. Jyrki Ilva
|