Tekstinlouhinnasta historiallisessa sanomalehtiaineistossa

Kotisivu · 05.03.15 09:49

Kansalliskirjaston uutiskirjeessä 1/2015 kerrotaan tekstinlouhinnasta historiallisessa sanomalehtiaineistossa:

Tekstinlouhinnan mahdollisuudet Digin historiallisessa sanomalehtiaineistossa

Vuoden 2014 alusta saakka Mikkelissä Kansalliskirjaston digitointi- ja konservointikeskuksessa käynnissä ollut Euroopan aluekehitysrahaston (EAKR) rahoittama DIGRA-projekti (Digitaalisesta raakadatasta aineistoksi) on tutkinut Kansalliskirjaston historiallista sanomalehtiaineistoa Helsingin yliopiston humanistisen tiedekunnan digitaalisten aineistojen professorin johdolla. Aineisto sisältää Suomessa ilmestyneet sanomalehdet vuosilta 1771–1910. Aineistoa on vapaassa käytössä noin 1,95 miljoonaa sivua. Vuodesta 1911 eteenpäin oleva aineisto on rajatussa käytössä, ja sitä on noin 1,3 miljoonaa sivua.

Aineiston jalostaminen

Projektissa on saatettu alkuun aineiston käyttö tekstinlouhinnassa. Tekstinlouhinnassa pyritään saamaan laajoista tekstiaineistoista esiin niiden sisältämää informaatiota. Apuna käytetään yleensä tilastollisia ohjelmia, jotka etsivät tekstimassoista toistuvia hahmoja tai malleja. Esimerkkejä tekstinlouhinnasta ovat tekstin eristäminen ja luokittelu, tekstien klusterointi, käsitteiden tai nimien eristäminen tekstistä, dokumenttien tiivistelmien tuottaminen jne. Viime kädessä tekstinlouhinnassa on kyse aineiston jalostamisesta ja helpommasta pääsystä käsiksi aineistoon.

Sanomalehtiaineisto on nykymuodossaan digitoituna sivuittain. Se merkitsee sitä, että kaikki aineistoon tehtävä haut tuottavat tulokseksi sivun tai sivut, joissa hakusana esiintyy. Käyttäjän kannalta tämä ei ole ehkä helpoin tapa lähestyä aineistoa – hakusanan korostetut osumat joutuu etsimään lehden sivulta, kun sen avaa hakutuloksista. Käyttäjä ei myöskään kykene kohdistamaan hakuja lehden erilaisiin osiin, esimerkiksi uutisartikkeleihin tai ilmoituksiin.

Nimiä haetaan eniten: ihmiset ja paikat kiinnekohtina

Digra-projektissa on pilotoitu artikkelien automaattista eristämistä sanomalehtiaineistosta. Tehtävä tunnetaan yleisesti englanninkielisellä lyhenteellä NER, named entity recognition. Nimien eristämistä aineistoista ei ole toistaiseksi kokeiltu, mutta verkkoaineiston käyttäjälokeja tutkimalla on todettu, että tuhannesta yleisimmästä hakusanasta 80 prosenttia on nimiä: 30 prosenttia etunimiä, 30 prosenttia sukunimiä ja 20 prosenttia paikannimiä. Tämä kertoo selkeästi sen, että ihmiset ja paikat toimivat hyvin usein kiinnekohtina, joiden kautta käyttäjät lähestyvät aineistoja. Nimien eristäminen teksteistä tarjoaisi uusia mahdollisuuksia luoda aineistoon erilaisia hakemistoja sekä linkittää eri aineistoja toisiinsa nimien kautta.

Sekä artikkelien että nimien eristäminen aineistoista ovat tehtävälistalla Digra-projektin mahdollisessa jatkoprojektissa Tiikerissä, jolle on haettu rahoitusta.

* Tekstinlouhinnan mahdollisuudet Digin historiallisessa sanomalehtiaineistossa

* Lähde: Kansalliskirjaston uutiskirje 1/2015