Digitoinnit

Tanskan kansallisarkisto opettaa konetta lukemaan käsin kirjoitettua tekstiä

Kuva: Wikimedia Commons.

Tanskan kansallisarkisto on yhdessä Kööpenhaminan yliopiston kanssa luonut harjoitustietokannan, jonka avulla opetetaan konetta lukemaan käsin kirjoitettuja päivämääriä ja numeroita. Tietokanta koostuu tanskalaisista kirkonkirjoista.

Tanskan kansallisarkisto johtaa projektia, jonka tarkoitus on kartoittaa Tanskassa syntyneiden ihmisten perhesuhteita 1920-luvulta nykypäivään. Projektin myötä luodaan rekisteri tanskalaisten perhesuhteista. Yhdessä tanskalaisten terveystietojen kanssa rekisterin avulla voidaan saada lisää ymmärrystä esimerkiksi perinnöllisistä sairauksista.

Rekisteri muodostuu käsin kirjoitettujen kirkonkirjojen perhetiedoista, mutta rekisterin muodostaminen vaatii kirkonkirjojen digitalisointia. Manuaalisesti tietojen syöttäminen rekisteriin olisi liian hidasta.

Projektin tarkoitus on kehittää algoritmeja, jotka voivat transkriptoida kirkonkirjat automaattisesti. Tätä varten on nyt muodostettu harjoitustietokanta, jonka avulla konetta opetetaan lukemaan käsin kirjoitettuja kirkonkirjoja. Harjoitustietokantaan on koottu kirkonkirjoja vuosilta 1920-1960, eri puolilta Tanskaa.

Aineiston avulla voidaan kouluttaa myös kaikenlaisia koneoppimismalleja, joiden tarkoitus on lukea käsinkirjoitettuja numeroita ja päivämääriä. Koska projektin aineistossa kuukaudet on kirjoitettu tanskaksi, voidaan aineiston avulla kouluttaa konetta lukemaan myös muita tanskan kaltaisia kieliä, kuten norjaa ja ruotsia.

Projektin aineiston käyttöä on dokumentoitu Springer -lehdessä julkaistussa artikkelissa Date Recognition in Historical Parish Records. Projektin aineisto vapaasti selattavissa GitHubissa.

 

Lähde: Nyt datasæt skal lære maskiner at læse håndskrift

Kommentoi

Vain omalla nimellä kirjoitetut kommentit julkaistaan. Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *