Kolumnit

Miltä Ursula von der Leyenin puhe näyttää etäältä luettuna?

EU:n komission puheenjohtaja Ursula von der Leyen puhui Euroopan parlamentissa 15.9.2021.

EU:n komission puheenjohtaja Ursula von der Leyen piti virkakautensa toisen ”Unionin tila”-puheensa Euroopan parlamentissa. Käsittelen tässä, kuinka tämän tyyppisiä poliittisia tekstejä voidaan purkaa ja analysoida data-analyysin keinoin, ja kaivaa niistä esiin helposti piiloon jääviä, olennaisia seikkoja. Puhe korosti eurooppalaisille arvoille ja demokratialle keskeisten vapauksien suojelun ja turvaamisen tärkeyttä, sekä jatkuvuutta ja jo saavutettujen asioiden puolustamista.

EU:n komission puheenjohtaja Ursula von der Leyen piti virkakautensa toisen ”Unionin tila”-puheensa Euroopan parlamentissa 15. syyskuuta 2021. Unionin tilaa käsittelevä puhe institutionalisoitiin osaksi EU:n komission ja Euroopan parlamentin välistä vuorovaikutusta Lissabonin sopimuksen yhteydessä. Ensimmäisen puheen piti 7. syyskuuta 2010 silloinen komission puheenjohtaja José Manuel Barroso. Vaikka puheen kohdeyleisönä on Euroopan parlamentti, puheen toivotaan myös lisäävän läpinäkyvyyttä ja vahvistavan demokratiaa EU:ssa. Unionin tila -puheen yhtenä innoittajana voidaankin nähdä Yhdysvallat, jossa presidenttien vuosittaisella kansakunnan tila -puheella on pitkät perinteet. Mutta yhtymäkohtia voidaan toki löytää monissa Euroopan maissa, myös Suomessa, edelleen tärkeän roolin omaaviin uudenvuodenpuheisiin.

Tässä lyhyessä metodiartikkelissa esittelen, miten ”unionin tila”-tyyppisiä poliittisia tekstejä voidaan analysoida eksploratiivisen data-analyysin (exploratory data analysis, lyh. EDA) keinoin. Kyseinen menetelmä on kasvattanut suosiotaan myös laskennallisista yhteiskuntatieteistä kiinnostuneiden tutkijoiden piirissä, koska sen avulla on mahdollista analysoida aineistoja ilman vahvoja etukäteisoletuksia niiden sisällöstä. Kyse voi olla aineiston piilevien rakenteiden tekemisestä näkyviksi, mutta EDA:lla on merkittävä rooli myös uusien hypoteesien ja kysymyksenasettelujen kehittelyssä.

EDA:a, kuten muitakin laskennallisia menetelmiä, käytetään yleensä suurten aineistojen analysoinnin apuna. Tämä yksinkertaistaen siitä syystä, että useimmat menetelmistä perustuvat aineistojen tilastolliseen mallintamiseen, jonka luotettavuus kasvaa aineistojen koon kasvaessa. Olen kollegoideni kanssa kuitenkin osoittanut, että menetelmät soveltuvat myös pienempien aineistojen analysointiin, kunhan tutkija on tietoinen aineistoonsa sisältyvistä potentiaalisista virhelähteistä. Tässä artikkelissa von der Leyenin puheen avulla on ensisijaisesti tarkoitus havainnollista EDA-menetelmien käyttöä, ei niinkään tehdä yleistäviä johtopäätöksiä komission puheenjohtajan puheista.

Analysointia varten muutin sähköisesti saatavilla olevan puheen tekstimuotoon ja poistin siitä manuaalisesti pää- ja väliotsikot sekä muut, sisällön kannalta epärelevantit merkinnät kuten sivunumerot sekä säännöllisesti toistuneet yleisön puhuttelut. Tämän kuratoidun raakatekstin siirsin R-ohjelmistoon, jossa aineiston valmistelua jatkettiin strukturoimalla puhe nk. tidy data -periaatteen mukaiseksi datatauluksi, jonka kukin rivi sisälsi puheen yhden sanan, sanan lemmatisoidun eli perusmuotoon palautetun muodon sekä tiedon, minkä kappaleen kuinka mones sana oli kyseessä. Käytännössä taulukon ensimmäinen rivi oli kuratoidun puhetekstin ensimmäinen, taulukon viimeisen rivin sisältäessä puheen viimeisen sanan. Edelleen tekstianalyysin vakiintuneiden käytänteiden mukaisesti aineistosta poistettiin semanttisesti merkityksettömät (tai: ei-yksiselitteiset) täytesanat eli stop word -sanat erillisen, ’tidytext’-kirjaston tarjoaman listan perusteella. Tämän lisäksi sisällönanalyysissä huomioitiin sanaluokista vain substantiivit, adjektiivit, verbit sekä erisnimet. Nämä voitiin poimia helposti, koska käytetty ’udpipe’-työkalu tuottaa myös nk. part-of-speech eli POS-tagin, joka kuvaa kunkin sanan kieliopillista asemaa osana lauserakennetta.

Tämän tyyppisten tekstin tarkastelu aloitetaan useimmiten analysoimalla sanafrekvenssejä. Mitenkään yllättävää ei liene, että substantiivien (ml. erisnimet) kohdalla kärkikymmenikön muodostavat ”europe” (51 esiintymää), ”time” (23), ”world” (22), ”freedom” (19), ”union” (19), ”people” (18), ”eu” (16), ”climate” (14), ”country” (13) ja ”future” (13). Von der Leyen puhuu siis paitsi Euroopasta ja EU:sta, myös maailmasta, vapaudesta, ilmastosta ja ihmisistä. Ja luonnollisesti, tämän tyyppisille linjapuheille luonteenomaisesti, puhutaan myös tulevaisuudesta.

Verbien osalta puhe heijastelee myös poliitikkopuheelle tyypillistä rakennetta, jossa asetetaan tavoitteita ja pyritään tekemään tai saavuttamaan jotakin. Kymmenen yleisimmin käytetyn verbin listalle yltävät esimerkiksi sellaiset verbit kuin ”build” (8 esiintymää), ”create” (8), ”deliver” (8), ”develop” (7) ja ”propose” (7), joita kaikkia voi pitää juuri tulevaisuuteen suuntautuvina liikekäsitteinä. Kiinnostavaa on myös, että näiden ohella von der Leyen käyttää runsaammin sellaisia verbejä kuten ”continue” (9), ”defend” (8) ja ”protect” (8), joissa korostuu jatkuvuus ja jo saavutettujen asioiden puolustaminen.

Nyt meillä on siis muodostunut alustava kuva siitä, minkälaisiin teemoihin – Eurooppa, maailman, vapaus, ihmiset – ja millaiseen tekemiseen – luomiseen, tuottamiseen, kehittämiseen, puolustamiseen – puheen ydinsanoma näyttäisi keskittyvän. Tämä ei kuitenkaan vielä kerro mitään puheen varsinaisesta rakenteesta eli siitä, miten eri teemat puheen aikana esiintyvät. Tämän selvittämiseksi valitsin kummastakin ryhmästä, substantiiveista (ml. erisnimet) ja verbeistä kuusi mielestäni parhaiten puheen sisältöön sopivaa ja laadin indeksidiagrammin, joka sijoittaa kunkin sanan käytön puheen osaksi puheen kokonaisuutta (Kuvio 1 ja 2).

Lataa kuvio pdf-muodossa.

 

Lataa kuvio pdf-muodossa.

Kuvioiden perusteella muodostuu huomattavasti selkeämpi kuva puheen etenemisestä. Odotetusti ”Eurooppa”-termiä käytetään läpi puheen, se on puheen luonnollinen konteksti ja tärkein referenssikohde. Puheen näyttäisi alkavan katsauksella kansainväliseen tilanteeseen, mitä indikoi ”world”-sanan runsaampi käyttö. Puheen keskiosan teeman on ilmastonmuutos (”climate”-sana), josta puhutaan myös globaalissa kontekstissa. Puheen loppuosassa von der Leyen korostaa vapauksia ja vapautta (”freedom”-sana). Varsin tyypillisesti poliittisen linjapuheen tekstityypille viittauksia tulevaan (”future”-sana) tehdään useammassa kohdassa. Argumentaatiorakenne siis näyttäisi noudattavan melko tyypillistä kaavaa, jossa ensin kuvataan nykytila (ja sen haasteet), minkä jälkeen asetetaan tulevaisuuteen katsova tavoitetila.

Verbien jakauman tarkastelu vahvistaa osaltaan substantiivien kautta syntynyttä alustavaa kuvaa tekstin retorisesta rakentumisesta. Niissä kohdissa, joissa substantiivien perusteella puhe keskittyy nykytilan kuvaamiseen, von der Leyen käyttää tehtyjä toimia kuvaavia verbejä kuten ”deliver” ja ”defend”. Runsaammin tulevaisuus-referenssejä omaavissa kohdissa myös verbien kohdalla käytetään tavoitteiden asettamiseen ja uuden luomiseen liittyviä verbejä kuten ”build”, ”create” ja ”develop”. Suojelemista tarkoittavan ”protect”-verbin käyttö painottuu lähelle ”freedom”-sanaa, mistä voidaan tehdä se päätelmä, että puheessa halutaan manifestoida erityisesti eurooppalaisille arvoille ja demokratialle keskeisten vapauksien suojelun ja turvaamisen tärkeyttä.

Mitä tästä pienestä analyysinäytteestä nyt sitten jää käteen EDA:n ja sen tuottaman lisäarvon osalta? Jos otamme lähtökohdaksi, että emme olisi lukeneet tai kuunnelleet puhetta etukäteen, edellä kuvatut tulokset auttoivat hahmottamaan sekä puheen keskeisiä sisältöjä (sanafrekvenssianalyysi) että myös puheen rakennetta (sanojen jakautuminen puheen aikana). EDA-menetelmien avulla tutkija voi kaivaa omasta aineistostaan esiin piirteitä, joiden on lukuisissa tutkimuksissa havaittu kertovan olennaisia seikkoja aineistossa piilevistä asioista. Tällainen on esimerkiksi se havainto, että yleisimmin käytetyt sanat useimmiten kuvaavat myös tekstin sisältöä varsin luotettavasti. Menetelmä ei siis kerro, mistä tosimaailman aiheesta aineistossa on konkreettisesti kyse – tämä tulkinta jää aina tutkijan vastuulle – mutta ne auttavat erottamaan olennaisia piirteitä vähemmän olennaisista.

Jo näinkin pienellä aineistolla kuin Ursula von der Leyenin yhdellä puheella saadut tulokset vaikuttavat myös puheen lähiluennan jälkeen mielekkäiltä ja luotettavilta. Hyvä nyrkkisääntö on, että analyysiprosessi tulee aina koeajaa pienillä aineistoilla, joista saadut tulokset voi verfioida manuaalisesti. Mitä suurempaa aineistoa tutkija analysoi, sitä vähemmän hän voi kontrolloida yksittäisiä havaintoja ja joutuu siis luottamaan tietokoneen tuottamiin tuloksiin. Paraskaan algoritmi ei kuitenkaan vapauta tutkijaa vaatimuksesta hallita aihepiirinsä erinomaisesti. Vain aineistonsa ja sen kontekstit tuntemalla tutkija voi ennakkoon varautua mahdollisiin virhelähteisiin ja tarvittaessa muokata EDA-prosessia siten, että näiden ongelmien vaikutus olisi mahdollisimman pieni.

* * *

Kimmo Elo on Turun yliopiston eduskuntatutkimuksen keskuksen Eurooppa-tutkimuksen erikoistutkija. Hänen tutkimusalueitaan ovat Saksan ja Euroopan politiikka ja historia, laskennalliset yhteiskuntatieteet ja data-analytiikka. Hän toimii Suomen Akatemian rahoittaman ”Semanttiset parlamentit”-konsortiohankkeen Turun yliopiston tutkimusryhmän johtajana.

 

Kommentoi

Vain omalla nimellä kirjoitetut kommentit julkaistaan. Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *