Ei se laatu vaan se määrä

Tilastotieteen professorin lyhyt johdatus alansa saloihin avaa siihen vihkiytymättömän silmiä, mutta saattaa aiheuttaa huimausta

Hand, David J.: Tilastot. Lyhyet johdatukset 2 [Statistics: A Very Short Introduction]. Käännös: Veli-Pekka Ketola. Art House Oy, 2017. 148 sivua. ISBN 978-951-884-622-5.

Lontoon Imperial Collegen tilastotieteen professorilla David J. Handilla on kunnianhimoinen tavoite. Hänen kirjoittamansa Tilastot pyrkii tarjoamaan aiheeseen vihkiytymättömälle lukijalle helposti omaksuttavan, mutta kattavan läpileikkauksen nykyaikaisen tilastotieteen perusajatuksista. Kirjanen kuuluu Art House -kustantamon Lyhyet johdatukset -sarjaan, jossa on toistaiseksi julkaistu kolme nimensä mukaisesti lyhyttä noin 150-200-sivuista tiedekirjaa: tilastojen lisäksi ne käsittelevät lääkkeitä ja dinosauruksia.

Takakansitekstin mukaan ”kirja ei vaadi lukijalta matemaattisia tietoja tai taitoja, vaan se selostaa ymmärrettävästi, kuinka tilastotiede toimii ja kuinka tilastoja voidaan tulkita”. Alkusanoissaan Hand itse kertoo yrittävänsä ”tuoda esiin tilastotieteen filosofian, ideoiden, työkalujen ja menetelmien luonteen” ja haluavansa saada lukijan ymmärtämään, ”miten moderni tilastotiede toimii, kuinka tärkeä se on ja varsinkin miksi se on niin tärkeä”.

Miten Hand sitten suoriutuu itselleen asettamastaan vaativasta tehtävästä? Nähdäkseni tyydyttävästi, muttei täysin. (Myönnettäköön, että arvio riippuu paljolti siitä, mitä tarkoitetaan modernin tilastotieteen toiminnan ”ymmärtämisellä”.) Kirjan lyhyys luonnollisesti selittää paljon sitä, ettei lopputulos ole täydellinen. Ohut kirjanen ei millään voi antaa kuin pintapuolisen silmäyksen kokonaisen tieteenalan periaatteisiin ja käytäntöön. Samalla lyhyys on tietysti myös etu: Tilastoihin on vaivaton tarttua eikä kirjan parissa ehdi tuskastua, vaikka itse asiasisältö saattaisikin tuntua paikoitellen vaikealta.

image

Handin johtotähtenä on ajatus tilastotieteestä yhtenäisenä ajatusrakennelmana sen sijaan, että se olisi hajanainen kokoelma yksittäisiä menetelmiä. Tätä konkretisoidakseen Hand pyrkii selostamaan tilastotieteen taustalla vaikuttavia periaatteita ja tilastollisten ideoiden välisiä suhteita. Toinen teoksen läpi kantava teema on tilastotieteen sivuuttamaton merkitys nykymaailmassa. Havainnollistamalla erilaisia tilastotieteen sovelluskohteita ja -tapoja Hand osoittaa, että tilastotiede ja sen työkalut vaikuttavat elämäämme mitä moninaisimmin tavoin, vaikkei sitä välttämättä ensi ajattelemalta aina hoksaisi.

Hand tarjoaa runollisia kiteytyksiä edustamansa tieteenalan roolista: se auttaa ”näkemään meitä ympäröivän maailman usvan ja epäjärjestyksen läpi, ymmärtämään niiden takana olevaa todellisuutta”. Tilastotiede on ”tekniikkaa epävarmuuden käsittelemiseksi”, ”tuntemattomaan perehtymistä” ja ”löytämisen taidetta”, joka ”auttaa meitä paljastamaan meitä ympäröivän maailmankaikkeuden salaisuudet” ja ”tekee ymmärtämisen mahdolliseksi”.

Lintuperspektiivi tilastoihin

Kaltaiselleni, siis tilastotieteeseen vain alkeiden tasolla perehtyneelle mutta sen paremmasta ymmärtämisestä kiinnostuneelle, lukijalle juuri Handin tarjoama lintuperspektiivi on kirjan parasta antia. Kiteytyksissä tilastotieteen merkityksestä ja konkretisoinneissa sen käyttökohteista kuvastuu epäilemättä Handin pitkä kokemus tilastotieteen opettajana, jota lukuisat opiskelijapolvet ovat auttaneet hiomaan esiin tieteenalansa ytimen.

Tilastot ei rajoitu pelkäksi ylätason maalailuksi, vaan Hand selittää myös tilastotieteen keskeisimpiä käsitteitä ja perusideoita. Osa selityksistä tulee kirjan alussa, osa pitkin matkaa tekstin seassa. Varsinkin peruskäsitteitä koskevat kuvaukset ovat havainnollisia ja helppotajuisia ja toimivin esimerkein ryyditettyjä. Aivan kaikkia peruskäsitteitä ei valitettavasti huomata avata. Esimerkiksi niinkin keskeinen termi kuin perusjoukko jää selitystä vaille. Kirjaan täysin vailla pohjatietoja tarttuvan lukijan kannattanee Handin havainnollisuudesta huolimatta kerrata määritelmät muualtakin, esimerkiksi KvantiMOTV-sivustolta.

Peruskäsitteiden lisäksi Hand esittelee yksinkertaisia tapoja tarkastella lukujen välisiä suhteita ja yhdistellä niitä, kuten erilaiset keskiarvot (ja niiden väliset erot!), hajonnat, vinoudet ja kvantiilit. Hän jatkaa erittelemällä hyvän datan keruun periaatteita ja datan keruun ongelmakohtia. Omat lukunsa on omistettu todennäköisyyslaskennan perusteille, estimoinnille ja päättelemiselle sekä tilastollisille malleille.

image

Kuva: Sir William Petty (1623-1687) oli taloustieteilijä joka käytti varhaisia tilastollisia menetelmiä analysoidakseen väestötieteellistä tietoa.

Nämä kolme lukua lienevät kirjan haasteellisimmat, monessa mielessä. Täysin vailla ennakkotietoja olevalle lukijalle ne voivat olla hankalasti omaksuttavissa, vaikka Hand pyrkii parhaansa mukaan olemaan hyvin havainnollinen. Tilastotieteeseen enemmän perehtyneelle lukijalle ne taas eivät välttämättä tarjoa mitään oleellista uutta.

Kohderyhmä tuntuu ylipäätään Tilastojen suurimmalta ongelmakohdalta. Varsin rajallisesta sivumäärästä osa tuhlataan nähdäkseni aivan turhaan, kun Hand pyrkii vakuuttelemaan lukijalleen, että tilastotiede on tärkeää ja kiinnostavaa. Lukijalle, joka jo lähtökohtaisesti hyväksyy ajatuksen tilastotieteen merkityksestä ja haluaa vain oppia ymmärtämään sitä paremmin, vakuuttelut ovat tarpeettomia. Luottaisin ehkä enemmän lukijakuntaani ja siihen, että se osaa jo kirjaan tarttuessaan arvostaa tilastotiedettä ja juuri siksi haluaa perehtyä siihen.

Hand lienee tietysti suunnannut nämä osiot yleisölle, joka suhtautuu tilastotieteeseen epäilyksellä esimerkiksi tilastotiedon väärinkäytön takia. Hän pitää luonnollisena epäluuloa sellaista kohtaan, mitä ei ymmärrä. Sinänsä ihailtavan idealistisesti Hand pitää ratkaisuna ennakkoluuloihin pääsemistä eroon ymmärtämisen puutteesta (s. 18). On kuitenkin vaikea kuvitella, että kirjaan tarttuisi joku tilastoihin epäilevästi, peräti vihamielisesti suhtautuva lukija, jonka ennakkoluulot tämä johdatus voisi murtaa ja muuttaa ihailuksi.

Hand haluaa myös kiihkeästi torjua vallitseviksi otaksumiaan mutta vanhentuneita pitämiään käsityksiä tieteenalan luonteesta. Ainakin itseäni kuitenkin lähinnä ärsyttävät toistuvat vastakkainasettelut entisaikojen pölyisen puurtamisen ja numeroiden pyörittelyn sekä tietokoneavusteisen, ”haltioituneen” nykyaikaisen tilastotieteen välillä. Epäilemättä suurella yleisöllä voi olla harhakäsityksiä tilastotieteen luonteesta ja sen tärkeys ja jännittävyys saatetaan herkästi aliarvioida. On myös helppo käsittää, että tietokoneiden laskentatehon lisääntyminen on todella mullistanut koko tieteenalan. Mutta miksi tilastotiede olisi silti menneinä vuosikymmeninäkään ollut pitkästyttävää ja kuivaa? Eikö alan perusajatus ja -filosofia kuitenkin periydy aiemmilta ajoilta, vaikka työvälineet olisivat sittemmin ottaneet huiman askeleen eteenpäin?
image

Kuva: John Grauntin Natural and Political Observations Made Upon the Bills of Mortality, 1662 listaa kuolinsyitä Lontoossa 1600-luvulla.

Vielä täytyy hieman kummastella takakansitekstin väittämää siitä, ettei kirja vaadi lukijalta matemaattisia tietoja tai taitoja. Hivenen ylimielistä on esimerkiksi olettaa, että sivuilla 18-19 esitetyissä harhaanjohtavissa väitteissä piilevät ajatusvirheet tai väärinkäsitykset olisivat kaikille itsestään selviä tai Handin sanoin ”alkeellisia”.

Paikoitellen teksti on niin teknisluontoista, että pelkällä koulumatematiikalla tai ilman aiempaa tilastotieteeseen perehtymistä on vaikea pysyä perässä. Ensi lukemalta ei välttämättä jokaiselle lukijalle avaudu esimerkiksi katkelma

”[j]os tietäisimme parametrin todellisen arvon, voisimme laskea mille tahansa estimoidulle arvolle estimaatin ja todellisen arvon toiseen korotetun erotuksen (neliövirheen). Toiseen korottaminen on hyödyllistä muun muassa siksi, että tulos on aina positiivinen. Koska estimaatti itse on otoksesta toiseen vaihteleva satunnaismuuttuja, myös toiseen korotettu virhe on satunnaismuuttuja. Satunnaismuuttujalla on jakauma, ja keskineliövirhe on yksinkertaisesti tämän jakauman keskiarvo …” (s. 104).

Onneksi Tilastoja voi lukea monella eri tavalla. Halutessaan voi joko pysähtyä pureskelemaan ja todella sisäistämään kaiken lukemansa tai sitten keskittyä niihin teemoihin, jotka ovat juuri itselle oleellisia ja helpoimmin omaksuttavissa. Todennäköisesti jotain jää kirjasta muhimaan mielen perukoille joka tapauksessa. Ja kuten Hand toteaa (s. 74-75), uuden kielen – tässä tapauksessa todennäköisyyden kielen – ymmärtäminen vaatii aina ponnistelua. Haasteisiin ei siis kannata luovuttaa, vaan jatkaa perehtymistä tilastotieteen saloihin, kuten ainakin allekirjoittanut aikoo tehdä.

Kaiken kaikkiaan David J. Handin Tilastot on helposti lähestyttävä ja lyhyydellään lukemiseen kannustava johdatus tilastotieteen kiinnostavaan maailmaan. Se ei ehkä tarjoa suuria oivalluksia alaan jo vihkiytyneelle, mutta tarjoaa yleissivistävän ja uusia näkökulmia avartavan pikakatsauksen sille, jolla ei ennestään ole tilastotieteestä kovin syvällistä käsitystä. Vailla mitään lähtötietoja olevalle lukijalle Tilastot saattaa paikoitellen aiheuttaa huimausta, mutta niinhän ennestään tuntemattoman äärellä usein käy.

 

Kommentoi

Vain omalla nimellä kirjoitetut kommentit julkaistaan. Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *