Nettikyselyjen raportointi

Toimittaja Björn Udd haastatteli minua kesällä nettikyselyistä HBL:iin. Björniä kiinnosti näkemykseni nettikyselyiden luotettavuudesta ja raportointistandardeista. Vastauksessani Björnille tuli esiin asioita, joita sosiaalitieteilijöiden olisi syytä pohtia yleisemminkin.

Paras puoli kaikille vastaajille avoimissa nettikyselyissä on, että niillä voidaan kerätä nopeasti ja halvalla paljon aineistoa. Huono puoli on se, että nettikyselyt ovat yleensä valikoituneita näytteitä verkonkäyttäjistä, eivätkä otoksia väestöstä tai sen osasta. Periaatteessa verkkoaineistot voidaan painottaa vastaamaan väestöä. Valikoituminen kaikille avoimiin verkkokyselyihin on tällä hetkellä kuitenkin niin suurta, että painottamien perinteisin tavoin on vaikeaa tai jopa käytännössä mahdotonta.

Esimerkiksi HS-luokkakoneaineisto painotettiin usean tekijän suhteen, mutta on edelleen esimerkiksi ammatilliselta rakenteeltaan vinoutunut suhteessa todelliseen väestöön. Syyt tähän ovat ilmeisiä — verkkokyselyitä täytellään ruokatunneilla, kahvitauoilla ja työn ohessa taikka sitten vapaa-ajalla etenkin päivisin. Monilla työpaikoilla vastaaminen ei ole yksinkertaisesti mahdollista eikä vapaa-aikaa päivisin ole (iltaisin puuhataan muuta). Eli väestöön tai sen osaan yleistämisen suhteen pitäisi tällaisten aineistojen kohdalla olla todella varovainen.

Sen sijaan näillä datoilla on helppoa ja kustannustehokasta testata uusia ideoita. Tämä oli ajatuksena myös luokkakoneessa — pystyttiin kokeilemaan, millaiset luokkaan usein liittyvä tekijät ovat niin usein yhteydessä toistensa kanssa, että niiden pohjalta voidaan erottaa jonkinlaisia identifioitavissa olevia latentteja luokkia. Voidaan siis olettaa että tutkittava ilmiöt ovat verkkoaineistossa samankaltaisessa yhteydessä toisiinsa kuin vastaavaa tietoa keräävissä edustavissa aineistoissa.

Aineiston valikoituminen kuitenkin tarkoittaa sitä, että uusia ideoita ja havaintoja ei pitäisi ollenkaan raportoida tuloksia yksinkertaisina jakaumina (“xx % suomalaisista kuuluu eliittiin” tai “xx% eläkeläisistä suunnittelee ulkomaanmatkaa”) ellei olla ihan varmoja siitä, että data vastaa todellista väestöä. Tyypillisten valikoitumiseen vaikuttavien tekijöiden ryhmien sisällä tämä on mielestäni hiukkasen turvallisempaa (esim. “Pääkaupunkiseudulla asuvista korkeakoulutetuista eläkeläisistä, joiden tulot ovat xxx-yyy euroa, zz % suunnittelee ensi vuonna ulkomaanmatkaa” ja näiden vertaaminen johonkin toiseen ryhmään).

Vastaavia ongelmia liittyy isojenkin tutkimusfirmojen quota-otoksiin. Vastaamatta tai tavoittamatta jääneistä ei niissä ole yleensä mitään tietoa — siksi että vetää näiden kyselyiden uskottavuudelta pohjan pois. Maininta 2 % virhemarginaalista ei korvaa kadon raportointia — varsinkin kun virheen määrä on oikeasti ryhmästä toiseen erilainen.

Yksi korrekti tapa raportoida nettikyselyitä voisi olla, että mainitaan lukijoille, että aineisto valikoitunut näyte nettilukijoista, ei väestöä tai sen tiettyä osaa edustava otos.

Summa summarum, nettiaineistojen etuja ovat:
– ovat mielenkiintoisia ja ennen kaikkea halpoja
– voivat antaa vinkkejä jostain uudesta
– voivat antaa tietoa ilmiöiden välisistä suhteista

Niiden heikkoutena on:
– eivät yleensä ole yleistettävissä niin että voitaisiin sanoa jotain tarkkaa yleisyydestä väestössä

Näin yhteiskuntaluokat luotiin

HS:n viimekesäisen yhteiskuntaluokkakyselyn tulokset on julkaistu luokkakoneena. Koneella voit testata, mihin yhteiskuntaluokkaan kuulut.

Alkuperäisenä ajatuksena oli sisällyttää kyselyyn hieman kaikenlaisia asioita, joita ihmiset yleensä yhdistävät yhteiskuntaluokkiin, omista ja läheisten ammateista tuloihin, varallisuuteen, koulutukseen ja niin edelleen. Taustalla oli halu tehdä jotain samankaltaista kuin Mike Savage ja Fiona Devine BBC:lle. Itse kyselyn suunnitteluun lähdettiin kuitenkin Esa Mäkisen ja Saska Saarikosken kanssa täysin puhtaalta pöydältä, lattean empiristisesti ad hoc -periaatetta seuraten pikemminkin kuin akateemisesti (tai ehkäpä niin sanottua sateenvarjo/tiskipöytä-lähestymistapaa käyttäen, ks. Luokaton Suomi).

Lopulliseen luokitteluun käytettiin ainoastaan tietoa omasta, mahdollisen puolison, vanhempien ja parhaan ystävän nykyisestä tai viimeisestä ammatista, henkilökohtaisia tuloja, koulutusta, työttömyyttä ja itse ilmoitettua, subjektiivista luokka-asemaa. Ihmiset ilmoittivat itselleen, puolisoilleen, vanhemmilleen ja ystävilleen noin 16000 (!!) erilaista ammattinimikettä, jotka tosin kattavat myös kymmenillä eri tavoilla väärin kirjoitetut samat tittelit (kuten oapettaja, optaja jne). Nimikkeet koodattiin käsityönä ISCO88-ammattiryhmiin ja edelleen Eriksonin-Goldthorpen ammattipohjaisiin yhteiskuntaluokkiin, kuitenkin niin, että ylemmästä professioluokasta erotettiin johtajat omaksi ryhmäkseen (kiitokset tutkimusapulaisille, urakka oli valtava). Tulot jaettiin desiileihin datassa (ne eivät siis olleet oikeita väestön tulodesiileitä), koulutus karkeistettiin kolmeen ryhmään (perus/kansakoulu tai vähemmän, korkeakoulutetut, muut). Lisäksi otettiin huomioon työttömyys. Eläkeläiset ja opiskelijat rajattiin aineistosta pois. Jäljelle jääneistä otettiin 5000 tapauksen otos, jotta analyysit onnistuvat tolkullisissa aikarajoissa ja tilastollisista testeistä olisi jotain erottelevaa iloa. Itse luokittelu tehtiin Stata-ohjelmistolla latent class -analyysia käyttäen, saaden aikaisiksi Hesarissa kuvatut luokat . Sen jälkeen laskettiin ennustetut todennäköisyydet kuulua kuhunkin kuudesta luokasta sekä samoja muuttujia käyttäen että ihmisten harrastusten ja median seuraamisen mukaan.

Tulokset ovat sekä yllättäviä että hauskoja, mutta ovatko ne luotettavia?  Tähän kysymykseen on vaikeampi vastata. Itse luokkia pidän sisällöllisesti luotettavina, joskin kyselyyn vähän vastanneet jakautuvat väestössä luultavasti useampaan ryhmään. Data on kerätty nettikyselynä Helsingin Sanomien verkkosivulla. Se tarkoittaa, että ne joilla ei ole päivisin aikaa tai kiinnostusta surffailla Hesarin verkkosivuilla eivät ole kyselyyn vastanneet. Aliedustettuja  ryhmiä ovat perinteisissä duunariammateissa olevat ja etenkin pienituloiset miehet, vaikka aineisto onkin painotettu iän, koulutuksen ja alueen (pk-seutu vs. muu Suomi) suhteen. Valikoitumisen vuoksi nyt muodostettujen luokkien osuuksia todellisessa väestössä on vaikea määritellä tarkasti. Eläkeläisten ja opiskelijoiden osalta tulokset ovat suuntaa antavia, ensimmäisten kohdalla luultavasti enemmän kohdalleen osuvia viimeisen ammatin perusteella vastattaessa. Lisäksi molempien ryhmien luokka-asemien määrittelemistä helpottavat muut käytetyt tiedot läheisten ammateista, tuloista ja koulutuksesta.

Vastaava harjoitus — tosin ilman tietoa ystävien ammateista — on kuitenkin mahdollista toteuttaa Tilastokeskuksen rekisteriaineistoja hyödyntäen, jolloin tulokset vastaisivat myös todellista Suomen väestöä. Kukahan ehtii ensin?