Nettikyselyjen raportointi

Toimittaja Björn Udd haastatteli minua kesällä nettikyselyistä HBL:iin. Björniä kiinnosti näkemykseni nettikyselyiden luotettavuudesta ja raportointistandardeista. Vastauksessani Björnille tuli esiin asioita, joita sosiaalitieteilijöiden olisi syytä pohtia yleisemminkin.

Paras puoli kaikille vastaajille avoimissa nettikyselyissä on, että niillä voidaan kerätä nopeasti ja halvalla paljon aineistoa. Huono puoli on se, että nettikyselyt ovat yleensä valikoituneita näytteitä verkonkäyttäjistä, eivätkä otoksia väestöstä tai sen osasta. Periaatteessa verkkoaineistot voidaan painottaa vastaamaan väestöä. Valikoituminen kaikille avoimiin verkkokyselyihin on tällä hetkellä kuitenkin niin suurta, että painottamien perinteisin tavoin on vaikeaa tai jopa käytännössä mahdotonta.

Esimerkiksi HS-luokkakoneaineisto painotettiin usean tekijän suhteen, mutta on edelleen esimerkiksi ammatilliselta rakenteeltaan vinoutunut suhteessa todelliseen väestöön. Syyt tähän ovat ilmeisiä — verkkokyselyitä täytellään ruokatunneilla, kahvitauoilla ja työn ohessa taikka sitten vapaa-ajalla etenkin päivisin. Monilla työpaikoilla vastaaminen ei ole yksinkertaisesti mahdollista eikä vapaa-aikaa päivisin ole (iltaisin puuhataan muuta). Eli väestöön tai sen osaan yleistämisen suhteen pitäisi tällaisten aineistojen kohdalla olla todella varovainen.

Sen sijaan näillä datoilla on helppoa ja kustannustehokasta testata uusia ideoita. Tämä oli ajatuksena myös luokkakoneessa — pystyttiin kokeilemaan, millaiset luokkaan usein liittyvä tekijät ovat niin usein yhteydessä toistensa kanssa, että niiden pohjalta voidaan erottaa jonkinlaisia identifioitavissa olevia latentteja luokkia. Voidaan siis olettaa että tutkittava ilmiöt ovat verkkoaineistossa samankaltaisessa yhteydessä toisiinsa kuin vastaavaa tietoa keräävissä edustavissa aineistoissa.

Aineiston valikoituminen kuitenkin tarkoittaa sitä, että uusia ideoita ja havaintoja ei pitäisi ollenkaan raportoida tuloksia yksinkertaisina jakaumina (“xx % suomalaisista kuuluu eliittiin” tai “xx% eläkeläisistä suunnittelee ulkomaanmatkaa”) ellei olla ihan varmoja siitä, että data vastaa todellista väestöä. Tyypillisten valikoitumiseen vaikuttavien tekijöiden ryhmien sisällä tämä on mielestäni hiukkasen turvallisempaa (esim. “Pääkaupunkiseudulla asuvista korkeakoulutetuista eläkeläisistä, joiden tulot ovat xxx-yyy euroa, zz % suunnittelee ensi vuonna ulkomaanmatkaa” ja näiden vertaaminen johonkin toiseen ryhmään).

Vastaavia ongelmia liittyy isojenkin tutkimusfirmojen quota-otoksiin. Vastaamatta tai tavoittamatta jääneistä ei niissä ole yleensä mitään tietoa — siksi että vetää näiden kyselyiden uskottavuudelta pohjan pois. Maininta 2 % virhemarginaalista ei korvaa kadon raportointia — varsinkin kun virheen määrä on oikeasti ryhmästä toiseen erilainen.

Yksi korrekti tapa raportoida nettikyselyitä voisi olla, että mainitaan lukijoille, että aineisto valikoitunut näyte nettilukijoista, ei väestöä tai sen tiettyä osaa edustava otos.

Summa summarum, nettiaineistojen etuja ovat:
– ovat mielenkiintoisia ja ennen kaikkea halpoja
– voivat antaa vinkkejä jostain uudesta
– voivat antaa tietoa ilmiöiden välisistä suhteista

Niiden heikkoutena on:
– eivät yleensä ole yleistettävissä niin että voitaisiin sanoa jotain tarkkaa yleisyydestä väestössä

Leave a Reply

Please log in using one of these methods to post your comment:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

w

Connecting to %s