Ovatko käytettävyystestin tulokset luotettavia?

Me käytettävyysammattilaiset sanomme, että luotettavimman arvion tuotteen käytettävyydestä saa testaamalla sitä todellisten käyttäjien kanssa. Näin se toki onkin, mutta harvempi tietää, kuinka moni asia vaikuttaa testin tuloksiin.

Väitöskirjassani (Riihiaho 2015) tutkin, miten erilaiset muuttujat vaikuttavat käytettävyystestin tuloksiin. Muuttujina olivat muun muassa testiohjaajan läsnäolo, ääneen ajattelu, testikäyttäjän kokemustaso ja odotukset, testiympäristö ja prototyyppien määrä. Melkolailla kaikilla oli tutkimusten mukaan oma vaikutuksensa saatuihin tuloksiin, vaikka esimerkiksi testikäyttäjän kokemuksella oli ristiriitaisiakin vaikutuksia eri tutkimusten kesken.

Mielenkiintoisia vaikutuksia, jotka on hyvä tiedostaa niin käytettävyystestiä suunnitellessa kuin tuloksia analysoidessa, tuli muun muassa siitä, miten testattava järjestelmä esitellään, kuinka valmiilta arvioitava prototyyppi vaikuttaa ja montako vaihtoehtoa käyttäjä näkee, sekä sillä, onko testiohjaaja käyttäjän kanssa samassa huoneessa vai erillisessä tilassa tarkkailemassa.

Testikäyttäjän odotukset

Tutkijat Eeva Raita ja Antti Oulasvirta tutkivat eräissä testeissään, miten ennakkoarviot testattavasta järjestelmästä vaikuttavat testikäyttäjien antamiin arvioihin. Heidän tutkimuksessaan positiivisen arvion lukeneet käyttäjät antoivat järjestelmälle testin jälkeen merkittävästi paremman arvion käytettävyydestä kuin ne käyttäjät, jotka lukivat negatiivisen arvion. Sama painotus säilyi, vaikka positiivisen esittelyn saaneet käyttäjät eivät olisi pystyneet tekemään kaikkia testitehtäviä järjestelmällä. (Raita & Oulasvirta 2011)

Mielenkiintoista tässä tutkimuksessa oli sekin, että negatiivisen arvion lukeneet saivat tehtyä merkittävästi enemmän testitehtäviä onnistuneesti loppuun annetussa ajassa, kun taas positiivisen arvion lukeneet jättivät hankalia tehtäviä melko helposti kesken.

Prototyyppien määrä

Käytettävyystestejä tulisi tehdä mahdollisimman varhaisessa vaiheessa tuotekehitystä erilaisia prototyyppejä käyttäen. Käyttäjän on hyvä nähdä, että suunnittelu on vielä alkuvaiheessa, ja muutoksia on vielä helppo tehdä. Siksipä paperiprotot ovat hyviä kirvoittamaan kommentteja. Käyttäjille on hyvä myös antaa vaihtoehtoja. Esimerkiksi Tohidi ja kumppanit (2006) huomasivat, että testikäyttäjät uskalsivat antaa huomattavasti huonompia arvioita prototyypeistä, jotka oli varta vasten tehtykin huonoiksi, jos he pääsivät kokeilemaan useampia vaihtoehtoja. Näissä tilanteissa jotkut käyttäjät jopa totesivat, etteivät koskaan valitsisi kyseistä huonoa vaihtoehtoa. Vain yhtä vaihtoehtoa testanneet eivät vastaavaa uskaltaneet kommentoida.

Anna käyttäjille siis vaihtoehtoja, niin saat perustellumpaa, rehellisempää ja myös monipuolisempaa palautetta.

Ohjaajan läsnäolo

Väitöstyössäni tutkin, onko ohjaajan läsnäololla tai ääneenajattelulla vaikutusta käytettävyystestin tuloksiin. Ääneenajattelu ei vaikuttanut tuloksiin muutoin kuin hidastamalla suoritusaikoja, kuten odotettua. Ohjaajan läsnäolo sen sijaan vaikutti merkittävästi testikäyttäjien arvioon järjestelmän miellyttävyydestä: ohjaajan läsnäollessa arviot olivat selvästi positiivisempia.

Testikäyttäjät tiesivät, että ohjaaja eli minä en ollut suunnitellut järjestelmää, joten heillä ei ollut tarvetta kehua järjestelmää minulle. Testin lopussa olin kaikissa testiasetelmissa läsnä, kun käyttäjät vastasivat kyselyihin, joten sosiaalinen asetelma oli tuossa kohdin kaikille sama.

Olen testiohjaajana melko vahvasti myötäelävä henkilö, joka saa luotua testiin rennon ilmapiirin. Arvelenkin eron syntyneen siitä, että testikäyttäjät pääsivät ohjaajan läsnä ollessa välittömästi purkamaan mahdollisia turhaumiaan. Näin yleisvaikutelma nousi positiivisemmaksi. Sonderegger ja Sauer (2009) eivät tutkimuksessaan havainneet vastaavaa vaikutusta koettuun käytettävyyteen, mutta huomasivat, että hyvän ilmapiirin luova ohjaaja saattoi tehostaa käyttäjien suoritusta.

Verratessaan omissa oloissa tehtyjä testisuorituksia ja ohjaajan kanssa laboratioympäristössä tehtyjä testejä Schulte-Mecklenbeck ja Huber (2003) huomasivat, että ohjaajan ollessa läsnä testikäyttäjät etsivät vastauksiinsa merkittävästi enemmän taustatietoa. Ohjaajan läsnä ollessa käyttäjät siis panostivat enemmän suoritukseensa. Huomattava ero oli myös niiden käyttäjien määrässä, jotka eivät edes aloittaneet testiä, tehneet kaikkia tehtäviä loppuun tai vastanneet kysymyksiin: yksin toimineista tämä osuus oli 36 % ja ohjaajan kanssa osallistuneista 0 %.

Kyselyt tehtävien jälkeen vai vasta testin jälkeen?

Muuttujien lista alkaa olla jo pitkä, mutta haluan tuoda esiin vielä pari: haastattelujen ja kyselyjen ajoitus sekä testikäyttäjien määrä. Otetaan ensin käsittelyyn haastattelun ja kyselyjen ajoitus ja järjestys.

Haastattelu on keskeinen osa käytettävyystestiä, sillä se antaa niin testikäyttäjälle kuin testin ohjaajalle mahdollisuuden tarkentaa epäselviä asioita ja kommentoida järjestelmää ja sen toimintoja. Kyselyt ovat harvinaisempia, mutta niitäkin tehdään esimerkiksi seuraamaan tuotekehityksen etenemistä.

Mikäli tehdään sekä haastattelu että kysely, on suositeltavaa antaa käyttäjän vastata ensin kyselyyn. Näin haastattelussa käydyt keskustelut eivät vaikuta käyttäjän arvioihin. Lisäksi haastattelussa voidaan keskustella mahdollisista yllättävistä kyselyn vastauksista ja varmistaa, että käyttäjä on ymmärtänyt kysymyksen tarkoitetulla tavalla.

Ihminen on unohtavainen olento, joten tutkimuksissa (esim. Hassenzahl & Sandweg 2004) on huomattu, että testin jälkeisten kyselyiden vastaukset heijastelevat lähinnä muutaman viimeisen tehtävän kokemuksia eikä koko testiä. Jos käytettävyystestissä halutaan palautetta tietystä tehtävästä tai toiminnosta, onkin syytä tehdä kysely heti kyseisen tehtävän jälkeen eikä vasta testin lopussa (Sauro & Lewis 2009).

Kuinka monta testikäyttäjää tarvitaan?

Viimeisenä vielä käsittelyyn ehkä se yleisin kysymys, jonka käytettävyystestiä pohtivat asiakkaat esittävät: “Kuinka monta käyttäjää testeihin tarvitaan?”

Alan kirjallisuudesta tähän löytyy niin matemaattisia kaavoja kuin isoja ja pieniä lukuja. Vahvimmin asiaan kuitenkin vaikuttaa kaksi asiaa:

Mitä testillä tavoitellaan – tilastollisia numeroarvoja vai näkemyksiä pahimmista kompastuskivistä ja niiden korjausehdotuksista?
Kuinka monipuolinen ja laaja järjestelmä ja sitä kautta myös käyttäjäkunta on kyseessä?

Hyvin harvassa käytettävyystestissä tavoitellaan tilastollisesti vertailtavia arvoja. Yleensä halutaan käyttäjien näkemyksiä siitä, toimiiko jokin uusi ratkaisu tai mikä vaatii vielä parannusta. Tällaiseen tuotekehitystä tukevaan testaukseen riittää pienempikin määrä käyttäjiä: usein 3–5 käyttäjää riittää. Jos erilaisia käyttäjäryhmiä on useampia, yksittäisen testin voi rajata muutamaan ryhmään ja valita niistä jokaisesta nuo 3–5 käyttäjää.

Tarvittavaa käyttäjien määrää on yritetty selvittää monessa tutkimuksessa. 1990-luvulla nämä luvut olivat yleensä kolmen ja kuuden käyttäjän välillä, jos haluttiin 80 prosentin kattavuus järjestelmän käytettävyysongelmista. Kun järjestelmät kasvoivat ja monipuolistuivat, vuonna 2010 julkaistussa analyysissa tuo lukema oli jo 10–12 käyttäjää (Hwang & Salvendy 2010). Useimmissa tutkimuksissa on kuitenkin todettu, että löydettyjen ongelmien määrän ja käyttäjien määrä välillä ei ole selkeää yhteyttä. Esimerkiksi Lindgaard ja Chattratichart (2007) eivät nähneet näiden välillä mitään korrelaatiota tutkiessaan useiden käytettävyystestien tuloksia. Löydettyjen ongelmien määrä korreloi tässä analyysissa sen sijaan selkeästi testitehtävien määrän ja niiden kattavuuden kanssa.

Kun miettii, kuinka paljon aikaa menee yksittäisen testikäyttäjän hankintaan, taustatietojen selvittelyyn, testin esittelyyn, lämmittelyyn, kyselyihin ja haastatteluun, on oikeastaan hyvin lohduttavaa, että useamman käyttäjän sijaan on suositeltavampaa tehdä useampia testitehtäviä harvemman käyttäjän kanssa. Suuren käyttäjämäärän sijaan onkin olennaisempaa valmistella realistiset, todellista käyttöä edustavat ja riittävän kattavat testitehtävät.

Käytettävyystestaus on harvoin tieteellistä tutkimusta

Käytettävyystestin tuloksiin vaikuttaa siis moni asia. Näistä vaikutuksista on hyvä olla tietoinen, mutta niiden ei tule lannistaa ahkeraa käytettävyystestaajaa, sillä harvassa käytettävyystestissä pyritään tieteellisesti luotettaviin ja yleistettäviin tuloksiin. Olennaista on löytää järjestelmän kipukohdat, saada todellisten käyttäjien palautetta ja kehittää perusteltuja parannusehdotuksia. Tähän riittää pienempikin määrä käyttäjiä, kunhan heidät on valittu hyvin – samoin kuin testitehtävät.

Vastauksena otsikon kysymykseen siis: testaaminen todellisilla käyttäjillä antaa erittäin luotettavan kuvan arvioitavan järjestelmän nykytilasta. Sitä kannattaa suosia niin usein kuin mahdollista – mielellään monin pienin testein pitkin järjestelmän elinkaarta.

Lähteet

Hassenzahl, M. & Sandweg, N. (2004). From mental effort to perceived usability: transforming experiences into summary assessments. CHI '04 Extended Abstracts on Human Factors in Computing Systems (CHI EA '04), 1283–1286. (Koettu käytettävyys (EN): PDF sivustolla Academia.edu)

Hwang, W. & Salvendy, G. (2010). Number of people required for usability evaluation: the 10±2 rule. Communications of the ACM, 53(5), 130–133.

Lindgaard, G. & Chattratichart, J. (2007). Usability testing: what have we overlooked? Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (CHI '07), 1415–1424.

Raita, E. & Oulasvirta, A. (2011). Too good to be bad: Favorable product expectations boost subjective usability ratings. Interacting with Computers, 23(4), 363–371. (Käyttäjän odotukset (EN): PDF sivustolla Academia.edu)

Riihiaho, S. (2015). Experiences with usability testing: Effects of thinking aloud and moderator presence. Aalto University publication series Doctoral Dissertations, 75/2015, 185+21 p. (Kokemuksia käytettävyystestauksesta -väitöskirja (EN): PDF sivustolla Aaltodoc, 4,7 MB)

Sauro, J. & Lewis, J.R. (2009). Correlations among prototypical usability metrics: evidence for the construct of usability. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (CHI '09), 1609–1618.

Schulte-Mecklenbeck, M., & Huber, O. (2003). Information search in the laboratory and on the Web: With or without an experimenter. Behavior Research Methods, Instruments, & Computers, 35(2), 227-235. (Ohjaajan läsnäolon vaikutukset (EN): PDF sivustolla Springer.com)

Sonderegger, A. & Sauer, J. (2009). The influence of laboratory set-up in usability tests: effects on user performance, subjective ratings and physiological measures. Ergonomics, 52(11), 1350-1361. (Testilaboratorion vaikutukset (EN): PDF sivustolla rero.ch)

Tohidi, M., Buxton, W., Baecker, R. & Sellen, A. (2006). Getting the right design and the design right. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (CHI '06), 1243–1252. (Prototyypien määrän vaikutus (EN): PDF sivustolla Microsoft.com)

Julkaistu: 10. marraskuuta 2021

Päivitetty: 16. syyskuuta 2025

Design and UX

Sirpa Riihiaho

Lisää kirjoittajalta

Aiheeseen liittyvää

Tapahtuma

Aamiaisseminaari: Käytettävyys ja saavutettavuus tekoälyn aikakaudella

Aika: marraskuuta 13, 2025

Lue lisää

Julkaistu: 10. marraskuuta 2021

Testikäyttäjäkin on (vain) ihminen

Lue lisää

Julkaistu: 23. toukokuuta 2023

Käytettävyystestaus – avain ongelmien tunnistamiseen

Lue lisää

Saavutettavuus

Huomioi jokainen palvelun käyttäjä

Lue lisää

Ovatko käytettävyystestin tulokset luotettavia?

Testikäyttäjän odotukset

Prototyyppien määrä

Ohjaajan läsnäolo

Kyselyt tehtävien jälkeen vai vasta testin jälkeen?

Kuinka monta testikäyttäjää tarvitaan?

Käytettävyystestaus on harvoin tieteellistä tutkimusta

Lähteet

Kuinka huomioida saavutettavuus osana kaikkia digitaalisen kehittämisen prosesseja?