Causal Relationship

4.8 Relaties: indirect en causaal

Ik merkte hierboven op dat het zoeken naar en verklaren van interessante relaties deel uitmaakt van wat we doen in HCI-onderzoek. Vaak wordt speciaal voor dit doel een gecontroleerd experiment ontworpen en uitgevoerd, en als dat goed gebeurt is een bepaald type conclusie mogelijk. Vaak kunnen we zeggen dat de gemanipuleerde conditie in het experiment de veranderingen in de waargenomen en gemeten menselijke reacties heeft veroorzaakt. Dit is een oorzaak-gevolgrelatie, of gewoon een causaal verband.

In HCI is de gemanipuleerde variabele vaak een nominaal schaalkenmerk van een interface, zoals apparaat, invoermethode, feedbackmodaliteit, selectietechniek, menudiepte, knopindeling, enzovoort. De gemeten variabele is meestal menselijk gedrag op ratio-schaal, zoals de tijd die nodig is om een taak te voltooien, het foutenpercentage, of het aantal klikken op knoppen, scrollen, verschuiven van de blik, enz.

Het vinden van een causaal verband in een HCI-experiment levert een krachtige conclusie op. Als de gemeten menselijke respons van vitaal belang is in HCI, zoals de tijd die het kost om een veelvoorkomende taak uit te voeren, dan is de wetenschap dat een in het experiment geteste conditie deze tijd vermindert een waardevol resultaat. Als de conditie een implementatie is van een nieuw idee en het werd vergeleken met de huidige praktijk, kan er inderdaad reden zijn om te juichen. Er is niet alleen een oorzakelijk verband gevonden, maar het nieuwe idee is ook een verbetering ten opzichte van de bestaande praktijk. Dit is het soort resultaat dat waardevolle kennis aan het vakgebied toevoegt; het brengt de stand van de techniek vooruit.9 Dit is waar het bij HCI-onderzoek allemaal om draait!

Het vinden van een relatie betekent niet noodzakelijkerwijs dat er een causaal verband bestaat. Veel relaties zijn indirect. Ze bestaan, en ze kunnen worden waargenomen, gemeten en gekwantificeerd. Maar ze zijn niet causaal, en elke poging om de relatie als zodanig uit te drukken is verkeerd. Het klassieke voorbeeld is het verband tussen roken en kanker. Stel dat in een onderzoek de gewoonten en de gezondheid van een groot aantal mensen gedurende vele jaren worden gevolgd. Dit is een voorbeeld van de eerder genoemde correlationele onderzoeksmethode. Uiteindelijk wordt er een verband gevonden tussen roken en kanker: kanker komt meer voor bij mensen die gerookt hebben. Is het juist om uit dit onderzoek te concluderen dat roken kanker veroorzaakt? Nee. Het geconstateerde verband is indirect, niet oorzakelijk. Wanneer men de gegevens nader onderzoekt, ontdekt men dat de neiging om kanker te krijgen ook verband houdt met andere variabelen in de gegevensverzameling. Het lijkt erop dat de mensen die kanker ontwikkelden ook de neiging hadden meer alcohol te drinken, vetter te eten, minder te slapen, naar rockmuziek te luisteren, enz. Misschien was het de toegenomen consumptie van alcohol die de kanker veroorzaakte, of de consumptie van vet voedsel, of iets anders. Het verband is indirect, niet oorzakelijk. Dit wil niet zeggen dat indirecte verbanden niet nuttig zijn. Het zoeken en vinden van een indirecte relatie is vaak de eerste stap in verder onderzoek, deels omdat het relatief eenvoudig is gegevens te verzamelen en te zoeken naar indirecte relaties.

Causale relaties komen naar voren uit gecontroleerde experimenten. Het zoeken naar een causaal verband vereist een studie waarbij, onder andere, deelnemers willekeurig worden geselecteerd uit een populatie en willekeurig worden toegewezen aan testcondities. Een willekeurige toewijzing zorgt ervoor dat elke groep deelnemers in alle opzichten gelijk of vergelijkbaar is, behalve wat betreft de omstandigheden waaronder elke groep wordt getest. De verschillen die aan het licht komen, zijn dus waarschijnlijker het gevolg van (veroorzaakt door) de testomstandigheden dan van omgevings- of andere omstandigheden. Soms worden de deelnemers in groepen verdeeld, waarbij de deelnemers in elke groep zo worden gescreend dat de groepen gelijk zijn wat betreft andere relevante kenmerken. Bij een experiment waarbij twee invoercontrollers voor games worden getest, kunnen de deelnemers bijvoorbeeld willekeurig in groepen worden ingedeeld of kunnen de groepen zodanig worden uitgebalanceerd dat het scala aan game-ervaringen ongeveer gelijk is.

Hier volgt een HCI-voorbeeld dat vergelijkbaar is met het voorbeeld van roken versus kanker: Een onderzoeker is geïnteresseerd in het vergelijken van multi-tap en voorspellende invoer (T9) voor tekstinvoer op een mobiele telefoon. De onderzoeker gaat de wereld in en benadert gebruikers van mobiele telefoons en vraagt hen om vijf minuten van hun tijd. Velen gaan akkoord. Ze beantwoorden een paar vragen over hun ervaring en gebruiksgewoonten, waaronder hun voorkeursmethode om tekstberichten in te voeren. Vijftien multitap-gebruikers en vijftien T9-gebruikers worden gevonden. De gebruikers wordt gevraagd een voorgeschreven tekstzin in te voeren terwijl hun tijd wordt bijgehouden. Terug in het lab worden de gegevens geanalyseerd. De T9-gebruikers bleken sneller te zijn: 18 woorden per minuut, tegen 12 woorden per minuut voor de multitap-gebruikers. Dat is 50 procent sneller voor de T9-gebruikers! Wat is de conclusie? Er is een verband tussen de wijze van invoeren en de snelheid van tekstinvoer; het verband is echter indirect, niet causaal. Het is redelijk om te melden wat er is gedaan en wat er is gevonden, maar het is verkeerd om verder te gaan dan wat de methodologie aangeeft. Uit deze eenvoudige studie concluderen dat T9 sneller is dan multi-tap zou onjuist zijn. Bij nadere bestudering van de gegevens blijkt dat de T9-gebruikers over het algemeen technisch onderlegder zijn: zij hebben aanzienlijk meer ervaring met het gebruik van mobiele telefoons en verzenden ook aanzienlijk meer tekstberichten per dag dan de multitap-gebruikers, die over het algemeen niet graag en zeer zelden tekstberichten versturen.10 Het waargenomen verschil kan dus eerder het gevolg zijn van eerdere ervaring en gebruiksgewoonten dan van inherente verschillen tussen de tekstinvoermethoden. Als men werkelijk wil weten of de ene tekstinvoermethode sneller is dan de andere, is een gecontroleerd experiment nodig. Dit is het onderwerp van het volgende hoofdstuk.

Eén laatste punt verdient vermelding. Conclusies over oorzaak en gevolg zijn bij bepaalde soorten gecontroleerde experimenten niet mogelijk. Als de gemanipuleerde variabele een natuurlijk voorkomend kenmerk van de deelnemers is, dan zijn oorzaak en gevolg conclusies onbetrouwbaar. Voorbeelden van natuurlijk voorkomende eigenschappen zijn geslacht (vrouwelijk, mannelijk), persoonlijkheid (extravert, introvert), handigheid (links, rechts), eerste taal (b.v. Engels, Frans, Spaans), politiek standpunt (links, rechts), enz. Deze kenmerken zijn legitieme onafhankelijke variabelen, maar zij kunnen niet worden gemanipuleerd, d.w.z. zij kunnen niet aan de deelnemers worden toegewezen. In dergelijke gevallen is een oorzaak-gevolgsconclusie niet geldig omdat het niet mogelijk is verwarrende variabelen (gedefinieerd in hoofdstuk 5) te vermijden. Man zijn, extravert zijn, linkshandig zijn, enzovoort, brengen altijd andere attributen naar voren die systematisch variëren tussen de niveaus van de onafhankelijke variabele. Conclusies over oorzaak en gevolg zijn in deze gevallen onbetrouwbaar, omdat het niet mogelijk is te weten of het experimentele effect het gevolg is van de onafhankelijke variabele of van de verstorende variabele.