In dit artikel gaan we dieper in op betrouwbaarheidsintervallen berekenen en begrijpen. Een betrouwbaarheidsinterval kom je tegen in statistiek of SPSS wanneer je gaat werken met steekproeven. Een steekproef is een representatief gedeelte van een populatie die we willen onderzoeken. Een populatie is dan weer een verzameling van alle subjecten waarop een studie van toepassing is. Stel dat je bijvoorbeeld de snuffelvaardigheid van honden in Europa wil onderzoeken. De populatie bestaat in dat geval uit alle honden in Europa.

Je zal echter heel lang bezig zijn met je onderzoek als je echt de test met alle honden uit Europese landen zou uitvoeren (weetje: de hondenpopulatie in Europa bestaat uit meer dan 92 miljoen honden!). Daarom dat we in zo’n geval werken met steekproeven. Door een selectie van honden te nemen die representatief is voor de populatie, kunnen we onze test uitvoeren op de selectie. Dan kunnen we toch uitspraken doen die geldig zijn voor de volledige populatie! Die representativiteit regelen we met behulp van steekproeftrekkingen. Als je graag (terug) bijleert over de verschillende soorten steekproeftrekkingen, kan je terecht bij ons artikel over steekproef en populatie.

1. Waarom hebben we betrouwbaarheidsintervallen nodig?

Eenmaal we onze steekproef hebben, gaan we hiermee aan de slag voor ons onderzoek. Standaard bereken we een aantal ‘parameters’. Parameters zijn eigenschappen in de statistiek die de steekproef beschrijven, bijvoorbeeld het gemiddelde. Dit doen we omdat we eigenlijk geïnteresseerd zijn in de eigenschappen of parameters van de populatie. Deze kennen we niet, maar als we een representatieve steekproef hebben genomen, gaan we ervan uit dat onze berekende parameters voor de steekproef ook representatief zijn voor de parameters van de populatie. Concreet beschouwen we de parameters van de steekproef als schattingen van de werkelijke populatieparameters waarin we geïnteresseerd zijn. In ons hondenonderzoek kunnen we bijvoorbeeld geïnteresseerd zijn in het gemiddelde aantal minuten dat een hond moet snuffelen om een verstopt koekje te vinden.

Wanneer we met een steekproef een parameter zoals het gemiddelde berekenen, is dat dus altijd een schatting. Daaruit volgt dat we niet helemaal zeker zijn over de werkelijke waarde van de parameter. Die werkelijke waarde kennen we niet. We hebben immers een steekproef hebben genomen in plaats van de volledige populatie te onderzoeken. Om de resultaten van ons onderzoek goed te kunnen bespreken, is het handig om een idee te hebben hoe betrouwbaar onze schatting is en met welke foutenmarge we nog rekening moeten houden. Dit is de rol van het betrouwbaarheidsinterval.

2. Wat is de betekenis van een betrouwbaarheidsinterval?

Concreet bestaat een betrouwbaarheidsinterval uit twee waardes: een hoog cijfer en laag cijfer. Die geven samen het bereik weer van een parameter. Stel dat we een gemiddelde berekend hebben van 25 minuten met een betrouwbaarheidsinterval van [15, 35]. Het bereik van 15 tot 35 minuten geeft aan hoe groot onze foutenmarge is. De parameter bevindt zich altijd in het midden van dit interval, de foutenmarge is immers symmetrisch, zowel positief als negatief. Je zal daarom meestal de volgende notatie zien: 25 ± 10 minuten. 10 is hier de foutenmarge. Hoe groter de foutenmarge, hoe minder precies het betrouwbaarheidsinterval is. In dat geval is het bereik waarbinnen onze geschatte parameter kan vallen immers groter.

Een betrouwbaarheidsinterval wordt gewoonlijk ook vergezeld van een specifiek percentage. Er wordt bijvoorbeeld gesproken over een ‘95 % betrouwbaarheidsinterval’. Een betrouwbaarheidsinterval van 95% is de standaard, al kan je soms ook betrouwbaarheidsintervallen van 90% of 99% tegenkomen. Dit percentage is het betrouwbaarheidsniveau en is belangrijk voor de interpretatie van het betrouwbaarheidsinterval.

3. De juiste interpretatie van betrouwbaarheidsintervallen van vb 95%

Je zal nu misschien geneigd zijn om een betrouwbaarheidsinterval van bijvoorbeeld 95% als volgt te interpreteren: “er is 95% kans dat de werkelijke populatieparameter binnen het betrouwbaarheidsinterval van [15, 35] valt”. Dit is echter niet correct! Bij een specifiek betrouwbaarheidsinterval valt de werkelijke populatieparameter ofwel in ofwel buiten het interval. Maar we hebben geen idee welke van de twee het is!

Wat we wel kunnen weten, is wat er theoretisch gebeurt als we herhaaldelijke steekproeven zouden nemen. De juiste (technische) interpretatie luidt als volgt: er is 95% kans dat een betrouwbaarheidsinterval op basis van een willekeurige steekproef de werkelijke populatieparameter bevat. Dit wil concreet het volgende zeggen: stel dat we 100 keer een nieuwe willekeurige steekproef nemen van onze populatie. Elke keer berekenen we het steekproefgemiddelde en het betrouwbaarheidsinterval. Van die 100 zullen dan in principe 95 betrouwbaarheidsintervallen de werkelijke populatieparameter bevatten. Bij een betrouwbaarheid van 90% geldt hetzelfde: voeren we 10 steekproeven uit, dan zullen 9 intervallen de juiste parameter bevatten, maar eentje niet.

Tegelijkertijd wil dit principe ook zeggen dat de werkelijke populatieparameter bij enkele van die betrouwbaarheidsintervallen niet in dat bereik valt. Met andere woorden: zelfs als we onze steekproef volledig volgens de regels van de kunst hebben uitgevoerd, parameters en betrouwbaarheidsintervallen hebben berekend zoals het moet, bestaat er nog altijd een hele kleine kans dat we er toch naast zitten (zonder dat we het weten). Dit is bijvoorbeeld een reden waarom verkiezingspeilingen, die ook werken op basis van een steekproef, soms de verkeerde winnaar voorspellen. Gek, he?

4. Het betrouwbaarheidsinterval berekenen

Je kan betrouwbaarheidsintervallen berekenen door statistische software zoals SPSS, of we kunnen het ook zelf berekenen met de hulp van een rekenmachine of online calculator. We gebruiken hier het gemiddelde als voorbeeld, omdat dit een vaak voorkomende parameter is-. Maar je kan ook betrouwbaarheidsintervallen berekenen voor andere parameters, bijvoorbeeld proporties. Elke parameter heeft zijn eigen formule. De interpretatie blijft dezelfde. De standaardformule voor de berekening van een betrouwbaarheidsinterval voor het steekproefgemiddelde ziet er als volgt uit:

Laten we dit stap per stap bekijken:

4.1 De terugkeer van een oude bekende: de z-score

De z-score zal je misschien bekend voorkomen, zeker als je ons vorige artikel over de normale verdeling hebt gelezen. De z-score vertelt ons binnen hoeveel standaardafwijkingen we zitten als onze observaties zouden normaliseren naar de standaardnormale verdeling. Bij een standaardnormale verdeling ligt ongeveer 68%, 95% en 99,7% van alle observaties binnen respectievelijk 1, 2, en 3 standaardafwijkingen aan weerszijden van het gemiddelde. Bij de berekening van betrouwbaarheidsintervallen gebruiken we deze eigenschap om een betrouwbaarheidsinterval met een specifiek betrouwbaarheidsniveau te berekenen.

Zoals eerder gezegd, heeft een standaard betrouwbaarheidsinterval een betrouwbaarheidsniveau van 95%. Dit komt dus overeen met ongeveer 2 standaardafwijkingen. De exacte z-score die we hier nodig hebben is 1,96 (afgerond is dit 2, vandaar dat soms over ‘ongeveer’ 2 standaardafwijkingen gesproken wordt, maar in de formule gebruiken we de exacte waarde). Dit is de kritische z-score die we gebruiken in de formule. Voor een betrouwbaarheidsinterval van 90% of 99% is de kritische z-score respectievelijk 1,65 en 2,58. Deze waardes komen uit de standaardnormale tabel of z-tabel. Dat is een wiskundige tabel waarin je kan opzoeken hoeveel % van een verdeling overeenkomt met een bepaalde z-score. Hier vind je een voorbeeld. Strikt genomen hoef je deze kritische z-scores niet op te zoeken, maar kan je ze uit het hoofd leren, gezien het altijd om dezelfde vaste waardes gaat (bijvoorbeeld 1,96 voor een 95% betrouwbaarheidsinterval).

4.2 De nobele onbekende: de standaardfout

Ondertussen hebben we dus de volgende delen van onze formule: het steekproefgemiddelde en de kritische z-score. Blijft nog over: de standaardfout van het gemiddelde. Deze berekenen we op basis van de standaardafwijking van de populatie (σ) en het aantal subjecten in onze steekproef (n) als volgt:

We moeten dus voor bovenstaande berekening van het betrouwbaarheidsinterval de standaardafwijking van de populatie kennen. Maar net zoals het gemiddelde is het betrouwbaarheidsinterval ook een parameter van de populatie, die we vaker niet dan wel kennen. Hier moeten we dus een mouw aan passen. Hiervoor kijken we in de eerste plaats naar de grootte van onze steekproef.

4.2.1 Steekproef is groter dan of gelijk aan 30

Als onze steekproef groot genoeg is, kunnen we de standaardafwijking van de populatie gewoon vervangen door de standaardafwijking van de steekproef (s). De vuistregel voor ‘groot genoeg’ is gewoonlijk dat n (het aantal subjecten in je steekproef) groter is dan of gelijk is aan 30. De berekening van het 95% betrouwbaarheidsinterval verloopt dan concreet als volgt:

4.2.2 Steekproef is kleiner dan 30: t-verdeling

Als we de standaardafwijking van de populatie (σ) niet kennen en n is kleiner dan 30, hebben we wat meer hulp nodig. We kunnen in dit geval niet meer gebruik maken van de link met de normale verdeling. In de plaats daarvan, vragen we hulp van de t-verdeling, ook wel Studentverdeling genoemd, naar de wiskundige die de verdeling ontwikkeld heeft.

Zoals je kan zien, lijkt de t-verdeling heel hard op de normale verdeling. In feite is de t-verdeling zo goed als hetzelfde van zodra n groter is dan 30. Is n kleiner dan 30 (zoals op de afbeelding), dan zal de t-verdeling platter worden en zowel links als rechts grotere staarten krijgen. Dit wil zeggen dat de t-verdeling beter rekening houdt met meer waarden die verder vallen van het gemiddelde. Dit is realistischer voor kleinere steekproeven dan de normaalverdeling. Vandaar de vuistregel dat we de z-score kunnen gebruiken voor n ≥ 30 en de t-score voor n < 30.

Weetje: in je cursus statistiek kom je mogelijk ook de ‘t-test’ tegen, een methode voor hypothesetoetsing van een gemiddelde (of twee). Deze test werkt ook op basis van de t-verdeling.

Net zoals we de kritische z-score kunnen opzoeken in de standaardnormale tabel, kunnen we die ook opzoeken voor de kritische t-score, in de tabel voor de t-verdeling.

De formule ziet er dan als volgt uit:

De kritische t-score is afhankelijk van n, onze steekproefgrootte, dus integendeel tot de z-score kunnen we die niet vanbuiten leren, maar altijd opzoeken in de t-tabel.

De t-score zoeken we als volgt op:

5. Betrouwbaarheidsintervallen klein houden: kwestie van steekproefgrootte

Het betrouwbaarheidsinterval is een reflectie is van hoe betrouwbaar onze schatting is en hoe groot de mogelijke foutenmarge is. Daarom willen we deze zo klein mogelijk houden. Soms willen we zelfs om praktische redenen dat ons betrouwbaarheidsinterval niet groter is dan een bepaald bereik. Hoe kunnen we dit verzekeren? We kunnen dit doen vóór we onze steekproef uitvoeren, door te berekenen hoe groot onze steekproef moet zijn om een bepaald maximum interval te garanderen.

Dit wiskundige trucje volgt uit de formule van de standaardfout: n bevindt zich daar immers in de noemer. Bij een breuk kunnen we door de noemer te verhogen terwijl de teller gelijk blijft, de uitkomst verkleinen. Zo is ¼ stuk taart kleiner dan ½ taart. Om het betrouwbaarheidsinterval te verkleinen moeten we dus de steekproefgrootte verhogen. Handig!

Op basis van dit principe kunnen we ook de nodige steekproefgrootte berekenen als we graag het maximale bereik van het betrouwbaarheidsinterval willen begrenzen. Hiervoor zetten we de formule van de foutenmarge (E) om naar een formule voor de nodige steekproefgrootte, en komen we uit op:

E is hierbij de gewenste foutenmarge, z de kritische z-score (bijvoorbeeld 1,96 voor een 95% betrouwbaarheidsinterval) en σ de standaardafwijking van de populatie (dat voor deze berekening gekend moet zijn!). Bijvoorbeeld, stel dat we in ons voorbeeld een foutenmarge willen van maximum 2 minuten. De standaardafwijking kennen we als 10 minuten. Dan komen we uit op een minimum n van 96 hondjes om de gewenste foutenmarge te halen met een 95% betrouwbaarheidsniveau.

Ziezo, betrouwbaarheidsintervallen hebben nu geen geheimen meer voor jou. Net zoals de hondjes die onze snuffeluitdaging hebben voltooid, heb je nu wel een beloning verdiend!

Begrijp je toch nog niet helemaal de betrouwbaarheidsintervallen, of worstel je met andere onderdelen zoals de normaalverdeling of in het algemeen met wiskunde of statistiek? Vraag dan vrijblijvend een bijlesdocent wiskunde of bijles statistiek aan om je te helpen bij je pijnpunten!

🌐 BijlesHuis - Vind de perfecte lesgever

Laat hieronder je gegevens achter en blijf zo op de hoogte van onze nieuwste artikels! Je ontvangt verder geen reclame of andere e-mails.