In dit artikel in onze reeks over statistiek gaan we dieper in op de normaalverdeling en alles wat erbij hoort: haar eigenschappen, de standaardnormale verdeling, de z-score en de centrale limietstelling. De normaalverdeling is niet eenvoudig! Daarom leggen we alles uit aan de hand van duidelijke voorbeelden, met honden.😊

Een verdeling geeft alle mogelijke waarden van een bepaalde variabele weer (horizontaal op de X-as), samen met de frequentie of kans waarmee deze waardes voorkomen (verticaal op de Y-as). Wat is een variabele ook al weer? Neem een kijkje naar ons artikel over variabelen als je wat opfrissing nodig hebt.

De normaalverdeling heeft haar naam niet gestolen: deze verdeling komt zo vaak voor, dat we ze als de norm kunnen beschouwen. Enkele voorbeelden van variabelen die geneigd zijn de normaalverdeling te volgen, zijn: lengte, gewicht, IQ, examenresultaten, leeftijd, … De normaalverdeling is zonder twijfel een van de werkpaarden van de statistiek, die de basis vormt van veel gevorderde statistiek, zoals hypotheses testen.

Normaalverdeling gewicht van honden uit de hondenschool Canis

Kenmerken van de normaalverdeling

De normaalverdeling heeft een zeer herkenbare vorm: de centrale piek van de curve wordt gevormd door het gemiddelde, en naarmate we verder weggaan van het midden, wordt de curve steeds platter. Deze vorm lijkt met een beetje fantasie op een klok of bel (zoals in de kerktoren) en wordt daarom ook wel de klokcurve genoemd (of “bell curve” in het Engels).

Bell curve

Deze vorm wordt mee bepaald door de standaardafwijking, die ons iets zegt over hoe verspreid de variabele is. Als je graag meer weet over wat de standaardafwijking juist inhoudt, kan je meer uitleg vinden in dit artikel over standaardafwijking.

Ziet de normaalverdeling er smal en lang uit, dan is de standaardafwijking klein en zullen de meeste waardes van de variabelen niet ver afwijken van het gemiddelde. Ziet de normaalverdeling er breed en plat uit, dan is de standaardafwijking groot en zitten we wel met een groot bereik van waardes kleiner of groter dan het gemiddelde. Hier kan je zelf experimenteren met verschillende waardes om te zien hoe de vorm van de normaalverdeling verandert.

Kleine versus grote standaardafwijking

Eigenschappen van de normaalverdeling die ons helpen rekenen

De normaalverdeling heeft daarnaast ook een aantal eigenschappen die ons een handje toesteken als je berekeningen moeten maken: perfecte symmetrie, gemiddelde/mediaan/modus zijn gelijk en we weten altijd hoeveel % van onze populatie hondjes binnen hoeveel standaardafwijkingen valt.

Perfecte symmetrie

De verdeling is perfect symmetrisch rond het gemiddelde, en is dus exact hetzelfde links en rechts van het gemiddelde, net zoals je spiegelbeeld er exact hetzelfde uitziet als jij.

Perfecte symmetrie

Gemiddelde, mediaan en modus zijn gelijk in elke normaalverdeling

Het gemiddelde, de mediaan en de modus zijn allemaal gelijk; ken je de waarde van een van de drie, kennen we ze dus direct alle drie zonder nog berekeningen te moeten maken. Wat het gemiddelde, de mediaan en de modus nu ook al weer precies zijn, lees je in ons eerste artikel over statistiek.

Hoe komt dit nu? Net zoals we hondenschool Canis kunnen herkennen als het huis met het logo van een hond midden op de gevel, kunnen we de normaalcurve herkennen als de klok met het gemiddelde in het midden. Is het gemiddelde niet in het midden en zie je de klokvorm niet, dan is het geen normaalcurve, net zoals een gebouw met een vitrine en het logo van een vis waarschijnlijk een viswinkel is en zeker geen hondenschool.

Van de mediaan weten we dat de helft kleiner is en de helft groter is dan deze waarde, dankzij de symmetrie van de normaalcurve weten we dus dat de mediaan ook in het midden ligt (en dan ook gelijk is aan het gemiddelde). Van de modus weten we dat dit de meest voorkomende waarde is en dus de piek vormt van de curve, die dankzij de symmetrie ook exact in het midden ligt.

De standaardafwijking verklapt om hoeveel % het gaat

Ongeveer 68%, 95% en 99,7% van alle waardes van een variabele met de normaalverdeling vallen altijd binnen respectievelijk 1, 2 en 3 standaardafwijkingen van het gemiddelde; met andere woorden, je kan dus heel makkelijk bepalen binnen welk minimum en maximum de overgrote meerderheid zal vallen als je het gemiddelde en de standaardafwijking kent.

Hoe komt dit? Wel, dit is een wiskundige eigenschap die voortkomt uit het feit dat de normaalcurve zo’n ideale vorm heeft en symmetrisch is. Als je normaalcurves zou tekenen van elke klas van hondenschool Canis en telkens oppervlakte onder de curve zou bereken die overeenkomt met 1, 2 en 3 standaardafwijkingen, zal je merken dat dit altijd geldt! Gelukkig hoef je al dit werk niet te doen, behalve dan deze regel onthouden.

De standaardnormale verdeling en de Z-score: hoe we appelen toch met peren kunnen vergelijken

Zoals eerder gezegd komen normaalverdelingen komen in allerlei vormen, van lang en smal tot breed en plat. Er is echter een specifieke vorm die we in de statistiek als ideaal beschouwen: de standaardnormale verdeling. Naast de eerder genoemde eigenschappen van de normaalverdeling, heeft de standaardnormale verdeling daar bovenop een gemiddelde van exact 0 en een standaardafwijking van exact 1.

Ideale standaardnormale verdeling met gemiddelde 0/standaardafwijking 1

Alhoewel alle normaalverdelingen ernaar streven zoals de standaardnormale verdeling te zijn, zijn ze in werkelijkheid altijd een beetje anders. Gelukkig kan je alle normaalverdelingen met een tik van de toverstaf omzetten naar de standaardnormale verdeling. Deze toverstaf heet de Z-score, ook wel standaardscore genoemd.

(Tover)formule van de Z-score

De Z-score voor een observatie (Zi) bereken je als volgt:

  1. Neem de waarde van de observatie (Xi)
  2. Trek hiervan het gemiddelde (X) af
  3. Deel dit getal door de standaardafwijking (s)

De uitkomst vertelt ons hoe ver de waarde van het gemiddelde valt:

  • Een Z-score van 0 betekent dat de observatie exact gelijk is aan het gemiddelde
  • Een Z-score van 1 vertelt ons dat de waarde 1 standaardafwijking groter is dan het gemiddelde
  • Omgekeerd vertelt een Z-score van -1 ons dat de waarde 1 standaardafwijking kleiner is dan het gemiddelde.
Z-scores

Toepassing 1 van de z-score: Normaliseren

Waarvoor kan je de Z-score nu concreet gebruiken? Een van de belangrijkste toepassingen is normaliseren, waarbij we twee verschillende variabelen of populaties gelijkschakelen, zodanig dat je ze goed met elkaar kunt vergelijken.

Stel bijvoorbeeld dat in hondenschool Canis twee hondensportexamens worden gegeven: flyball en frisbee vangen. Monty de Jack Russel scoorde 75 punten bij flyball terwijl Max de Duitse herder een score van 80 punten behaalde bij het frisbeeën. Is Max dan de sportiefste hond? De vergelijking is moeilijk. Gelukkig kan de Z-score je hierbij helpen.

De gemiddelde score van de deelnemende hondjes bij flyball was 60 punten met een standaardafwijking van 5 punten. De gemiddelde score bij het frisbee vangen was 70 punten met een standaardafwijking van 10 punten. Zowel Max als Monty deden dus beter dan gemiddeld. Maar als we de Z-score berekenen, kom je uit op een score van 3 voor Monty en een score van 1 voor Max. Met andere woorden, relatief gezien deed Monty het veel beter dan gemiddeld dan Max.

Toepassing 2 van de z-score: bepalen waarschijnlijkheid van een bepaalde waarde van een variabele

De tweede belangrijke toepassing is bepalen hoe waarschijnlijk een bepaalde waarde van de variabele is. Hiervoor maak je handig gebruik van de eigenschappen van de normaalverdeling die we eerder opgelijst hebben. Stel bijvoorbeeld dat we een IQ-test hebben voor honden, waarbij de hondjes gemiddeld een score van 100 punten behalen met een standaardafwijking van 15 punten. Ziva de Australische herder behaalde een score van 131 punten. Dit wil zeggen dat Ziva hoger scoort dan 97,5% van alle honden. Slimme hond! Hoe kom je nu aan dit getal?

We starten van de derde regel van de normaalverdeling: die vertelt je dat ongeveer 95% van alle honden heeft een IQ binnen twee standaardafwijkingen van het gemiddelde (dit komt overeen met een Z-score van 2), dus tussen 70 en 130. Daaruit kan je ook afleiden dat de 5% overige honden ofwel een IQ < 70 of een IQ > 130 heeft. Dankzij de tweede regel weet je dat het aantal honden met IQ <70 exact gelijk is aan het aantal honden met een IQ > 130, de normaalverdeling is immers symmetrisch. Die 5% kan je dus gelijk verdelen (2,5%+2,5%) en zo weet je dat het aantal honden met een IQ <130 gelijk is aan 97,5% en dat Ziva dus tot een select groepje van 2,5% slimme hondjes hoort!

IQ score

Om deze berekening te maken kan je ook gebruik maken van de standaardnormale tabel. Dit is een tabel die voor elke waarde van de Z-score weergeeft welke kans daarmee overeenkomt, ongetwijfeld een belangrijke bijlage bij jouw examen statistiek.

De standaard normale verdeling

Hoe de normaalverdeling ons helpt bij steekproeven en hypotheses testen

Tot slot heeft de normaalverdeling nog een laatste verrassing in petto. Alhoewel we van veel variabelen dus weten dat ze de normaalverdeling volgen, is dit niet voor alle variabelen zo. Als we steekproeven nemen, weten we heel vaak niet welke verdeling de variabele in de populatie volgt. Lees in dit artikel over steekproeven meer over wat ze zijn en waarom steekproeven zo belangrijk zijn.

Bovenstaande eigenschappen die ons leven makkelijker maken bij het maken van statistische berekeningen, zijn dan niet van toepassing. Er blijft echter nog een belangrijk trucje uit de statistische trukendoos over: de centrale limietstelling.

De centrale limietstelling

Deze wiskundige wet is een echte life saver als we met steekproeven werken. Concreet stelt de centrale limietstelling dat naarmate n (de steekproefgrootte of het aantal in onze steekproef) groter wordt, de verdeling van de steekproefgemiddeldes de normaalverdeling benadert en dat ze steeds dichter clusteren rond het echte (maar nobel onbekende) populatiegemiddelde. En dit ongeacht de oorspronkelijke verdeling van de populatie. Via deze link kan je zelf experimenteren met deze regel.

Dit staat je toe voor steekproeven met grote n (gewoonlijk is de vuistregel n > 30) gemiddeldes gemakkelijk te vergelijken op basis van de principes van de normaalverdeling en de Z-score. Hiermee zetten we een stap verder en komen we op het domein van de hypothesetoetsen. Zo kan je onder meer onderzoeken of er een significant verschil is tussen twee steekproefgemiddeldes en bijvoorbeeld de belangrijke vraag beantwoorden of katten gemiddeld slimmer zijn dan honden.

Begrijp je toch nog niet helemaal de normaalverdeling, of worstel je met andere onderdelen van wiskunde of statistiek? Vraag dan vrijblijvend een bijlesdocent wiskunde aan om je te helpen bij je pijnpunten!

🌐 BijlesHuis - Vind de perfecte lesgever

Laat hieronder je gegevens achter en blijf zo op de hoogte van onze nieuwste artikels! Je ontvangt verder geen reclame of andere e-mails.