Statistiek voor beginners (3/4): Steekproef en populatie

Bijleren: wiskunde, Frans,... 5 min read

In de voorbije delen van deze reeks over statistiek gingen we in op het gemiddelde, de mediaan en de modus en opdelen volgens variabelen. Statistiek gaat dus over het verzamelen, het ordenen, het analyseren en het interpreteren van gegevens. Vandaag kijken we binnen het onderdeel 'gegevens verzamelen' naar populatie en soorten steekproeven.

Statistiek: steekproef en populatie

Populatie

De allereerste beslissing die je neemt bij een statistisch probleem is het bepalen van de doelgroep, de populatie. De populatie is de verzameling van alle elementen die interessant zijn voor een studie.

populatie statistiek

Stel: je wil een vitaminepilletje voor honden op de markt brengen, genaamd VitaHond. Je wil VitaHond introduceren in twee landen: België en Nederland. Het eerste wat je doet, is onderzoek uitvoeren naar het energiepeil van honden. De populatie van dit statistisch onderzoek is logischerwijs alle honden in België en Nederland. Geen katten, geen honden in andere landen. Dat zou namelijk verkeerde resultaten voor je vitaminepil opleveren.

Steekproef

steekproef statistiek

Het is niet mogelijk om alle honden in België en Nederland te gaan onderzoeken. Oké, misschien in theorie wel, maar in praktijk is dat niet kost- en tijdsefficiënt. Daarom onderzoek je een gedeelte van de populatie: een steekproef of monster. In dit geval onderzoek je een aantal honden in België en Nederland.

Kaderfouten

Wanneer we een steekproef uitvoeren (= het onderzoek uitvoeren bij een deel van de populatie) moet de steekproef een perfecte weergave zijn van de populatie. Meten we bijvoorbeeld enkel honden bij een temperatuur van 35°C, ligt het gemiddelde energiepeil veel lager dan het reële gemiddelde. Meten we enkel puppy's, dan ligt het gemiddelde een stuk hoger dan bij oudere honden. De steekproef is in die gevallen niet representatief. Het is belangrijk dat een steekproef de populatie vertegenwoordigt. Indien de steekproef geen perfecte weergave is, noemen we dat kaderfouten.

kaderfouten statistiek
Ocharme.

Statistiek: indelen van steekproeven

Indeling door toeval

Probabilistische steekproeven

In een probabilistische steekproef (of een aselecte steekproef) heeft elk element van de populatie een bekende en even grote kans om gekozen te worden.

Als je enkele studenten van een klas wil selecteren om mee te doen aan een enquête, is het een probabilistische steekproef als je ze selecteert uit een complete lijst.

Niet-probabilistische steekproeven

Men spreekt van een niet-probabilistische steekproef of selecte steekproef wanneer de elementen niet via toeval uit een populatie worden genomen. Dat gebeurt als de elementen van de populatie niet evenveel kans hebben om getrokken te worden.

Als een leerling pas later in het schooljaar de klas vervoegd heeft, en hij staat nog niet op de lijst, wordt de steekproef niet-probabilistisch omdat die student geen kans meer heeft om gekozen te worden.

Indeling door het opleggen van beperkingen

Restrictieve steekproeftrekkingen

Bij restrictieve steekproeftrekkingen zijn er beperkingen opgelegd. We doen dat om kaderfouten te vermijden. We kiezen bijvoorbeeld om de steekproef uit te voeren bij zwaardere gebruikers.

Het doelpubliek van VitaHond zijn vooral volwassen honden -gezien de meeste puppy's geen energieproblemen hebben. We kiezen hier voor de voorwaarde/beperking dat enkel volwassen honden meedoen aan ons onderzoek.

Niet-restrictieve steekproeftrekkingen

We spreken van niet-restrictieve steekproeftrekkingen als er geen voorwaarden of beperkingen zijn.

Soorten steekproeven

soorten steekproeven statistiek

Gemakkelijkheidssteekproef

= accessibility sampling, convenience sampling

De gemakkelijkheidssteekproef is wat het woord zelf zegt: gemakkelijk. We selecteren de variabelen omdat ze het eenvoudigst te werven zijn voor de studie. De onderzoeker heeft niet overwogen onderwerpen te selecteren die representatief zijn voor de gehele populatie.

Bijvoorbeeld, je gaat wandelen en pikt er voor je onderzoek honden uit die je passeert. Dat is geen perfecte weergave van de realiteit, aangezien er dan waarschijnlijk geen honden die vaak binnenzitten zijn meegenomen in je onderzoek.

statistiek steekproeven

Beoordelingssteekproef

= quota sampling, judgement sampling

De onderzoekers vormen hier een steekproef met individuen die de populatie vertegenwoordigen. De elementen zijn gekozen op basis van kenmerken of kwaliteiten.

Aangezien vooral volwassen honden VitaHond gebruiken, is een criteria: enkel volwassen honden.

steekproevne statistiek

Sneeuwbalsteekproef

De sneeuwbalsteekproef in statistiek passen we toe als de monsters kenmerken hebben die zeldzaam zijn om te vinden. Je al gevonden onderwerpen helpen jou dan om meer monsters te rekruteren die nodig zijn voor een onderzoeksstudie.

Indien je geen lijsten kan verkrijgen van honden waarvan de baasjes al eens vitaminen gekocht hebben, is de sneeuwbalsteekproef een goed alternatief. Via de aanwijzingen van één persoon vind je meerdere baasjes. Je rekent op één iemand om de 'bal' zo verder aan het rollen te brengen.

statistiek sneeuwbalsteekproef

Volledig aselecte steekproef

Synoniemen: simple random sample

De steekproefelementen hebben bij een volledig aselecte steekproef evenveel kans om gekozen te worden. Je doet dat door middel van een tabel met toevalsgetallen, een Excel-lijst van alle deelnemers of bepaalde websites: random number generations. Het is echter niet gemakkelijk om een volledig accurate lijst te hebben van de volledige populatie.

We hebben in ons voorbeeld een lijst van alle geregistreerde honden in België en Nederland verkregen. Door middel van random number generations selecteer je een aantal honden voor het onderzoek.

aselecte steekproef statistiek

Systematische steekproef

Andere benamingen: Systematic random sample

Bij een systematische steekproef maken we ook gebruik van een lijst. Hier maak je geen gebruik van random number generations. Je berekent eerst een interval. Dit is het quotiënt van de populatie N en de steekproefgrootte n en noemen we het steekproefinterval. Hierna neem je een willekeurig getal tussen 1 en het steekproefinterval: het beginpunt.

De lijst telt ongeveer 3,7 miljoen honden, waarvan we 10000 honden gaan onderzoeken. Dan is het steekproefinterval 3 700 000 / 10 000=370. We nemen dan een willekeurig getal tussen 1 en 10 000, bijvoorbeeld 430. De onderzochte honden zijn: 430, 800, 1170, 1540, 1910, etc.

Gestratificeerde steekproef

We verdelen de populatie eerst in groepen. De algemene steekproef bestaat uit een aantal elementen uit elke groep. De elementen van elke groep kiezen we willekeurig. Dit is een goede steekproef want op die manier is elke soort vertegenwoordigd.

We delen de honden in per ras. Van elk ras selecteren we een aantal honden om ons onderzoek op uit te voeren.

Cluster

De clustersteekproefmethode lijkt op de steekproef hierboven, maar is net iets anders. We verdelen de populatie ook eerst in groepen. De algemene steekproef bestaat uit elk lid van een aantal van de groepen. De groepen selecteren we willekeurig.

Voorbeeld: We hebben van alle asielen lijsten gekregen van hun honden. We kiezen random enkele asielen eruit en doen onderzoek op alle honden in de asielen.

cluster statistiek

Voila, nu ben je gelijk een expert in soorten steekproeven! Klaar voor de volgende stap in statistiek? Hou onze blog dan zeker in de gaten.

Nouchka van BijlesHuis heeft een voorliefde voor cijfers en berekeningen. In deze reeks helpt ze jou om enkele concepten van statistiek beter te begrijpen. Vragen over dit artikel? Stuur een mailtje naar nouchka@bijleshuis.be en ze geeft je met plezier meer uitleg! Op zoek naar individuele bijles voor wiskunde? Neem dan een kijkje bij BijlesHuis.

Laat hieronder je gegevens achter en blijf zo op de hoogte van onze nieuwste artikels! Je ontvangt verder geen reclame of andere e-mails.

wiskunde wiskunde beter begrijpen statistiek steekproef populatie bijles bijles wiskunde