Hoofdstuk 1 – Inleiding
Statistiek verwijst vaak naar numerieke informatie, bijvoorbeeld informatie over:
de bevolking van een land: geboorte- en sterftecijfers, immigraties en emigraties, …
(bevolkingsstatistieken)
de Vlaamse landbouw en visserij: aantal bedrijven, bedrijfsgrootte, productie/aanvoerhoeveelheid, …
dierproefstatistieken
Maar statistiek is eigenlijk meer dan dat. Het wordt gezien als een wetenschap die zich bezighoudt met het
verzamelen, analyseren en interpreteren van gegevens om vooropgestelde onderzoeksvragen te kunnen
beantwoorden. Deze gegevens zijn vandaag de dag vaak talrijk aanwezig. Zo vormt het internet een bron aan
informatie (heel veel datasets terug te vinden), maar vaak worden de gegevens ook zelf actief verzameld door
bijvoorbeeld het uitvoeren van experimenten of het afnemen van enquêtes.
Eens de nodige gegevens verzameld zijn is het dus belangrijk om deze te verwerken tot bruikbare informatie om
een antwoord te kunnen geven op de vooropgestelde onderzoeksvragen, zoals bijvoorbeeld:
Heeft een nieuwe meststof invloed op de plantengroei?
Wat is de invloed van regelmatig joggen op bloeddruk?
Wordt de groei van tarwewortels geremd door hoge niveaus van aluminiumionen in de bodem?
Is er een verschil in visie tussen jongeren en ouderen wat betreft de voedselveiligheid?
Heeft socialisatie bij pups een effect op het latere gedrag?
Deze vragen kunnen zelden tot nooit beantwoord worden bij het louter bekijken van de verzamelde gegevens. Zo
zal je om na te gaan of een nieuwe meststof een invloed heeft op de plantengroei op zijn minst al de gemiddelde
lengte van de planten moeten berekenen (deze eenvoudige verwerking van de gegevens behoort ook al tot het
luik statistiek). Daarnaast moet je bij het beantwoorden van deze onderzoeksvragen ook rekening houden met het
feit dat de verzamelde gegevens onderhevig zijn aan variatie. Dit laatste wordt geïllustreerd aan de hand van
onderstaand voorbeeld:
Begrippen biologische en systematische variatie
Voorbeeld 1.1
Hoe iemand reageert op aspirine en of dit voor iedereen even effectief is, is meestal niet exact te voorspellen en
hangt af van:
mensen verschillen in gewicht, ziektegraad, gevoeligheid voor een stof, …
wanneer ingenomen 's morgens of 's avonds, als persoon moe of uitgerust is, voor of na het eten, op
geregelde tijdstippen of met onregelmatige intervallen, …
variatie binnen een persoon, bloeddruk vandaag of morgen op exact hetzelfde tijdstip kan al sterk
variëren
De aanwezigheid van die biologische variabiliteit is bijzonder opvallend in de context van roken: de schadelijke
gevolgen van roken op longkanker en hartaandoeningen zijn intussen goed gekend, maar nagenoeg iedereen
kent wel iemand die zijn hele leven gerookt heeft en desondanks meer dan 80 jaar oud geworden is.
Omwille van deze biologische variabiliteit is het moeilijk om wetenschappelijke vragen goed te beantwoorden en
zal men zelden onmiddellijk het antwoord zien na het bekijken van ruwe gegevens.
Laat ons teruggaan naar de vraag of een nieuwe meststof effect heeft op de plantengroei. Om dit te achterhalen
zou een experiment kunnen uitgevoerd worden waarbij een groep planten de oude meststof krijgt toegediend en
een andere groep de nieuwe meststof. Indien er verschillen merkbaar zijn in de plantengroei tussen de twee
groepen dan zullen we met statistiek proberen na te gaan hoeveel van deze verschillen in plantengroei toe te
schrijven is aan systematische verschillen (in dit geval het gebruik van een andere meststof) en hoeveel toe te
schrijven is aan toeval of biologische variatie.
,Doel van statistiek
Onderzoeksvragen beantwoorden
Zelden antwoord na bekijken gegevens
Uitkomsten zijn onderhevig aan variatie
o Voorbeeld: effect van meststof op plantengroei hangt af van:
Omgeving: sommige planten in de zon, anderen in de schaduw
Wanneer werd bemesting toegediend: droge periode of natte periode
Verschil in individuele planten: sommige planten zijn zwakker
o Biologische variabiliteit
Met statistiek kan men kwantitatieve data verwerken tot bruikbare informatie
Aan de hand van statistiek proberen duidelijk te maken hoeveel variatie op de gegevens
o Is te verklaren door systematische verschillen
o Is te verklaren door toeval of biologische variatie
Toegepast op voorbeeld: effect meststof op plantengroei
o We zien verschillen in plantengroei (variatie in plantengroei)
o Aan de hand van statistiek proberen duidelijk te maken hoeveel variatie in plantengroei
Is te verklaren door systematische verschillen
Voorbeeld: verschil in meststof (oude VS nieuwe) effect van meststof
Is te door toeval of biologische variatie
Voorbeeld: verschil in individuele planten
Onderwerp van statistiek
Populatie: verzameling van alle objecten, subjecten waarover we uitspraak doen
Alle veehouders in Vlaanderen
Alle planten van een bepaalde soort
Gegevens: geobserveerde / geregistreerde eigenschappen of karakteristieken variabelen
Grootte van de plan (in cm), toegediend meststof (oude of nieuwe)
Meestal populatie heel groot, geen tijd of budget om elk element te observeren
Steekproef: een voldoende grote en representatieve deelgroep van de populatie wordt bestudeerd.
,Hoofdstuk 2 – Beschrijvende statistiek
Doel van dit hoofdstuk:
Juiste keuze grafiek
Keuze geschikte samenvattingsmaten
Interpretatie grafieken en maatstaven om zo tot een conclusie te komen voor de steekproef
Opmerking: het maken van de grafieken en het berekenen van de maatstaven komt aan bod in de handleiding van
SPSS
Voorbeeld: slagtanden
Parkwachters in het Mikumi National Park in Tanzania verzamelden in 1983 gegevens i.v.m. de slagtanden van
olifanten (dode olifanten = subject dat we bestuderen).
Id: identificatie olifant
Aantal: aantal resterende slagtanden
Gewicht 1: de massa in kg van de grootste resterende slagtand
Klasse 1: gewichtscategorie van de grootste resterende slagtand: 1= licht, 2=licht tot middelmatig, 3=middelmatig tot
zwaar, 4=zwaar
Oorzaak: doodsoorzaak: 1=ziekte, 2=stropers, 3=trein, 4=onbekend, 5=controle (d.i. parkwachters doden soms
olifanten omwille van de gevaren die ze stellen voor dorpen, toeristen, …)
o 1 = … ; 2 = … ; … = codering van een klasse/variabele
o Variabelen: id, aantal, gewicht, klasse, oorzaak, …
Id Aantal Gewicht 1 Klasse 1 Oorzaak
1 2 9,03 3 2
2 2 12,03 4 3
3 2 4,50 2 2
4 1 2,50 1 1
5 2 1,50 1 1
6 1 0,50 1 1
7 1 2,50 1 2
… …
Deel van de verzamelde dataset verschillende variabelen (kolommen), verschillende subjecten (rijen)
Voorbeeld stroomgebied
Chemische eigenschappen van beboste stroomgebieden
Catskill bergen in New York State
39 sites op eerste en tweede orde stromen (39 subjecten/waarnemingen)
Concentraties van 10 chemische variabelen gemiddeld over 3 jaar
Welke variabelen/eigenschappen werden er per staal waargenomen?
Stroom: naam van de stroom
Max: maximale hoogte (in m) van de rivier
Samp: hoogte (in m) van de site waar de stalen genomen werden
Lengte: lengte (in m) van de stroom
Opp: grootte (in ha) van het stroomgebied
NH4: 𝑁𝐻4+ concentratie (in μmol per liter)
SO4: 𝑆𝑂42− concentratie (in μmol per liter)
CL: 𝐶𝐿− concentratie (in μmol per liter)
Hoogtecat: 1=stalen die minstens 500 m boven de zeespiegel verzameld werden, 0=alle resterende stalen
STROOM MAX SAMP LENGTE OPP NH4 SO4 CL HOOGTECAT
Santa Cruz 1006 680 1680 23 0,8 50,6 15,5 1
Colgate 1216 628 3912 462 1,4 55,4 16,4 1
Halsey 1204 625 4032 297 0,8 56,5 17,1 1
Batavia Kill 1213 663 3072 399 1,4 57,5 16,8 1
Windham Ridge 1074 616 2520 207 0,6 58,3 18,3 1
Silver Spring 1113 451 3120 348 1,1 63 15,7 0
Little Timber 1027 463 2064 179 1,4 66,5 26,9 0
… …
Kolommen: verschillende variabelen; rijen: waarnemingen/subjecten (39 rijen origineel – dit is een stukje)
, Variabele
Variabele: geobserveerde eigenschap van de bestudeerde subjecten.
Waarde/uitkomst van een variabele varieert van subject tot subject
Wordt verzameld in een dataset die verder bestudeerd wordt
Oefeningenbundel: oefening 2
Een kweker van vissen heeft de keuze uit 3 verschillende visvoeders bij zijn leverancier. Om te beslissen welk visvoeder hij in
de toekomst gaat gebruiken voor zijn vissen, wil de kweker nagaan of het type visvoeder een invloed heeft op het
lichaamsgewicht van vissen. Om deze vraag te beantwoorden plaatst de kweker 90 jonge vissen (van eenzelfde soort en met
gelijkaardig startgewicht) willekeurig in 3 verschillende tanks (iedere tank 30 vissen) waarbij iedere tank een ander visvoeder
krijgt. Na 24 weken, wanneer de vissen volgroeid zijn, meet de kweker het lichaamsgewicht van iedere vis.
Welke variabelen worden er hier bestudeerd om de onderzoeksvraag te kunnen beantwoorden?
o Type visvoeder dat iedere vis krijgt = kwalitatief nominaal
o Lichaamsgewicht (eindgewicht) van iedere vis = kwantitatief continue
Meetschaal van variabelen
Meetschaal van de variabele is cruciaal voor bepalen van:
o Geschikte grafiek
o Geschikte associatiemaat
o Eerste stap ter bepaling geschikte hypothesetest
Type variabelen/meetschalen
o Kwalitatieve variabelen (geen getallen)
Nominale variabelen (categorieën die je niet kan ordenen)
Vb: bloedgroep, kleur ogen, geslacht, …
Ordinale variabelen (categorieën die je kan ordenen)
Vb: gewichtscategorie, antwoorden op enquêtes, …
o Kwantitatieve variabelen (getallen)
Discrete variabelen (niet oneindig achter de komma)
Vb: tellingen/aantallen
Continue variabelen (oneindig achter de komma)
Vb: leeftijd, gewicht, …
Oefening: welke soort variabele?
Id Kwalitatief nominaal
Aantal Kwantitatief discreet
Gewicht 1 Kwantitatief continue
Klasse 1 Kwalitatief ordinaal
Oorzaak Kwalitatief nominaal
Naam van de stroom Kwalitatief nominaal
Maximale hoogte (in m) van de rivier Kwantitatief continue
Hoogte (in m) van de site waar de stalen genomen werden Kwantitatief continue
Lengte (in m) van de stroom Kwantitatief continue
Grootte (in ha) van het stroomgebied Kwantitatief continue
NH4+ concentratie (in µmol per liter) Kwantitatief continue
SO4 2- concentratie (in µmol per liter) Kwantitatief continue
Cl- concentratie (in µmol per liter) Kwantitatief continue
Hoogtecategorie: 1 = stalen die minstens 500 m boven de Kwalitatief nominaal/ordinaal
zeespiegel verzameld werden, 0 = alle resterende stalen
Univariate beschrijving
Naar iedere variabele apart kijken, meer bepaald:
o Hoe zijn de geobserveerde waarden van een variabele verdeeld (locatie en spreiding)?
Locatie = centrum = rond welk getal liggen de waarden
Spreiding = liggen de waarden dicht of ver van elkaar
o Uitschieters of extreme waarden (outliers)?
In eerste instantie kan dit grafisch bekeken worden
Keuze grafieken en tabellen afhankelijk van type variabelen/meetschaal meetschalen spelen belangrijke rol