Samenvatting van de hoorcolleges (alle theoretische info die je moet kennen omtrent het vak dataverwerking). De oefeningen zijn ook een onderdeel van dit vak maar je mag geen oefeningen gebruiken op het examen.
Hoofdstuk 1 – Inleiding
Statistiek verwijst vaak naar numerieke informatie, bijvoorbeeld informatie over:
de bevolking van een land: geboorte- en sterftecijfers, immigraties en emigraties, …
(bevolkingsstatistieken)
de Vlaamse landbouw en visserij: aantal bedrijven, bedrijfsgrootte, productie/aanvoerhoeveelheid, …
dierproefstatistieken
Maar statistiek is eigenlijk meer dan dat. Het wordt gezien als een wetenschap die zich bezighoudt met het
verzamelen, analyseren en interpreteren van gegevens om vooropgestelde onderzoeksvragen te kunnen
beantwoorden. Deze gegevens zijn vandaag de dag vaak talrijk aanwezig. Zo vormt het internet een bron aan
informatie (heel veel datasets terug te vinden), maar vaak worden de gegevens ook zelf actief verzameld door
bijvoorbeeld het uitvoeren van experimenten of het afnemen van enquêtes.
Eens de nodige gegevens verzameld zijn is het dus belangrijk om deze te verwerken tot bruikbare informatie om
een antwoord te kunnen geven op de vooropgestelde onderzoeksvragen, zoals bijvoorbeeld:
Heeft een nieuwe meststof invloed op de plantengroei?
Wat is de invloed van regelmatig joggen op bloeddruk?
Wordt de groei van tarwewortels geremd door hoge niveaus van aluminiumionen in de bodem?
Is er een verschil in visie tussen jongeren en ouderen wat betreft de voedselveiligheid?
Heeft socialisatie bij pups een effect op het latere gedrag?
Deze vragen kunnen zelden tot nooit beantwoord worden bij het louter bekijken van de verzamelde gegevens. Zo
zal je om na te gaan of een nieuwe meststof een invloed heeft op de plantengroei op zijn minst al de gemiddelde
lengte van de planten moeten berekenen (deze eenvoudige verwerking van de gegevens behoort ook al tot het
luik statistiek). Daarnaast moet je bij het beantwoorden van deze onderzoeksvragen ook rekening houden met het
feit dat de verzamelde gegevens onderhevig zijn aan variatie. Dit laatste wordt geïllustreerd aan de hand van
onderstaand voorbeeld:
Begrippen biologische en systematische variatie
Voorbeeld 1.1
Hoe iemand reageert op aspirine en of dit voor iedereen even effectief is, is meestal niet exact te voorspellen en
hangt af van:
mensen verschillen in gewicht, ziektegraad, gevoeligheid voor een stof, …
wanneer ingenomen 's morgens of 's avonds, als persoon moe of uitgerust is, voor of na het eten, op
geregelde tijdstippen of met onregelmatige intervallen, …
variatie binnen een persoon, bloeddruk vandaag of morgen op exact hetzelfde tijdstip kan al sterk
variëren
De aanwezigheid van die biologische variabiliteit is bijzonder opvallend in de context van roken: de schadelijke
gevolgen van roken op longkanker en hartaandoeningen zijn intussen goed gekend, maar nagenoeg iedereen
kent wel iemand die zijn hele leven gerookt heeft en desondanks meer dan 80 jaar oud geworden is.
Omwille van deze biologische variabiliteit is het moeilijk om wetenschappelijke vragen goed te beantwoorden en
zal men zelden onmiddellijk het antwoord zien na het bekijken van ruwe gegevens.
Laat ons teruggaan naar de vraag of een nieuwe meststof effect heeft op de plantengroei. Om dit te achterhalen
zou een experiment kunnen uitgevoerd worden waarbij een groep planten de oude meststof krijgt toegediend en
een andere groep de nieuwe meststof. Indien er verschillen merkbaar zijn in de plantengroei tussen de twee
groepen dan zullen we met statistiek proberen na te gaan hoeveel van deze verschillen in plantengroei toe te
schrijven is aan systematische verschillen (in dit geval het gebruik van een andere meststof) en hoeveel toe te
schrijven is aan toeval of biologische variatie.
,Doel van statistiek
Onderzoeksvragen beantwoorden
Zelden antwoord na bekijken gegevens
Uitkomsten zijn onderhevig aan variatie
o Voorbeeld: effect van meststof op plantengroei hangt af van:
Omgeving: sommige planten in de zon, anderen in de schaduw
Wanneer werd bemesting toegediend: droge periode of natte periode
Verschil in individuele planten: sommige planten zijn zwakker
o Biologische variabiliteit
Met statistiek kan men kwantitatieve data verwerken tot bruikbare informatie
Aan de hand van statistiek proberen duidelijk te maken hoeveel variatie op de gegevens
o Is te verklaren door systematische verschillen
o Is te verklaren door toeval of biologische variatie
Toegepast op voorbeeld: effect meststof op plantengroei
o We zien verschillen in plantengroei (variatie in plantengroei)
o Aan de hand van statistiek proberen duidelijk te maken hoeveel variatie in plantengroei
Is te verklaren door systematische verschillen
Voorbeeld: verschil in meststof (oude VS nieuwe) effect van meststof
Is te door toeval of biologische variatie
Voorbeeld: verschil in individuele planten
Onderwerp van statistiek
Populatie: verzameling van alle objecten, subjecten waarover we uitspraak doen
Alle veehouders in Vlaanderen
Alle planten van een bepaalde soort
Gegevens: geobserveerde / geregistreerde eigenschappen of karakteristieken variabelen
Grootte van de plan (in cm), toegediend meststof (oude of nieuwe)
Meestal populatie heel groot, geen tijd of budget om elk element te observeren
Steekproef: een voldoende grote en representatieve deelgroep van de populatie wordt bestudeerd.
,Hoofdstuk 2 – Beschrijvende statistiek
Doel van dit hoofdstuk:
Juiste keuze grafiek
Keuze geschikte samenvattingsmaten
Interpretatie grafieken en maatstaven om zo tot een conclusie te komen voor de steekproef
Opmerking: het maken van de grafieken en het berekenen van de maatstaven komt aan bod in de handleiding van
SPSS
Voorbeeld: slagtanden
Parkwachters in het Mikumi National Park in Tanzania verzamelden in 1983 gegevens i.v.m. de slagtanden van
olifanten (dode olifanten = subject dat we bestuderen).
Id: identificatie olifant
Aantal: aantal resterende slagtanden
Gewicht 1: de massa in kg van de grootste resterende slagtand
Klasse 1: gewichtscategorie van de grootste resterende slagtand: 1= licht, 2=licht tot middelmatig, 3=middelmatig tot
zwaar, 4=zwaar
Oorzaak: doodsoorzaak: 1=ziekte, 2=stropers, 3=trein, 4=onbekend, 5=controle (d.i. parkwachters doden soms
olifanten omwille van de gevaren die ze stellen voor dorpen, toeristen, …)
o 1 = … ; 2 = … ; … = codering van een klasse/variabele
o Variabelen: id, aantal, gewicht, klasse, oorzaak, …
Id Aantal Gewicht 1 Klasse 1 Oorzaak
1 2 9,03 3 2
2 2 12,03 4 3
3 2 4,50 2 2
4 1 2,50 1 1
5 2 1,50 1 1
6 1 0,50 1 1
7 1 2,50 1 2
… …
Deel van de verzamelde dataset verschillende variabelen (kolommen), verschillende subjecten (rijen)
Voorbeeld stroomgebied
Chemische eigenschappen van beboste stroomgebieden
Catskill bergen in New York State
39 sites op eerste en tweede orde stromen (39 subjecten/waarnemingen)
Concentraties van 10 chemische variabelen gemiddeld over 3 jaar
Welke variabelen/eigenschappen werden er per staal waargenomen?
Stroom: naam van de stroom
Max: maximale hoogte (in m) van de rivier
Samp: hoogte (in m) van de site waar de stalen genomen werden
Lengte: lengte (in m) van de stroom
Opp: grootte (in ha) van het stroomgebied
NH4: 𝑁𝐻4+ concentratie (in μmol per liter)
SO4: 𝑆𝑂42− concentratie (in μmol per liter)
CL: 𝐶𝐿− concentratie (in μmol per liter)
Hoogtecat: 1=stalen die minstens 500 m boven de zeespiegel verzameld werden, 0=alle resterende stalen
, Variabele
Variabele: geobserveerde eigenschap van de bestudeerde subjecten.
Waarde/uitkomst van een variabele varieert van subject tot subject
Wordt verzameld in een dataset die verder bestudeerd wordt
Oefeningenbundel: oefening 2
Een kweker van vissen heeft de keuze uit 3 verschillende visvoeders bij zijn leverancier. Om te beslissen welk visvoeder hij in
de toekomst gaat gebruiken voor zijn vissen, wil de kweker nagaan of het type visvoeder een invloed heeft op het
lichaamsgewicht van vissen. Om deze vraag te beantwoorden plaatst de kweker 90 jonge vissen (van eenzelfde soort en met
gelijkaardig startgewicht) willekeurig in 3 verschillende tanks (iedere tank 30 vissen) waarbij iedere tank een ander visvoeder
krijgt. Na 24 weken, wanneer de vissen volgroeid zijn, meet de kweker het lichaamsgewicht van iedere vis.
Welke variabelen worden er hier bestudeerd om de onderzoeksvraag te kunnen beantwoorden?
o Type visvoeder dat iedere vis krijgt = kwalitatief nominaal
o Lichaamsgewicht (eindgewicht) van iedere vis = kwantitatief continue
Meetschaal van variabelen
Meetschaal van de variabele is cruciaal voor bepalen van:
o Geschikte grafiek
o Geschikte associatiemaat
o Eerste stap ter bepaling geschikte hypothesetest
Type variabelen/meetschalen
o Kwalitatieve variabelen (geen getallen)
Nominale variabelen (categorieën die je niet kan ordenen)
Vb: bloedgroep, kleur ogen, geslacht, …
Ordinale variabelen (categorieën die je kan ordenen)
Vb: gewichtscategorie, antwoorden op enquêtes, …
o Kwantitatieve variabelen (getallen)
Discrete variabelen (niet oneindig achter de komma)
Vb: tellingen/aantallen
Continue variabelen (oneindig achter de komma)
Vb: leeftijd, gewicht, …
Oefening: welke soort variabele?
Id Kwalitatief nominaal
Aantal Kwantitatief discreet
Gewicht 1 Kwantitatief continue
Klasse 1 Kwalitatief ordinaal
Oorzaak Kwalitatief nominaal
Naam van de stroom Kwalitatief nominaal
Maximale hoogte (in m) van de rivier Kwantitatief continue
Hoogte (in m) van de site waar de stalen genomen werden Kwantitatief continue
Lengte (in m) van de stroom Kwantitatief continue
Grootte (in ha) van het stroomgebied Kwantitatief continue
NH4+ concentratie (in µmol per liter) Kwantitatief continue
SO4 2- concentratie (in µmol per liter) Kwantitatief continue
Cl- concentratie (in µmol per liter) Kwantitatief continue
Hoogtecategorie: 1 = stalen die minstens 500 m boven de Kwalitatief nominaal/ordinaal
zeespiegel verzameld werden, 0 = alle resterende stalen
Univariate beschrijving
Naar iedere variabele apart kijken, meer bepaald:
o Hoe zijn de geobserveerde waarden van een variabele verdeeld (locatie en spreiding)?
Locatie = centrum = rond welk getal liggen de waarden
Spreiding = liggen de waarden dicht of ver van elkaar
o Uitschieters of extreme waarden (outliers)?
In eerste instantie kan dit grafisch bekeken worden
Keuze grafieken en tabellen afhankelijk van type variabelen/meetschaal meetschalen spelen belangrijke rol
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper gemmafisher. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €6,49. Je zit daarna nergens aan vast.