Experiment en statistiek
Hoorcollege 1 thema 1
Peilingen geven onzekere schatting
Vrijwel ieder biologisch onderzoek bestaat uit observaties aan een klein aantal organismen ( de steekproef), maar
beoogt conclusies te trekken over de gehele populatie
Waarom een steekproef?
- Praktische beperking: tijd, geld, …
- Observaties kunnen destructief zijn
Wetenschap is geen infotainment
- Wetenschap is de zoektocht naar betrouwbare kennis en inzichten
- We willen precies weten:
o Hoe betrouwbaar zijn mijn resultaten?
o Hoe goed zijn mijn schattingen?
o Welke conclusies mag ik trekken?
o Hoe moet ik mijn (steek)proef opzetten om een betrouwbaar antwoord te krijgen op mijn vraag?
- We hebben begrip nodig van statistiek
28 mei tentamen statistiek
11 juni tentamen wetenschapfilosofie en integriteit
Vanaf 13 juni experiment gedeelte
Wat is statistiek?
- Statistiek is de wetenschap, de methodiek en de techniek van het verzamelen, bewerken, interpreteren en
presenteren van gegevens
- Twee takken van sport:
o De beschrijvende statistiek houdt zich bezig met de beschrijving en (visuele) presentatie van
gegevens.
o De verklarende statistiek houdt zich bezig met de verklaring van de gegevens en het testen van
theorieën.
- Statistiek komt dus kijken bij elk kwantitatief onderzoek
Het bestuderen van populaties
- Iedere populatie wordt gekenmerkt door zekere parameters
- Voorbeelden:
o
- Vaak is het doel van een onderzoek het schatten van een parameter, of het vergelijken van parameters
tussen populaties
Het probleem van steekproeven: onzekerheid
- Wanneer je niet alle individuen uit een populatie kunt bekijken, zul je een steekproef moeten nemen
- Voorbeeld:
, o
- Is de kans op een jongetje echter groter dan de kans op een meisje? Of hebben we toevallig meer jongetjes
dan meisjes in onze steekproef?
Oorzaak van de problemen: variabiliteit
- Individuen in populaties verschillen onderling
o Oorzaken van variatie:
▪ Genotypische variatie ontstaat door mutaties en recombinatie.
▪ Fenotypische variatie ontstaat door interactie tussen genotype en de omgeving, die varieert
in ruimte en tijd; en bovendien door kansprocessen in het organisme zelf.
▪ Hoe kunnen we observaties aan organismen generaliseren als ze allemaal verschillend zijn?
o Meetfouten
▪ Alle meetgegevens worden worden geplaagd door variatie a.g.v. meetfouten.
▪ Hoe kun je toch betrouwbare conclusies trekken uit een steekproef
Omgaan met onzekerheid: kansrekenen
- Statistiek gaat voor een groot deel over de vraag: hoe ga je verstandig om met onzekerheid
- Redeneren over onzekerheid is redeneren over kansen
-
- We kunnen dat niet met zekerheid weten. Maar we kunnen wel de kans uitrekenen dat een dergelijke
steekproef bij toeval ontstaat
- Dat vertelt ons of toeval een redelijke verklaring is
Statistiek is cruciaal in de onderzoekcyclus
-
De noodzaak voor beschrijvende statistiek:
,Opties: Tabellen, visualiseren, kengetallen
- Je kunt op (ten minste) 3 manieren overzicht creëren:
o Gegevens samenvatten in een tabel.
o Gegevens visualiseren (grafieken, diagrammen)
o Gegevens samenvatten met kengetallen (ligging, spreiding, ...)
- Methodes daartoe verschillen naar gelang de aard van je gegevens.
Variabelen
- Een eigenschap van individuen die varieert binnen een populatie
- Typen:
o
o Numeriek > getallen > eerst klassen verdelen
o Continu > alle getallen mogelijk
o Discreet> alleen hele getalen, geen comma getalen
o Categoriaal> data dat categoriaal zijn (bijvoorbeeld kleuren)
o Ordinaal> categorien dat van nature een natuurlijke volgorde hebben
o Nominaal > naampjes , bijvoorbeeld kleuren
- Voorbeelden:
o Van welk type variabele is het stadium van de levenscyclus van een organisme? (bijvoorbeeld: ei,
rups, pop, vlinder)
▪ Categoriaal en ordinaal
o Van welk type variabele is de optische dichtheid van een bacteriele cultuur?
▪ Numeriek en continu
o Van welk type variabele is het aantal puppy' s in een worp honden?
▪ Numeriek en discreet
o Van welk type variabele is handedness (linkshandig of rechtshandig)?
▪ Categoriaal en nominaal
Frequentietabellen
- Categoriale, nominale variabele
o
- Numerieke, discrete variabele
, o
Visualiseren van categorie data: staafdiagram
-
- Staven los van elkaar, y-as op 0 laten beginnen
Visualiseren van categorie data: taartdiagram
-
Visualiseren van numerieke data: het histogram
-
- Staven aan elkaar vast, y-as op 0 laten beginnen
- Opervlakte van een staafje geeft grote populatie aan
, - Klokvormig
- Uniform
- Scheef
- Bimodiaal
Ligging en spreiding
-
o Enkel verschoven:
▪ Andere ligging
▪ Zelfde spreiding
, -
o Enkel breder
▪ Zelfde ligging
▪ Andere spreiding
Maten voor de ligging van (numerieke) gegevens
- Rekenkundige gemiddelde:
o
- Mediaan: het middelste getal na sorteren
o
- Modus: plek van de piek
o
Mediaan versus gemiddelde
- Mediaan veel minder gevoelig voor uitbijters dan gemiddelde
Maten voor de spreiding van numerieke data
- Range: verschil tussen grootste getal en kleinste getal
- Standaarddeviatie of standaardafwijking
o
- Variantie
, o
- Interkwartielafstand (IQR)
o
- Variatiecoëfficiënt (VC)
o
De standaarddeviatie of -afwijking schatten
- Als het histogram een klokvorm heeft:
o Kijk verticaal iets boven het midden van het histogram
o Dan is s ongeveer de helft van de breedte van het histogram
o
o
Boxplots
, -
- Interpreteren:
o Boxplot laat zien: verdeling is assymmetrisch met uitbuiters
o Dus, het gemiddelde wordt sterk beïnvloed door de uitbijters en is een stuk groter dan de mediaan
Hoorcollege 2 en 3
Meeste cijfers die je tegenkomt zijn schattingen
Schattingen op basis van steekproeven zijn onzeker > komt door variabiliteit in populaties en door meetfouten
Precisie
- Hoe groot is de toevallige afwijking?
- Als je het onderzoek zou herhalen, hoeveel zouden de verschillende
schattingen van elkaar verschillen?
Zuiverheid of juistheid
- Hoe groot is de systematische afwijking (bias, onzuiverheid)?
- Als je het onderzoek zou herhalen, zou je dan gemiddeld de juiste
waarde vinden?
We willen kwantificeren hoe precies en hoe zuiver een schatting is
Een schatting is nutteloos zonder een indicatie van de precisie
Oplossing: betrouwbaarheidsintervallen
- Een betrouwbaarheidsinterval (bhi) is een interval rondom een
schatter dat waarschijnlijk de populatieparameter bevat
- Een 95%-bhi voor een populatieparameter bevat met 95% zekerheid de waarde van de parameter
- Voorbeeld en notatie:
o Op basis van de steekproef van 10 studenten is 95%-bhi voor de gemiddelde lengte gelijk aan 172,2
± 3,8 cm (bhi)
o
- Interpretatie:
o Waarschijnlijk (95% zeker) ligt de gemiddelde lengte μ tussen 168,4 cm en 176,0 cm.
,Bhi voor een schatting van het gemiddelde:
Eenvoudige aselecte steekproeven
- Stelt je in staat een zuivere schatting te maken
- Stelt je in staat te kwantificeren hoe precies je schatting is
- Veel statistische technieken nemen aan dat de gegevens verkregen zijn door middel van eenvoudige aselecte
steekproef
- ‘random’ steekproef
Een goede schatter: zuiver, consistent en doeltreffend
- Een goede schatter is:
o Zuiver
▪ Gemiddeld schat de schatter de populatieparameter juist
o Consistent
▪ Hoe groter de steekproef, hoe preciezer
o Doeltreffend
▪ Meest precies van alle beschikbare zuivere schatters
- Voorbeelden:
o Het steekproefgemiddelde Y is een goede schatter voor het populatiegemiddelde μ mits de
steekproef aselect is.
o De steekproefvariantie s2 is een goede schatter voor de populatievariantie σ2 mits de steekproef
aselect is.
Niet elke steekproef is aselect!
- Soorten onderzoek:
o Experimenteel: volledige controle over de experimentele variabele
▪ Voorbeeld: Klassiek onderzoek naar Antrax-vaccin bij schapen (Louis Pasteur) 48 schapen
random verdeeld over vaccingroep of controlegroep. Alle dieren met virus geïnjecteerd;
gekeken wordt naar hoeveel dieren in iedere groep overleven.
o Quasi-experimenteel: gedeeltelijke controle
, ▪ Voorbeeld: Effect van grondwaterpeil (niet te controleren) en bemestingsregime (wel te
controleren) op opbrengst van de oogst.
o Observationeel: geen controle
▪ Voorbeeld: Verzoeningsgedrag bij chimpansees na een
ruzie.
Steekproefvariabiliteit neemt af met n
- Met toenemende steekproefgrootte neemt de spreiding van de
steekproefgemiddelden af.
- De precisie van de schatting wordt dus groter.
- De precisie van een schatter is te vatten in een getal: de
standaarddeviatie van de verdeling van het steekproefgemiddelde.
- Deze standaarddeviatie hangt af van:
o de grootte van de steekproef (n)
o de hoeveelheid variatie in de populatie
Wat hebben we geleerd:
- Iedere variabele heeft een verdeling in de populatie. Maar die verdeling is
ons meestal onbekend.
- Om iets over die verdeling te weten te komen, proberen we een
parameter te schatten. Daartoe nemen we een steekproef.
- Maar iedere schatting is onzeker. Iedere steekproef geeft een andere schatting voor de parameter. Als je
heel veel steekproeven zou doen, dan levert dat de steekproefverdeling van je schatter op. De
standaarddeviatie van deze steekproefverdeling van je schatter is een maat voor de precisie van je schatting.
Deze standaarddeviatie neemt af met n
- Voorbeeld:
o Populatie: menselijke genen
o Variabele: lengte in bps
o Parameter: gemiddelde lengte
o Steekproef: 100 genen
o Schatter: steekproefgemiddelde
Spreiding van het steekproefgemiddelde: de standaardfout
- Wiskundig feit: de standaarddeviatie v. h. steekproef-gemiddelde is:
o
- Maar meestal weten we niet wat σ is; dan kunnen we bovenstaande formule dus niet rechtstreeks gebruiken
om σy te berekenen.
- Echter: we zagen dat de variantie van de steekproef, s2 , een zuivere schatter is van σ2. Daarom kunnen we
schatten als
o
o Dit is de standaardfout van het gemiddelde.
- Voorbeeld: In onze steekproef van n = 100 vonden we s = 1463,5
- Dus:
o