Les 12-11-19:
Observeren
- Je mag het onderwerp van de observatie niet beïnvloeden.(bv wanneer je dieren
bestudeerd, dan mogen de dieren niet weten dat je er bent, anders is hun gedrag
anders.
- Geen andere verklarende variabelen over het hoofd. Houd een brede blik en blijf
kritisch.
- Panel bias voorkomen: bias zijn factoren die een negatieve invloed hebben op de
uitkomsten van je onderzoek.
Experimenten
- Placebo
- Blind experiment: patiënt weet niet wat hij krijgt
- Dubbel blind experiment: patiënt en arts weet niet welke patiënt krijgt, onderzoeker
wel
- Case control: andere verklaarbare oorzaken.
- Historische gegevens: hoe het vroeger ging.
Steekproeven
Steekproef is een selectie uit een populatie
- Aselecte steekproef: random steekproef
o example 1.3.1
- Clustersteekproef
o Je hebt meerdere clusters, waarvan je er een paar uitkiest en waarvan je elk
element van die cluster onderzoekt: figure 1.3.2 en example 1.3.2.
- Gestratificeerde/Gelaagde steekproef
o Je neemt een element uit elke klasse: figure 1.3.3 en example 1.3.3
- Steekproeffout
o Schattingen
o Vooroordelen/bias, bijv. non response bias(=welk soort mensen blijft continu
wel die enquêtes invullen? De mensen die ze niet invullen zijn soms het
interessantst)
o Conclusies zijn gevaarlijk, gebonden aan tijd en mening op dat moment.
o Example 1.3.4.
Verschil cluster en gelaagd belangrijk! In de toets moet je aan de hand van de case zeggen
of het cluster is of gelaagd!
Bv onderzoek naar voetbal NL:
- Clusters: alle clubs van Nederland. Wanneer je een clusteronderzoek doet, dan kies
je een paar clubs en van die clubs onderzoek je alle leden.
- Gelaagd: je kiest van elke club een paar random mensen.
Opdrachten
1.2.8:
a) Een experiment, dat is opgezet door onderzoekers.
, b) Er zijn andere factoren die de groei van de tomaten kunnen hebben beïnvloed.
c) Blind zou kunnen: de onderzoeker die de tomaten weegt weet niet van welk veld de
tomaat komt.
Dubbel blind kan niet: Nee, je kunt niet zorgen dat tomaten niet weten welke
behandeling ze kregen.
1.2.9: nee, andere factoren spelen een rol. Het kan zijn dat toevallig veel mensen met een
sterk immuunsysteem naar de kerk gaan, en de mensen met een minder immuunsysteem
thuisblijven.
1.3.1: (belangrijke opdracht)
a) Cluster: verschillende klinieken
b) Random
c) Gelaagd: verschillende hoogten
d) Random
e) Gelaagd: verschillende grootten van honden.
1.3.2:
a) Mensen met social anxiety gaan waarschijnlijk niet naar nachtclubs, waardoor je
alleen resultaten van mensen zonder social anxiety. Je moet van een andere plek
vrijwilligers krijgen.
b) Je neemt alleen specimens op rainy days. Je moet bij elke weeromstandigheid
specimens nemen.
c) Door een grotere kruin van bomen, is er een grotere kans dat de coördinaten op die
boom terecht komen, en een kleiner kans dat ze op een kleine boom terecht komen.
Je moet random bomen kiezen op een andere manier.
,Statistiek 19-11-19
Observational unit: je meet dingen van de observational unit, bv de hoofdomvang van een
kind, kind is dan de observational unit. Observational unit in enkelvoud!
Wat je meet heet de variabele, in dit voorbeeld is de hoofdomvang de variabele
- Categorische variabele: je kunt er geen nummer aan plakken, bv geslacht
- Numerieke variabele: je kunt er wel een nummer aan plakken, bv hoofdomvang
o Continu: er zit iets tussen de metingen, wat ook nog gemeten had kunnen
worden. Gewicht is continu, maar wij maken het discreet
o Discreet: er zit niks tussen, bv leeftijd: je zegt altijd het hele getal
- Ordinaal: er zit een volgorde in, bv baby, kind, puber. Maar niet bv haarkleur.
Er is soms overlap tussen categorisch en numeriek, bv leeftijd: het echte getal, maar ook de
leeftijdsgroep (kind, puber, enz)
Blz 38 boek, tabel (sample=steekproef)
2.1.1:
a) i: width (mm) kies ii: numeriek: continu (discreet kan ook, maar wel met goede uitleg)
iii: een kies iv: 36
b) i: geboortegewicht, geboortedatum, afkomst moeder ii: continu, discreet, categorisch
iii: a baby iv: 65
2.1.2:
a) i: height, weight ii: numeriek: continu moet er nog bij, numeriek: ook continu iii: a child
iv: 37
b) i: blood type, cholesterol level ii: categorisch, numeriek: continu iii: a person iv: 129
2.1.3:
a) i: number of leaves ii: numeriek:discreet iii: a plant iv: 25
b) i: number of seizures ii: numeriek: discreet iii: a patient iv: 20
Frequentieverdeling:
- Staafdiagram: als op de horizontale as discrete of categorische waarden staan (fig.
2.2.1, fig. 2.2.2, fig. 2.2.6)
- Dotplot: fig. 2.2.4
- Frequentie/Relatieve frequentie: een bijvoorbeeld een staafdiagram geef je de
absolute waarden aan, maar ook de percentages. (voorbeeld 2.2.5 en figuur 2.2.6)
- Klasseverdeling (tabel 2.2.6 en 2.2.7, figuur 2.2.7) [20,40) betekent vanaf 20, dus met
20, tot 40, dus zonder 40.
o Het is geen staafdiagram meer, maar een histogram omdat je klassen
gebruikt!
o Bij continue waarden, maar ook als je heel veel discrete waarden bij elkaar
veegt (tabel 2.2.6 en 2.2.7)
o Grootte klassen: niet te groot, niet te klein (figuur 2.2.9, 10, 11). In figuur 10
zie je in een keer 2 toppen, wat de top lengte van meisjes en jongens is.
Figuur 11: met kleinere klassenbreedte.
, o Unimodaal: een top
o Dimodaal: 2 toppen
Centrummaten:
- Modus: de waarde die het meest voorkomt, de hoogste top
- Staart: fig.2.2.13. Als er een staart inzit heet het een scheve verdeling.
o Benaderen met curve fig.2.2.13
- Mediaan: variabele met golfje erboven.
o Zet de metingen op volgorde ~
y
o Pak de middelste meting bij oneven aantal. Of het gemiddelde van de
middelste twee metingen bij even aantal.
o Fig. 2.3.2
- Gemiddelde: variabele met streepje erboven y
o Tel alle metingen bij elkaar op en deel door totaal aantal metingen.
- Gemiddelde is minder bestand tegen
uitschieters, mediaan is daarin robuuster.
Zie afbeelding. Mediaan blijft veel op
dezelfde plek. Mode=modus,
median=mediaan, mean =gemiddelde
2.3.3:
mean: 6.3 + 5.9 + 7.0 + 6.9 + 5. = 6,4
median: 7.0, 6,3 is het goede antwoord
2.3.5:
Mean: 366 + 327 + 274 + 292 + 274 + = 293,8
Median: 274 + = 283
2.3.6:
Mean: 366 + 327 + 274 + 292 + 274 + 230 + = 309
Median: 292
2.3.11: 10 + 11 /2 = 10,5
,2.3.12: alles bij elkaar optellen / 36 = 10,4
Statistiek 26-11-19
Centrummaten:
- Modus
- Mediaan
- Gemiddelde
Boxplot:
- minimum
- Eerste kwartiel (Q1)
- Mediaan
- Derde kwartiel (Q3)
- Maximum
- Interkwartielafstand: Q3 – Q1 (eerste spreidingsmaat)
- Hoe maak je een boxplot: blz. 60/61
Spreidingsmaten:
- Spreidingsbreedte/variatiebreedte: hoogste – laagste meting
- Interkwartielafstand: Q3 – Q1
- De standaarddeviatie
Outliers/uitbijters: uitschieters, uitzonderingen. Geef je aan met * of . of iets anders. Wanneer
is iets een uitbijter:
- Naar links: Q1 -1,5 x interkwatielafstand
o Q1 – 1,5 ∙ (Q3 – Q1)
o De lagere waardes zijn uitbijters
- Naar rechts: Q3 + 1,5 ∙ interkwartielafstand
o Q3 + 1,5 ∙ (Q3 – Q1)
o De hogere waardes zijn uitbijters
- Example 2.4.4
- In een boxplot neem je de uitbijters niet mee wanneer je conclusies trekt. Maar voor
het berekenen van de kwartielen neem je ze wel mee!
2.4.2:
a) Mediaan (8,7 + 9,7) / 2 = 9,2 ; Q1 = 7,4 (gewoon de middelste in dit geval) ; Q3 =
11,9
b) 11,9 – 7,4 = 4,5
c) 11,9 + 1.5 x 4,5 = 18,65
d)
,2.4.3:
a) Mediaan 82,6 ; Q1 = 63,7 ; Q3 = 102,9
b) 102,9 – 63,7 = 39,2
c)
Spreidingsmaten:
- Interkwatielafstand
- Variatiebreedte:
o Maximum – minimum
- Standaarddeviatie (s) afkorting: SD
o Neem van elke meetwaarde (xi) de afwijking van het gemiddelde , ofwel:
o Neem van elk van die uitkomsten het kwadraat (x ) xi x
o Tel alles bij elkaar op
o Deel door n-1(bijvoorbeeld 5 meetwaarden, dan 5-1=4)
o Trek de wortel
o Formule hiernaast krijgt je op de toets
o Example 2.6.2
- Variantie: s2, dus standaarddeviatie zonder de getrokken wortel. De variantie is een
maat voor hoever de resultaten uit elkaar liggen. Groot getal betekent dat de waarden
ver uit ellkaar liggen, klein getal betekent dat ze dichter bij elkaar liggen.
Interkwartieldeviatie in frequentieverdeling:
De waarden uit de steekproef blijven slechts een schatting van de werkelijke waarde van de
populatie:
,Waarden steekproef:
- Gemiddelde, modus, mediaan, enz.
- Waarden uit steekproef heten statistische uitkomsten
- Waarden uit steekproef kunnen behoorlijk fout zijn.
- Hoe goed de schatting is, is afhankelijk van hoe goed je steekproef is.
o Zorg dus voor aselecte steekproef, en een grote groep.
Waarden populatie:
- Er zijn verschillende notaties voor wanneer je data van een steekproef is of van de
populatie:
Standaarddeviatie in frequentiediagram
μ: gemiddelde
σ: standaarddeviatie
68% 95%
2.6.1:
a) Gemiddelde: 15. Afwijkingen: 1,-2,3,-2= 0. Kwadrant: 1, 4, 9, 4 = 18. N-1 = 4-1=3.
18/3= 6. Wortel uit 6 = 2,45
b) Gemiddelde: 35. Afwijkingen: 3,-5,-1,3,0. Kwadrant: 9,25,1,9,0 = 44. N -1 = 5-1=4.
44/4= 11. Wortel 11 = 3,32
c) Gemiddelde: 1. Afwijkingen: 0, -2, 4, -2. Kwadrant: 0, 4, 16, 4 = 24. N – 1 = 4-1=3.
24/3=8. Wortel 8 = 2,83
,d) Gemiddelde: 3. Afwijkingen: 1, 3, -4, 1, -1. Kwadrant: 1, 9, 16, 1, 1 = 28. N – 1 = 5 – 1
= 4. 28/4 = 7. Wortel 7 = 2,65
,2.6.5:
Mean: (1,45 + 1,19 + 1,05 + 1,07) / 4 = 1,19
SD: afwijkingen in kwadrant: 0,0676 + 0 + 0,0196 + 0,0144 = 0,1016. N – 1 = 4 – 1 = 3.
0,1016/3 = 0,033… wortel daarvan = 0,18
2.6.11:
a) 98,3 – 40,4 = 57,9 98,3 + 40,4 = 138,7. Hier liggen er 26 tussen, dus 26/36 x 100 =
72,2%
b) 98,3 – 2 x 40,4 = 17,5 98,3 + 2 x 40,4 = 179,1. Hier liggen er 34 tussen, 34/36
x 100 = 94,4%
c) Ga ik niet uitrekenen, je kunt meteen zijn dat 100% er binnen valt.
2.6.12:
Je zou verwachten:
a) 68%
b) 95%
c) 99%
Dit klopt ongeveer.
, Statistiek 4-12-2019:
Hoofdstuk 3
Kans:
- Kans op gebeurtenis E aantal keren dat E optreedt / (delen) aantal keren dat je
experiment herhaalt.
P, Pr(E): probability
0 ≤ P(E) ≤ 1
Voorbeeld: dobbelsteen met 3 rode vlakken, 2 blauwe, 1 wit
P(rood) = 3/6= ½
P(blauw) = 2/6=1/3
P(wit) = 1/6 = 1/6
Nu heb je 2 van die dobbelstenen: