Statistiek
Inhoud
Les 1. 29-9-2014.................................................................................................. 1
Voorbereiding...................................................................................................... 1
Onderwerpen die tijdens het college aan bod komen:.....................................1
Lezen: Discovering Statistics using SPSS.........................................................1
Samenvatting................................................................................................... 2
Begrippen volgens de kennisbank statistiek:......................................................2
Alternatieve hypothese.................................................................................... 2
Beschrijvende statistiek................................................................................... 2
Boxplot............................................................................................................. 3
Falsifieerbaar.................................................................................................... 3
Gemiddelde...................................................................................................... 3
Hypothese toetsing.......................................................................................... 4
Kerngetallen..................................................................................................... 4
Mediaan........................................................................................................... 5
Meetniveaus/variabelen................................................................................... 5
Modus.............................................................................................................. 6
Normale verdelingen........................................................................................ 7
Nulhypothese................................................................................................... 7
Scatter............................................................................................................. 8
Spreidingsmaten.............................................................................................. 8
Standaarddeviatie............................................................................................ 9
Standaard normale verdeling.........................................................................10
Z-toets........................................................................................................... 10
Z-verdeling..................................................................................................... 11
In de les............................................................................................................. 11
Les 2..................................................................................................................... 15
Voorbereiding.................................................................................................... 15
Begrippen volgens de kennisbank statistiek:....................................................15
Binomiale notatie**........................................................................................ 15
Binomiale verdeling....................................................................................... 15
Kansen........................................................................................................... 15
, Voorbeelden................................................................................................... 16
In de les............................................................................................................. 16
Les 3..................................................................................................................... 19
Voorbereiding.................................................................................................... 19
Onderwerpen tijdens college behandeld zijn:................................................19
Lezen: Discovering Statistics using SPSS.......................................................19
Samenvatting................................................................................................. 19
Begrippen volgens de kennisbank statistiek:....................................................19
Causaliteit...................................................................................................... 19
Hoe toon je causaliteit aan.**........................................................................20
Chi-kwadraat.................................................................................................. 20
Chi-kwadraat toets op associatie...................................................................20
Chikwadraat-toets, één steekproef................................................................21
Chikwadraat-toets, één steekproef en twee categorieën...............................22
Correlatie....................................................................................................... 22
Crosstable (kruistabel)................................................................................... 23
Degreef of freedom........................................................................................ 23
Determinatiecoëfficiënt.................................................................................. 24
Lineaire regressie........................................................................................... 25
Spearman's rang-correlatiecoëfficiënt...........................................................26
Pearsons correlatiecoëfficiënt........................................................................27
Pearson Productmoment correlatie**.............................................................27
In de les............................................................................................................. 28
Les 4..................................................................................................................... 31
Voorbereiding.................................................................................................... 31
Lezen: Discovering Statistics using SPSS.......................................................31
Begrippen volgens de kennisbank statistiek:....................................................31
Afhankelijk variabele...................................................................................... 31
ANOVA............................................................................................................ 32
ICC................................................................................................................. 32
Onafhankelijk variabelen................................................................................ 33
T-Toets............................................................................................................ 33
t-toets............................................................................................................ 34
Variantie......................................................................................................... 36
Vrijheidsgraden.............................................................................................. 36
, In de les............................................................................................................. 37
Proeftoets............................................................................................................. 40
Les 1. 29-9-2014
Voorbereiding
Vragen over deze website:
http://www.wynneconsult.com/root/HomePageKB01.htm
Onderwerpen die tijdens het college aan bod komen:
Beschrijvende statistiek Nulhypothese en alternatieve
- Kengetallen hypothese
Gemiddelde Normale verdelingen
Mediaan - Z-verdeling (standaard
normale verdeling)
Modus
Hypothese toetsing
Spreidingsmaten
Z-toets (Standardized Sample Mean)
Meetniveau’s variabelen
Lezen: Discovering Statistics using SPSS
H 1.5 Data collection 1: what to measure Independent
And dependent variables, levels of measurement, measurement error, validiy and
reliability,.
H 1.6 Data collection 2: how to measure
Correlation research methods, experimental research methods, two methods of
data collection (between groups (independent
design) and repeatedmeasures design, unsystematic and systematic variation, r
andomization.
H 1.7 Analysing data
Frequency distributions (histogram, normal distribution, skew, kurtosis),
mode, median, mean, range, quartiles, probability distributions, z-
scores, nullhypothesis, alternative hypothesis.
H 2.2 Building statistical models Fit, linear model.
H 2.3 Populations and samples
H 2.4 Simple statistical models Mean, sums of
squares, sums of squared errors, variance, standard deviations, deviance, degre
es of freedom.
H 2.5 Going beyond the data Standard error, population, sampling variation,
sampling distribution, confidence intervals
2.6.2 One- and two-tailed tests
2.6.3 Type I and Type II errors
H 4.1 What will this chapter tell me?
H 4.2 The art of presenting data
,H 5.2 What are assumptions?
H 5.3 Assumptions of parametric data Assumptions parametric tests
H 5.4.1 The assumption of normality
Vragen over de tekst van het boek:
- Wat houden Skew, Kurotis, leptokurtic en platykurtic precies in??
- Wat houd de Z-score in?
- Wat heb je aan de nulhypothese en de alternatieve hypothese??
-
Samenvatting
In het boek staan alle termen in hun context beschreven. Ik heb een
samenvatting gemaakt van de delen die we moesten lezen, maar heb helaas niet
alles kunnen lezen. Heb tot en met 2.5 gelezen.
Hoofdstuk 1.7 is wiskunde (mediaan, quartile, ect).
Begrippen volgens de kennisbank statistiek:
Alternatieve hypothese
Tegenhanger van de nulhypothese: de (range van) waarde(n) van de
populatieparameter(s), als de nulhypothese onjuist is.
Vóór de aanvang van het onderzoek wordt na de nulhypothese ook
een alternatieve hypothese geformuleerd, die als zodanig niet wordt getoetst. De
alternatieve hypothese (H1) heeft de vorm van een ontkenning van de
nulhypothese. Als de nulhypothese is dat H0: populatieparameter = waarde, dan
is de meest algemene ontkenning:
H1: populatieparameter waarde
Op deze manier geformuleerd kan de waarde van de populatieparameter zowel
groter als kleiner zijn dan de waarde onder de nulhypothese. Een meer specifieke
alternatieve hypothese is bijvoorbeeld:
H1: populatieparameter > waarde
Bij verwerpen van de nulhypothese kan de populatieparameter nu alleen nog
maar groter zijn dan de waarde onder de nulhypothese.
Hoe we de alternatieve hypothese bij het toetsen formuleren hangt af van de
onderzoeksvraag. De vorm van de alternatieve hypothese bepaalt tevens of
we eenzijdig of tweezijdig toetsen.
Voorbeeld. 8 Asthma-patiënten worden behandeld met een nieuwe vorm van
fysiotherapie. De onderzoeksvraag is of de toestand van de patiënten door de
therapie verbetert. De nulhypothese is, dat de therapie onwerkzaam is,
dus H0: π = 0.5. De alternatieve hypothese is, dat de meerderheid van de
patiënten verbetert, dus dat de proportie verbeterde patiënten in de populatie
groter is dan 0.5 (50%). In formule is dat:
H1: π > 0.5
De alternatieve hypothese is in deze gevallen een samengestelde hypothese. Hij
stelt niet dat een specifieke waarde juist is, maar dat een interval van waarden
juist is, zoals in het voorbeeld, dat de populatieproportie, π, groter is dan de
nulhypothese-waarde, π0 = 0.5.
Beschrijvende statistiek
Syn: descriptive statistics (Eng)
,Het samenvatten en beschrijven van de uitkomsten van een onderzoek in
tabellen, grafieken en kengetallen.
De analyse van de uitkomsten van een wetenschappelijk onderzoek begint met
de samenvatting en beschrijving van de data: de beschrijvende statistiek.
De data worden op een voor de interpretatie van de resultaten van het onderzoek
betekenisvolle manier bewerkt en in tabellen en grafieken samengevat. Door
tellen en turven worden de getallen zo nodig gegroepeerd en geclassificeerd,
zodat een frequentieverdeling kan worden opgesteld, die inzicht geeft en
structuur aanbrengt. De karakteristieken van die frequentieverdeling worden met
behulp van kengetallen zoals centrum- en spreidingsmaten en andere kenmerken
als scheefheid en modaliteit beschreven.
Typisch voor de beschrijvende statistiek is, dat de oorspronkelijke uitkomsten
worden samengevat en ingedikt, waardoor details verloren gaan, maar overzicht
en inzicht worden gewonnen.
Boxplot
Syn: box- and whiskerplot (Eng)
De boxplot is een grafiek waarin de laagste en hoogste uitkomst, de mediaan, en
het eerste en derde kwartiel zijn aangegeven.
Een boxplot is een grafiek, waarin de positie van de laagste en de hoogste
uitkomst, de mediaan en de twee overige kwartielen zijn gevisualiseerd.
De boxplot deelt de verdeling in vier stukken die ieder 25% van de uitkomsten
bevatten. Het centrum, de spreiding en de scheefheid van de frequentieverdeling
zijn goed te zien. Ook de interkwartielafstand is in een boxplot direct af te lezen.
Voorbeeld. Rondetijden van een schaatser op de 10 km in de tabel (links) zijn in
de boxplot (rechts) samengevat.
Aangezien voor het maken van een boxplot de uitkomsten op volgorde gezet
moeten worden, kan een boxplot alleen gemaakt worden voor variabelen op
minimaal ordinaal meetniveau.
Falsifieerbaar
Syn: falsifiable (Eng)
Een hypothese is falsifieerbaar, als ze in een methodologisch correct opgezet
onderzoek kan worden verworpen.
, Gemiddelde
Syn: rekenkundig gemiddelde, mean (Eng), arithmetic mean (Eng),
average (Eng)
Het gemiddelde, μ, is de som van alle uitkomsten, x, gedeeld door het totale
aantal, n.
Het gemiddelde (μ) van een serie uitkomsten is de som van alle uitkomsten (Σx)
gedeeld door het aantal uitkomsten (n).
De som van de deviaties, dat zijn de afwijkingen van de uitkomsten van het
gemiddelde (x -μ), is per definitie nul. Daarom is het gemiddelde op te vatten als
het zwaartepunt van de uitkomstenbalk. De som van de positieve deviaties is
precies even groot als de som van de negatieve deviaties.
Voorbeeld. Het gemiddelde van de leeftijden 10, 10, 11, 14 en 15 jaar is precies
12 jaar. De deviaties -2, -2, -1, +2 en +3 zijn samen precies gelijk aan nul.
Het gemiddelde is de belangrijkste en meest gebruikte centrummaat. Van alle
centrummaten is het gemiddelde het gevoeligst voor uitbijters, omdat bij de
berekening van het gemiddelde alle uitkomsten meetellen en niet alleen
de middelste waarde (mediaan) of de meest vóórkomende waarden (modus).
Het gemiddelde is bedoeld voor variabelen die gemeten zijn op minimaal
intervalniveau.
Bij een sterk scheve verdeling geniet de mediaan de voorkeur. Bij
een rechtsscheve verdeling kun je ook voor het geometrisch gemiddelde kiezen.
Hypothese toetsing
Toetsen van werkhypothese
Nadat de waarnemingen zijn gedaan, worden de verzamelde gegevens bewerkt
en (statistisch) geanalyseerd. Doel is het toetsen van de juistheid van de
onderzoekshypothese. Als de hypothese wordt verworpen, moet worden
nagegaan of dat gevolgen heeft voor de theorie, waaruit de hypothese is
afgeleid.
De toetsing bestaat uit een vergelijking van de uitkomsten van de waarnemingen
met de voorspelde uitkomsten. Bij het maken van die vergelijking moet wel
rekening worden gehouden met de onzekerheden die ontstaan door een beperkte
validiteit en betrouwbaarheid van de metingen. De statistiek geeft daarvoor de
methoden.(zie Schatten en toetsen)
Voorbeeld. De Partij van de Arbeid heeft 45 van de 150 zetels in de Tweede
Kamer. Stel dat je 150 willekeurige Nederlanders van 18 jaar of ouder vraagt op
welke partij zij zouden stemmen als er nu verkiezingen waren. Zal de PvdA tien
zetels verliezen, als slechts 35 van hen aangeven dat zij PvdA gaan stemmen?
Dat is allerminst zeker, want de steekproef en het gevonden verschil zijn beide
veel te klein voor zo'n conclusie.
Zou je in een steekproef van 150 000 mensen 35 000 PvdA-stemmen aantreffen,
dan gaat het er toch werkelijk naar uitzien dat de PvdA aan het verliezen is. Het