Aantekeningen Statistiek - Premaster BCO – november/decemer 2015
YL
Inhoudsopgave
Korte herhaling............................................................................................................................... 2
Hoorcollege 1 - 26 oktober: Introductie......................................................................................... 4
Chapter 2: Grafieken voor categorische- en kwantitatieve variabele.............................................4
Hoorcollege 2 - 28 oktober: Associatie en regressie.......................................................................7
Chapter 3: Associatie, correlatie en regressie................................................................................7
Chapter 5: Kansverdelingen........................................................................................................... 9
Practicum 1 - 29 oktober: Pie diagram, correlatie en recode........................................................10
Hoorcollege 3 - 2 november: Z-score en tabel A..........................................................................11
Chapter 6: Kans verdelingen........................................................................................................ 11
Hoorcollege 4 - 4 november: Steekproefverdeling, steekproevenverdelingen en
populatieverdeling........................................................................................................................ 12
Chapter 7: Steekproef verdelingen............................................................................................... 12
Hoorcollege 5 - 9 november: Betrouwbaarheidsinterval voor z en t verdelingen........................15
Chapter 8: Betrouwbaarheidsintervallen...................................................................................... 15
Hoorcollege 6 - 11 november: Hypothesetoetsing.......................................................................17
Chapter 9: Hypothesetoetsing...................................................................................................... 17
Practicum 2 – 12 november: Hypothesetoetsing en betrouwbaarheidsinterval...........................22
Hoorcollege 7 - 16 november: dependent en independent t-test................................................23
Chapter 10: Vergelijken van 2 gemiddeldes................................................................................. 23
Hoorcollege 8 - 18 november: Chi-square test............................................................................ 26
Chapter 11: Chi-square test.......................................................................................................... 26
Hoorcollege 9 - 23 november: Enkelzijdige/bivariate regressie...................................................30
Chapter 12: Enkelzijdige/bivariate regressie analyse...................................................................30
Hoorcollege 10 - 25 november: Multivariate regressie................................................................35
Chapter 13: Multiple regressie...................................................................................................... 35
Practicum 3 – 26 november: Onafhankelijk t-test, adjusted reiduals en enkelvoudige Regressie.38
Hoorcollege 11 - 30 november: Multivariate regressie................................................................41
Hoorcollege 12 - 2 december: Cronbach’s alpha.........................................................................43
Chapter 15: Multiple regressie...................................................................................................... 43
1
,Aantekeningen Statistiek - Premaster BCO – november/decemer 2015
YL
Korte herhaling
Inferentiële statistiek
Univariate toetsen = toetsen waarbij je één enkele variabele onderzoekt.
Univariate beschrijvende statistieken:
Bivariate toetsen = toetsen waarbij je onderzoekt of er een relatie bestaat tussen 2 variabelen.
Bivariate beschrijvende statistieken:
Multivariate toetsen = relatie
tussen meer dan 2 variabelen
onderzoeken.
2
, Aantekeningen Statistiek - Premaster BCO – november/decemer 2015
YL
Specifieke waarde verwacht voor de nulhypothese:
Bij een proportie: Binomial Test
Bij een gemiddelde: One Sample T test
Twee groepenvergelijken:
Onafhankelijke groepen: Independent T-test
Afhankelijke groepen: Dependent T-test
Categorische variabelen vergelijken:
Chi-square
De invloed van een of meer continue onafhankelijke variabelen op een continue afhankelijke variabele is:
Enkelvoudige regressie
Meervoudige regressie
Controleren of een schaal in de vragenlijst betrouwbaar is:
Betrouwbaarheidsanalyse
Gebruik van verschillende tabellen:
Tabel A: z-verdeling met z-scores en p-waardes
Tabel B: t-verdeling met df’s en kritieke t-waardes
Ervan uitgaande dat je toetst bij een significantieniveau van .05:
• Bij een eenzijdige toets ga je op zoek naar de kritieke t-waarde bij t.05 (want 5% verdeeld over één staart)
• Bij een tweezijdige toets ga je op zoek naar de kritieke t-waarde bij t.025 (want 5% verdeeld over
twee staarten)
Tabel C: chi-square verdeling met df’s en kritieke chi-square waardes
Tabel D: F-verdeling met df’s en kritieke F-waardes
De eerste stappen:
1. Over hoeveel variabelen gaat het (1, 2 of meer)? Wat is de Χ en Y?
2. Wat voor een variabelen zijn het (categorisch of kwantitatief)?
3. Bepaal aan de hand van bovenstaande informatie waar op het formuleblad je moet kijken
3
,Aantekeningen Statistiek - Premaster BCO – november/decemer 2015
YL
Hoorcollege 1 - 26 oktober: Introductie
Chapter 2: Grafieken voor categorische- en kwantitatieve variabele
1. Beschrijvende statistiek = het beschrijven van gegevens (data) afkomstig van een
onderzoeksgroep.
2. Inferentiële/toetsende statistiek = uitspraken doen over een populatie aan de hand van gegevens
afkomstig van een steekproef. (Iets proberen te voorspellen op basis van je verzamelde data.)
Variabele = het element wat geobserveerd wordt als onderwerp voor een onderzoek. Kenmerkend aan de
variabele is dat het varieert en niet iets vast is. De waardes die we observeren van deze variabele worden
de observaties genoemd.
BESCHRIJVENDE STATISTIEK
Univariate statistiek: het gaat over 1 variabele.
1. Categorische variabelen = hebben als waarden geen getallen maar alleen kenmerken of
categorieën; bijvoorbeeld man/vrouw, religie, nationaliteit.
a. Nominaal = er zit geen rang ordening in, dus mannen zijn niet beter dan vrouwen maar
gelijk. Het ene categorie is niet hoger dan het ander categorie.
Mannen en vrouwen / Types huishoudens / vervoersmiddelen
b. Ordinaal = er zit wel een bepaalde rang ordening, bijvoorbeeld van heel erg religieus naar
een beetje religieus of van slim naar dom. Onder rangordening heeft het geen zin om een
gemiddelde te nemen.
Kleding maten S,M,Χ,ΧL
b
Grafieken voor categorische variabele:
- Staaf diagram = een grafiek waarbij de frequentie van hoog naar laag loopt per categorie. De
staaf diagram is kenmerkend aan dat de minderheid vaak de meerderheid in percentages van
het aantal observaties vormt, dus bijvoorbeeld categorie 1 en 2 vormen 60% van categorie 1 t/m
6.
- Cirkel diagram
2. Kwantitatieve variabelen = die als waarden getallen aannemen, in nature al uitdrukt in cijfers
zoals bijvoorbeeld leeftijd, gewicht en inkomen.
a. Discrete variabelen = wanneer er maar een bepaald cijfer mogelijk is. Er zijn geen 2,5
personen, 2,5 sportbezoek, of 2,5 huisdier mogelijk. Het gaat dus om uitsluitend hele
getallen.
Aantal keer dat je per jaar dat je naar de kapper/sportschool gaat / aantal personen dat heeft
gestemd
b. Continu variabelen = elk getal achter de komma is mogelijk, oneindig.
Hoeveel (gram) groente dat je per dag eet / aantal uren dat je aan een vak besteedt
b
4
,Aantekeningen Statistiek - Premaster BCO – november/decemer 2015
YL
Grafieken voor kwantitatieve variabele:
1. Dot plot = Hierbij wordt een punt weergeven voor elke observatie bij de juiste variabele. (small
research)
2. Stem-and-leaf plot = Deze grafiek weergeeft ook per observatie. De cijfer voor het streepje is
het eerste cijfer. Elk cijfer na het streepje volgt het tweede cijfer. Dus bijvoorbeeld 9|04 betekent
dat iemand 90 heeft geantwoord en een ander iemand 94. (small research only)
3. Histrogram = een grafiek die de uitkomsten weergeeft in het aantal observaties per categorie.
Absolute frequentie = het absolute getal
Relatieve frequentie = het percentage of de proportie
(Proportie = aantal observaties in categorie / totaal aantal observaties (=n). Dit ligt altijd tussen de 0 en
1.)
Soorten verdelingen:
1. Unimodale verdeling = in de grafiek is 1 piek te zien. Modus is de hoogste piek in de
staafdiagram, daarnaast komt de mediaan en als laagst het gemiddelde ernaast. Aan deze
centrummaten kun je zien of het een scheve- of normale verdeling is.
a. Scheve verdeling = een verdeling waarbij de piek scheef in de grafiek zit.
i. Skewed to the right = een scheve verdeling met de piek naar links; skiër skiet
naar rechts dus de afdaling gaat naar rechts toe.
Inkomen
ii. Skewed to the left = scheve verdeling met de piek naar rechts; skiër skiet naar
links dus de afdaling gaat naar links toe.
Levensverwachting
b. Normale verdeling = een kans verdeling met een klokvormige grafiek welke aan beide
kanten symmetrisch is. Het gemiddelde, de modus en de mediaan liggen op hetzelfde punt.
Empirische regel = wanneer een
normale distributie als een klok
gevormd is geldt het volgende:
- 68% van de observaties valt binnen 1
standaard deviatie positief of negatief
van het gemiddelde.
- 95% van de observaties valt binnen 2
standaard deviaties positief of
negatief van het gemiddelde.
- 99% van de observaties valt binnen 3
standaard deviaties positief of
negatief van het gemiddelde.
Empirische regel mag niet gebruikt worden als er géén sprake is van een normale verdeling.
Dit is geval als het gemiddelde, mediaan en modus niet op het zelfde punt liggen.
2. Bimodale verdeling = in de grafiek zijn 2 pieken te zien, aan de linker- en rechterkant. Dit komt
vaak voor bij een mening van iets.
Voor of tegen abortus
5
, Aantekeningen Statistiek - Premaster BCO – november/decemer 2015
YL
Outlayer = Als een (paar) observatie(s) erg afwijken van de rest.
- Een observatie is een outlayer wanneer het meer dan 1,5 keer de IQR onder Q1 of boven Q3 ligt.
- Een outlayer heeft geen invloed op de mediaan, omdat de mediaan enkel kijkt naar welk getal er in
het midden ligt van het aantal observaties. Een mediaan kijkt niet daar de grote van de afstand zoals
het gemiddelde doet.
1 iemand kijkt 20 uur per dag tv kijken en de rest 2 uur.
Algemene informatie statistiek:
Centrummaten: gemiddelde, mediaan en modus. De mean en de mediaan zijn het centrum van de
distributie.
Range = het verschil tussen de minimum en maximum waarde.
Spreiding = hoe meer spreiding, hoe verder de observaties uitelkaar liggen en hoe minder zekerheid.
Deviatie = hoeveel een bepaalde observatie afwijkt van het gemiddelde. Hoe kleiner de deviatie hoe
meer de observaties overeenkomen van de steekproef en hoe betrouwbaarder een schatting over de
populatie gegeven kan wordwn.. Het machtsteken in de deviatieformule heeft als doel negatieve
getallen weg te werken. Anders zou het antwoord op 0 kunnen uitkomen en lijkt het net alsof er geen
deviatie is, die er altijd is.
Variantie = het gemiddelde van de gekwadrateerde deviaties. De gekwadrateerde standaarddeviatie.
Standaarddeviatie = hoeveel er gemiddeld wordt afgeweken van het gemiddelde. Beschrijft de
spreiding van de data en maakt het gemakkelijk om data te vergelijken. Wanneer je de wortel trekt
van de variantie ontstaat de standaard deviatie. Hoe groter de standaard deviatie, hoe groter de
spreiding van de data. Een standaard deviatie is alleen 0 als alle data eχact hetzelfde is. De
standaarddeviatie bereken je door:
(observatie 1 – gemiddelde)² + (observatie 2 – gemiddelde)² + (observatie 3 –
gemiddelde)²…
Totaal aantal observaties - 1
Z-score = het aantal standaarddeviaties een observatie van het gemiddelde afligt. Hiermee kan
gekeken worden hoe groot de kans is dat een specifieke observatie gevonden wordt en hoe extreem de
waarde van een bepaalde observatie is. Formule: (observatie - gemiddelde)/Standaarddeviatie.
χ= 37 µ= 39 σ = 1.2 (is gegeven), deviatie = -2 want het ligt 2 maten onder het gemiddelde. z-score
= 1,67
Een vrouw is een halve standaarddeviatie groter dan het gemiddelde, de z-score is dan 0,5.
Percentielen = geeft aan hoeveel procent van de observaties onder een bepaald punt ligt.
50e percentiel is 30, dan ligt 50% van de observaties onder de 30.
Interquartile range geeft de middelste 50% van de data aan, die ligt tussen Q1 en Q3.
Q1 = 25e percentiel
Q2 = 50e percentiel (mediaan)
Q3 = 75e percentiel
Valid percent = er wordt rekening gehouden met de missings.
Five-number summary = Minimum value - First quartile – Mediaan - Third quartile - Maximum value
Dit wordt weergegeven in een boxplot. De lijnen tussen deze 5 cijfers worden de whiskers/snorharen
genoemd. Het nadeel van de boxplot is dat het niks laat zien over de vorm die de distributie heeft.
6