VUB
Samenvatting
Statistiek HOC
1ste semester
Ilona De Grox
2020-2021
,Samenvatting : Statistiek HOC Semester 1
Inhoudstafel
1. Inleiding..............................................................................................................................................5
1.1. Onderzoekshypothese.................................................................................................................5
1.2. Populatie en steekproef...............................................................................................................5
1.3. Validiteit en betrouwbaarheid.....................................................................................................5
1.4. Soorten meetschalen...................................................................................................................5
1.5. Soorten variabelen......................................................................................................................6
2. Beschrijvende statistiek......................................................................................................................7
2.1. Inleiding.......................................................................................................................................7
2.2. Weergeven van verdelingen met grafieken.................................................................................7
2.3. Verdelingen numeriek beschrijven..............................................................................................8
2.3.1. Meten van het centrum: gemiddelde en mediaan................................................................8
2.3.2. Meten van spreiding: kwartielen..........................................................................................9
2.3.3. Meten van spreiding: standaardafwijking..........................................................................10
2.3.4. Samenvatting: centrum en spreidingsmaten......................................................................10
2.3.5. Meeteenheid veranderen....................................................................................................11
2.4. De normale verdeling................................................................................................................11
2.4.1. Dichtheidskrommen............................................................................................................11
2.4.2. Het meten van centrum en spreiding voor dichtheidskrommen..........................................12
2.4.3. Normale verdelingen...........................................................................................................12
2.4.4. Gestandaardiseerde waarnemingen...................................................................................13
2.4.5. De standaardnormale verdeling.........................................................................................14
2.4.6. Normaal-kwantiel-diagrammen.........................................................................................15
3. Statistische inferentie.......................................................................................................................15
3.1. Inleiding.....................................................................................................................................15
3.2. Schatten met betrouwbaarheid.................................................................................................16
3.2.1. Statistische betrouwbaarheid.............................................................................................17
3.2.2. Betrouwbaarheidsintervallen..............................................................................................17
3.2.3. Betrouwbaarheidsinterval voor een populatieverwachting................................................18
3.2.4. Gedrag van betrouwbaarheidsintervallen..........................................................................19
3.2.5. Bepalen van de steekproefomvang.....................................................................................19
3.2.6. Enkele waarschuwingen......................................................................................................19
3.3. Significantietoetsen...................................................................................................................20
3.3.1. Redenering bij significantietoetsen.....................................................................................20
1
,Samenvatting : Statistiek HOC Semester 1
3.3.2. Formuleren van hypothesen................................................................................................20
3.3.3. Overschrijdingskansen........................................................................................................21
3.3.4. Statistische significantie......................................................................................................21
3.3.5. Toetsen voor een populatieverwachting.............................................................................22
3.3.6. Overschrijdingskansen p versus vast significantieniveau α.................................................22
3.3.7. Tweezijdige significantie-toetsen en betrouwbaarheidsintervallen....................................22
3.4. Gebruik en misbruik van toetsen...............................................................................................23
3.4.1. Kiezen van een significantieniveau......................................................................................23
3.4.2. Wat statistische significantie NIET betekent.......................................................................23
3.4.3. Negeer het ontbreken van significantie niet.......................................................................24
3.4.4. Statistische inferentie is niet voor alle data geldig..............................................................24
3.4.5. Ga niet zoeken naar significantie........................................................................................24
3.5. Onderscheidingsvermogen........................................................................................................25
3.5.1. Fouten van type 1 en 2........................................................................................................26
4. T-toetsen..........................................................................................................................................26
4.1. Inferentie voor het gemiddelde van een populatie...................................................................26
4.1.1. T-procedures voor één steekproef.......................................................................................26
4.1.2. T-procedures voor gekoppelde paren (Paired samples t-test).............................................28
4.1.3. Robuustheid van t-procedures............................................................................................28
4.2. Vergelijking van twee gemiddelden (Independent samples t-test)...........................................29
4.2.1. T-procedure voor 2 onafhankelijke steekproeven...............................................................30
4.2.2. Robuustheid independent samples t-tests..........................................................................31
5. Eén-factor variantie analyse of One Way Anova...............................................................................32
5.1. Inferentie voor één-factor variantie analyse.............................................................................32
5.2. Het vergelijken van gemiddelden op basis van variantie...........................................................32
5.3. De twee steekproeven t-grootheid............................................................................................33
5.4. De hypothesen van ANOVA-procedure.....................................................................................34
5.5. De voorwaarden van ANOVA.....................................................................................................35
5.6. De ANOVA tabel en de F-toets...................................................................................................35
5.6.1. Meervoudige vergelijking of post-hoc test..........................................................................38
5.6.2. Contrasten..........................................................................................................................40
5.7. Stappen bij het uitvoeren van een ANOVA................................................................................41
6. Twee factor variantie analyse of Two-Way Anova............................................................................42
6.1. Voordelen van de Two-way ANOVA..........................................................................................42
6.2. Het model voor de Two-way ANOVA.........................................................................................42
2
,Samenvatting : Statistiek HOC Semester 1
6.3. Hoofdeffecten en interacties.....................................................................................................43
6.4. ANOVA tabel voor Two-way ANOVA..........................................................................................43
6.5. Stappen bij het uitvoeren van een Two-way ANOVA.................................................................47
7. Covariantie analyse...........................................................................................................................49
8. Repeated measures analyse.............................................................................................................51
8.1. Voordelen van repeated measures analyse...............................................................................51
8.2. Two-way repeated measures ANOVA........................................................................................51
8.3. Two-way repeated measures ANCOVA......................................................................................53
8.4. Stappen bij het uitvoeren van Two-way repeated measures ANOVA........................................58
9. Correlatie..........................................................................................................................................60
9.1. Meetniveau................................................................................................................................60
9.2. Bivariate correlatie....................................................................................................................60
9.2.1. Scatter Plot..........................................................................................................................60
9.2.2. Covariantie..........................................................................................................................60
9.2.3. Pearson’s correlatiecoëfficiënt............................................................................................60
9.2.4. Outliers...............................................................................................................................60
9.2.5. Lineair verband...................................................................................................................60
9.2.6. Data-transformatie.............................................................................................................60
9.2.7. Populatieparameter rho......................................................................................................60
9.2.8. Determinatiecoëfficiënt r²...................................................................................................60
9.3. Partiele correlatie......................................................................................................................60
9.3.1. Confounding variabele........................................................................................................60
9.3.2. Direct en indirect verband...................................................................................................60
10. Eenvoudige lineaire regressie.........................................................................................................60
10.1. Line of best fit..........................................................................................................................60
10.1.1. Criterium en predictor.......................................................................................................60
10.2. Residu of error.........................................................................................................................60
10.2.1. Least squares methode.....................................................................................................60
10.3. Regressierechte.......................................................................................................................60
10.4. Populatieparameters...............................................................................................................60
10.5. Predictie...................................................................................................................................60
10.6. Determinatiecoëfficiënten.......................................................................................................60
10.7. Gestandaardiseerd coëfficiënt.................................................................................................60
10.8. Voorwaarden...........................................................................................................................60
10.8.1. Lineair verband.................................................................................................................60
3
,Samenvatting : Statistiek HOC Semester 1
10.8.2. Outliers.............................................................................................................................60
10.8.3. Onafhankelijkheid van de observaties..............................................................................60
10.8.4. Homoscedasticiteit...........................................................................................................61
10.8.5. Normaaldistributie van de residuen.................................................................................61
11. Multipele lineaire regressie............................................................................................................61
11.1. Steekproef...............................................................................................................................61
11.2. Populatie..................................................................................................................................61
11.3. Multicollineariteit....................................................................................................................61
11.3.1. Simpson paradox..............................................................................................................61
11.3.2. Weglaten wiskunde en wetenschappen............................................................................61
11.3.3. Tolerance..........................................................................................................................61
11.4. Nominale en ordinale predictoren...........................................................................................61
11.4.1. Dummy variabelen............................................................................................................61
11.4.2. Vooronderstellingen..........................................................................................................61
11.4.3. Niet-lineaire predictoren...................................................................................................61
4
,Samenvatting : Statistiek HOC Semester 1
1.Inleiding
Bij statistiek verzamel je data, ga je deze data analyseren (mbv statistische analyses) en de resultaten
interpreten en rapporteren (= onderzoekshypothese al dan niet aanvaarden)
1.1. Onderzoekshypothese
Onderzoekshypothese of werkhypothese = verwacht resultaat van de studie op basis van theorieën,
resultaten van voorgaande onderzoeken en vorige ervaringen/observaties van de onderzoeker
Alternatieve hypothese (Ha): Er is duidelijk een verschil/verband/effect en je maakt deze
kenbaar in je hypothese
Deze kan je al dan niet aanvaarden
Nulhypothese (Ho): Er is GEEN verschil/verband/effect
Deze kan je al dan niet verwerpen
Bij statistiek is het de bedoeling dat je gegevens en informatie verzamelt zodat je de
nulhypothese kan verwerpen. We gaan dus bewijs moeten verzamelen.
1.2. Populatie en steekproef
Universum -> (onderzoeks)populatie -> steekproef begin onderzoek -> steekproef einde onderzoek
1.3. Validiteit en betrouwbaarheid
Validiteit=
Belangrijkste psychometrische eigenschap van een test/meetinstrument
De mate waarin de test of het instrument effectief meet wat hij bedoelt te meten!
Indicatie van de degelijkheid/accuraatheid van de test(resultaten)
Betrouwbaarheid=
Deelaspect van de validiteit
Is test/meetinstrument vrij van willekeurige fouten en/of toevallige factoren?
De mate waarin test(resultaat) consistent of herhaalbaar is
OPGEPAST! Test kan nooit valide zijn als hij niet betrouwbaar is, maar kan wel betrouwbaar zijn en
niet valide.
1.4. Soorten meetschalen
Kwalitatief=
5
,Samenvatting : Statistiek HOC Semester 1
Nominale schaal: categorisch, geen kwantitatieve betekenis (bv. geslacht)
Ordinale schaal: kan geordend worden, geen gelijke intervallen (bv. rangen in leger)
Kwantitatief=
Interval schaal: gelijke intervallen, geen absoluut nulpunt1, (dis)continu (bv. temperatuur)
Ratio schaal: gelijke intervallen, wel2 absoluut nulpunt, (dis)continu (bv. gewicht, afstand…)
OPMERKING: Een Likertschaal is strikt genomen een ordinale schaal, maar wordt beschouwd als een
intervalschaal vanaf minimum 5 punten!
1.5. Soorten variabelen
Afhankelijke variabele (AV) =
Variabele waarvan men verwacht dat die zal variëren naargelang of onder invloed van de
onafhankelijke variabele
Variabele waarop men het effect van de onafhankelijke variabele wil onderzoeken
UITKOMSTMAAT
Onafhankelijke variabele (OV) =
Conditie, eigenschap, methode, programma… waarvan men invloed of effect verwacht op
afhankelijke variabele
BETWEEN subjects variabele (OF/OF) =
Eigenschap of groepsvariabele die proefpersonen onderscheidt
WITHIN subjects variabele (EN/EN) =
Variabele wordt gemeten bij alle proefpersonen
Herhaalde meting binnen eenzelfde individu
Iedereen is zijn eigen controle en dus zal beide interventies ondergaan
1
Bij geen absoluut nulpunt wil men zeggen dat zelfs het getal 0 een betekenis heeft, zo heeft bijvoorbeeld 0
graden ook een betekenis
2
Nul heeft hier geen waarde/betekenis
6
,Samenvatting : Statistiek HOC Semester 1
2.Beschrijvende statistiek
2.1. Inleiding
Definitie beschrijvende statistiek= gegevensverzameling beschrijven
Exploratieve3 DATA-ANALYSE: elke variabele gaan we individueel verkennen, die doe je eerst
grafisch4 (visualisatie) en dan numeriek (data-reductie)
2.2. Weergeven van verdelingen met grafieken
Kwalitatieve variabelen zijn categorische variabelen 5 dus
Staafdiagram
Taartdiagram
Kwantitatieve variabelen= in elke verzameling hebben de gegevens een zekere variatie.
Variatiepatroon wordt getoond door een verdeling van variabele.
Frequentietabel
Stamdiagrammen: stam en blad
Doel: vorm van de verdeling in beeld brengen (door diagram op zijn kant te zetten)
Stam (alle cijfers behalve laatste) en blad (laatste cijfer)
Stammen in verticale lijst en bladen naast bijhorende stammen (allebei van klein
naar groot ordenen)
Rug-aan-rug stamdiagram: 2 verwante verdelingen vergelijken
Je kan stammen splitsen, afkappen (indien te veel cijfers kan je de laatste weglaten)
Niet geschikt voor grote groepen/veel observaties
Bij het onderzoeken van de verdeling ga je het diagram op zijn kant zetten
Histogrammen
Aantal (freq) of percentage (relatieve freq) waarnemingen in elk interval
Bij histogrammen is het zeer belangrijk dat er een gelijke breedte is en dat er geen
ruimte wordt gelaten tussen
Verdeel data in klassen van gelijke breedte en kies ook het aantal te gebruiken
klassen
Aantal per klasse = relatieve frequenties
3
Er is altijd spreiding want niet iedereen is gelijk, elk individu is anders
4
Is de verdeling symmetrisch of niet?
5
De kwalitatieve variabele kan opgedeeld worden in verschillende categorieën
7
,Samenvatting : Statistiek HOC Semester 1
Onderzoeken van verdelingen: kijk in grafiek naar het globale patroon 6 en opvallende
afwijkingen
Eigenschap van een verdeling:
Centrum van de verdeling: mediaan of gemiddelde
Spreiding: range tussen minimum en maximum
Uni of multimodaal: 1 top of verschillende, modus is de score die het meest frequent
voorkomt
Vorm van de verdeling: symmetrisch of scheef
Afwijkingen van de algemene vorm = uitbijters, soms hebben deze een betekenis
(niet weglaten dan) of soms zijn deze fouten en dan moet je deze corrigeren
Tijdreeksgrafieken: lijndiagrammen
Gegevens uitzetten tegen tijd of volgorde
Tijd altijd op horizontale as
Observatie: trend, aanhoudende stijging of daling, seizoen variatie, fluctuaties, cycli
2.3. Verdelingen numeriek beschrijven
Eerst kijken naar de vorm van de verdeling op grafische manier: grafisch geeft ons enkel een
idee op het zicht, geen exacte gegevens want je kan daar geen conclusie uit trekken
Dan numeriek beschrijven: centrum, spreiding te berekenen voor gelijk welke kwantitatieve
variabele
Variabele per variabele: de verdeling moet je bekijken per variabele, alvorens onderlinge
verbanden/effecten/verschillen na te gaan
2.3.1. Meten van het centrum: gemiddelde en mediaan
Rekenkundig gemiddelde of gemiddelde= tel alle waarnemingen op en deel door het aantal
waarnemingen
Zwakheid van gemiddelde: gevoelig voor extreme waarnemingen bv. uitbijters en
scheve verdeling met 1 staart dus gemiddelde is GEEN resistente maat
Mediaan= middelste waarneming in geordende lijst
Mediaan is gemakkelijk af te lezen uit stamdiagram
Positie kan berekend worden uit (n+1) / 2
Mediaan is wel resistente centrummaat, want is afhankelijk van de verdeling en niet
van de uitbijters
Gemiddelde vs. mediaan =
6
Hoe het normaal zou zijn, wat je verwacht als verdeling
8
, Samenvatting : Statistiek HOC Semester 1
1. Bij symmetrische verdeling is de gemiddelde gelijk aan de mediaan
2. Naarmate verdelingen schever7 worden dan gaan gemiddelde en mediaan verder uit elkaar
3. Bij uitbijters:
Bij corrigeren of weglaten gebruik je het gemiddelde
Wanneer je uitbijters erin laat dan mag je de mediaan gebruiken
2.3.2. Meten van spreiding: kwartielen
Bij het beschrijven van een verdeling gebruik je centrummaat en spreidingsmaat=
Spreidingsmaat: uitdrukking van de variabiliteit van een verdeling
Spreiding of range: verschil tussen maximum en minimumscore
Percentiel= Px: de waarde zodat x% van de verdeling hieronder valt of gelijk is
Kwartielen=
1ste kwartiel = 25ste percentiel (P25 of Q18)
2de kwartiel = 50ste percentiel of globale mediaan (P50 of Q2 of M)
3de kwartiel = 75ste percentiel (P75 of Q39)
Kwartielen en globale mediaan leren iets over de verdeling
Interkwartielafstand (IKA) = afstand tussen Q3 en Q1 waar 50% van de data zich bevindt
Resistente maat: uitbijters spelen geen rol
1.5 keer IKA boven de 3de kwartiel of onder de 1ste kwartiel dan zijn er verdachte
uitbijters
De vijf-getallen-samenvatting =
Info over centrum (mediaan) en spreiding (min tot max)
Minimum, Q1, M, Q3, maximum
Doosdiagram of boxplot =
Randen van de doos zijn de kwartielen
Mediaan is het lijnstuk in de doos
Snorharen zijn de minimum en maximum die geen uitbijters zijn
Uitbijters en extreme waarden worden apart weergegeven
Bij boxdiagrammen kun je verschillende verdelingen met elkaar vergelijken en/of
uitbijters opsporen
7
Bij scheve verdeling wordt gemiddelde naar uitbijters getrokken terwijl de mediaan resistenter is
8
Mediaan van waarnemingen hieronder
9
Mediaan van waarnemingen hierboven
9