Samenvatting van het eerste semester van statistiek 1, gegeven door professor Peter Thijssen. Ik maakte hem a.d.h.v. het handboek 'Statistisch gezien' (HS 1 t.e.m. 7) en de lessen (dus ook extra opmerkingen en verduidelijking). Als jaartotaal behaalde ik hiermee een 17/20. (De samenvatting van het ...
Inhoud
1 Over statistiek .............................................................................................................................................................. 3
2 Data statistisch onder de loep genomen ..................................................................................................................... 4
2.1 Datamatrix ........................................................................................................................................................... 4
2.2 Onderzoekselementen ........................................................................................................................................ 4
2.2.1 Onderzoekselementen als (deel van een groter) geheel ............................................................................ 4
2.2.2 Onderzoekselementen en hun aggregatieniveau ....................................................................................... 5
2.3 Variabelen ........................................................................................................................................................... 6
2.3.1 Meting van variabelen ................................................................................................................................ 6
2.3.2 Meetniveau van variabelen ........................................................................................................................ 7
2.3.3 Verdeling van variabelen ............................................................................................................................ 8
2.3.4 Plaats in de analyse van variabelen ............................................................................................................ 8
2.4 Meetwaarden: coördinaten in een n-dimensionele ruimte ................................................................................ 9
2.5 Werken met een datamatrix ............................................................................................................................... 9
2.5.1 De frequentietabel ..................................................................................................................................... 9
2.5.2 Het sommatieteken .................................................................................................................................. 10
2.5.3 De grafische voorstelling van data ........................................................................................................... 11
3 Visuele inspectie van verdelingen o.b.v. ruwe data ................................................................................................... 13
3.1 Inleiding ............................................................................................................................................................. 13
3.2 Het Stam-blad diagram ..................................................................................................................................... 13
3.3 4 analyseniveaus ............................................................................................................................................... 13
3.3.1 Het centrum of de centrale tendentie van een verdeling ........................................................................ 14
3.3.2 De variatie of spreiding van een verdeling ............................................................................................... 14
3.3.3 De vorm van de verdeling ......................................................................................................................... 15
3.4 Het doosdiagram / box-whisker diagram / boxplot .......................................................................................... 15
3.4.1 Kwartielen versus scharnierwaarden ....................................................................................................... 15
3.4.2 Doosdiagram bij aanwezigheid van uitschieters/outliers ......................................................................... 16
4 Eerste analyseniveau: centrale tendentie / centrum ................................................................................................ 17
4.1 Kengetallen: een indelingsperspectief .............................................................................................................. 17
4.2 Het rekenkundig gemiddelde ............................................................................................................................ 17
4.2.1 Eigenschappen van het rekenkundig gemiddelde .................................................................................... 18
4.2.2 Gewogen versus ongewogen gemiddelde (zie inleiding 4.2) ................................................................... 19
4.2.3 Lineair getransformeerde waarnemingsuitkomsten ................................................................................ 19
4.3 Niet-lineaire transformaties en andere gemiddelden ....................................................................................... 19
4.3.1 Wanneer HARMONISCH GEMIDDELDE gebruiken? .................................................................................. 20
4.3.2 Wanneer KWADRATISCH GEMIDDELDE gebruiken? ................................................................................ 20
4.3.3 Wanneer MEETKUNDIG GEMIDDELDE gebruiken? .................................................................................. 21
4.4 Overzichtstabel: kengetallen van centrale tendentie ....................................................................................... 23
5 Tweede analyseniveau: spreiding en dispersie .......................................................................................................... 24
5.1 Inleiding ............................................................................................................................................................. 24
1
, 5.2 Spreidingsmaten op kwantitatief meetniveau .................................................................................................. 24
5.2.1 Variantie en standaardafwijking (een duo) .............................................................................................. 24
5.2.2 De variatiecoëfficiënt (VC) : een relatieve spreidingsmaat ...................................................................... 28
5.3 Spreidingsmaten voor ordinale gegevens ......................................................................................................... 28
5.3.1 De interkwartielafstand (IKA = Q3 - Q1) ................................................................................................... 28
5.3.2 De interkwartiele spreidingscoëfficiënt (IKS) ........................................................................................... 28
5.3.3 De ordinale dispersie-index (ODI)............................................................................................................. 29
5.4 Spreidingsmaten voor nominale gegevens ....................................................................................................... 30
5.4.1 De nominale dispersie-index (NDI) ........................................................................................................... 30
5.4.2 De entropie (H) ......................................................................................................................................... 31
5.5 Overzichtstabel: Kengetallen van spreiding ...................................................................................................... 32
6 Derde en vierde analyseniveau: de vorm van de verdeling ....................................................................................... 33
6.1 Inleiding ............................................................................................................................................................. 33
6.2 De scheefheid of de asymmetrie ....................................................................................................................... 33
6.2.1 De scheefheidscoëfficiënt van Pearson .................................................................................................... 33
6.2.2 De scheefheidscoëfficiënt van Yule .......................................................................................................... 34
6.2.3 De scheefheidscoëfficiënt 𝜸𝟏 ................................................................................................................... 34
6.2.4 Overzichtstabel: kengetallen van scheefheid ........................................................................................... 36
6.3 De gepiektheid of de kurtosis ............................................................................................................................ 37
6.3.1 De gepiektheidscoëfficiënt 𝜸𝟐 ................................................................................................................ 37
6.3.2 Overzichtstabel: kengetallen voor gepiektheid ........................................................................................ 38
7 Werken met geclassificeerde data ............................................................................................................................. 39
7.1 Geclassificeerde versus ruwe scores ................................................................................................................. 39
7.2 Construeren van een geclassificeerde frequentietabel .................................................................................... 39
7.2.1 Stap 1: het aantal klassen k ...................................................................................................................... 39
7.2.2 Stap 2: de klassebreedte v ........................................................................................................................ 39
7.2.3 Stap 3: de klassegrenzen .......................................................................................................................... 40
7.2.4 Stap 4: van een klassenindeling naar een geclassificeerde frequentietabel ............................................ 40
7.3 Het analyseren van een geclassificeerde frequentietabel ................................................................................ 41
................................................................................................................................................................................... 41
7.3.1
De afgeronde meetwaarden of klassecentra xic ........................................................................................... 41
7.3.2 Exacte klassegrenzen en aanvullende frequenties ................................................................................... 41
7.3.3 Grafische voorstellingen voor geclassificeerde data ................................................................................ 41
7.4 Kengetallen voor een geclassificeerde frequentietabel .................................................................................... 43
7.4.1 De modus .................................................................................................................................................. 43
7.4.2 De mediaan en andere kwartielen ........................................................................................................... 43
7.4.3 Het rekenkundig gemiddelde ................................................................................................................... 44
2
,1 Over statistiek
Statistiek
= wetenschap v/h verzamelen, organiseren, presenteren, analyseren en interpreteren van gegevens of data
volgens een numerieke logica
-> 2 soorten statistiek
- Beschrijvende (descriptieve) statistiek: het beschrijven van de gegevens van een steekproef of populatie
met behulp van tabellen, grafieken en kengetallen
- Inferentiële (verklarende/analytische) statistiek: Op basis van steekproefgegevens (kleine groep)
uitspraken doen over de populatie (grote groep)
3
,2 Data statistisch onder de loep genomen
2.1 Datamatrix
= een tabel (bestaande uit rijen en kolommen) die statistische analyses, systematisch geordende, numerieke
gegevens bevat
olo en
ijen
Onderzoekselementen / cases -> datgene waar we iets over willen zeggen
Variabelen -> kenmerken van de onderzoekselementen
Meetwaarden / observaties -> waarde van een onderzoekselement op een variabele (= niet per se
kwantitatief)
2.2 Onderzoekselementen
2.2.1 Onderzoekselementen als (deel van een groter) geheel
- Populatie N: alle mogelijke onderzoekselementen worden onderzocht
- Steekproef (sample) n: de onderzoekselementen vormen een deel van een groter geheel aan elementen
Bij onderzoek van populatie
1. tijd & geld nodig
2. risico op selectie bias: responsgraad is nooit 100% & de non-respons zit vaak geconcentreerd (bv.
kansarmen) -> je selecteert mensen
Vb. volkstelling/census: men probeert volledige populatie te ondervragen
-> je bereikt echter nooit iedereen (bv. daklozen, schippers, illegalen,…)
→ daarom steeds meer gebruik van steekproeven/samples
Onderzoek met steekproef / sampling
Literary Digest-schandaal: tijdschrift probeerde winnaar verkiezingen in VS te voorspellen o.b.v. miljoenen
ondervraagden, maar had het toch fout omdat vooral hogere klasse (die meestal republikeins stemden)
ondervraagd waren -> selectie bias
-> ze gebruikte ‘straw poll’ = zo veel mogelijk formulieren uitdelen
<-> George Gallop: maakte schatting o.b.v. +- toevallige steekproef van ‘slechts’ 50.000 ondervraagden &
had het wel juist
-> hij gebruikte ‘eenvoudige aselecte steekproef’ (EAS) (Engels: ‘random sample’)
→ randomness/aselectie = belangrijker dan steekproefgrootte!!!
4
, opula e
Undercoverage: bepaalde gebieden van de populatie (bv.
kansarmen) zijn niet genoeg vertegenwoordigd in het
steekproefkader (de opgestelde lijst om uit te selecteren)
Steekproe ader
Selectie bias: door het ondervragen van mensen via een
specifieke weg/medium, selecteer je die mensen
Steekproef Non-respons bias: niet iedereen antwoordt op ondervraging
ace to face (het zijn ook vaak een bep. soort mensen die niet meedoen)
elefoon
ragenlijst Response bias: sommige respondenten antwoorden niet eerlijk
eelne ers/respondenten
1
• Enkelvoudige aselecte steekproef (EAS): men moet beschikken over een lijst van de elementen uit
de populatie, hieruit wordt volledig aselect geselecteerd
• Clustersteekproef: men onderscheid eenheden op verschillende geneste niveaus (bv. individuen=
genest in gemeenten = genest in provincies), uit elk niveau wordt random een aantal eenheden
gekozen, beginnend bij hoogste niveau (bv. steekproef Europa: eerst 100/500 regio’s rando kiezen,
dan van die 100 regio’s rando 1000 ensen kiezen)
-> tweetrapssteekproef, drietrapssteekproef,…
• Gestratificeerde steekproef: men weet dat de populatie uit bepaalde subgroepen bestaat
(voorkennis), men trekt een toevalssteekproef uit iedere subgroep, met de juiste verhoudingen t.o.v.
de populatie (bv. systeem verkiezingen VS met kiesmannen)
‘The bad’
• Convenience steekproef: de steekproef bestaat uit onderzoekselementen die je toevallig ter
beschikking hebt
‘The ugly’
• Quota steekproef: men maakt gebruik van voorkennis bij selectie van de onderzoekselementen
(= niet betrouwbaar!) (bv. voor steekproef met als enige vereiste dat ‘ an tussen 50 & 60 jaar’, 1 bepaalde
vriendengroep ondervragen)
-> lijkt op gestratificeerde steekproef, maar discretie van de interviewer is belangrijk om de
onderzoekselementen te selecteren (selectiebias)
2.2.2 Onderzoekselementen en hun aggregatieniveau
Aggregatieniveau = ‘niveau van optelling’
-> de onderzoeksvraag bepaalt op welk niveau je data moet verzamelen
- micro: bv. burgers, studenten, gebouwen, krantenartikelen
- meso: bv. beroepsgroepen, verenigingen, organisaties, scholen
- macro: bv. gemeenten, landen
Ecologische meetfout (ecological fallacy):
= een denkfout waarbij kenmerken die een gehele statistische populatie heeft, worden toegekend aan delen
van die populatie (de spreiding in de populatie wordt verwaarloosd/onderschat)
-> o.b.v. gegevens op macro-/mesoniveau uitspraken doen over individuen op microniveau
5
, -> Simpson paradox: Simpson stelde vast dat bij een
Enkel pa nten et
erns ge klachten medische ingreep proportioneel minder slachtoffers
iekenhuis A iekenhuis overlijden in ziekenhuis A dan in B -> ! maar als men rekening
Alle pa nten verlijden 1 houdt met de ernst van de klachten blijkt ziekenhuis B in
verleven 6
iekenhuis A iekenhuis 100 100
beide gevallen beter te scoren ! -> hoe kan dat?
verlijden 1
→ B krijgt in verhouding (in ‘absolute cijfers’) veel meer
Enkel pa nten zonder
verleven erns ge klachten patiënten met ernstige klachten dan A
100 100
iekenhuis A iekenhuis -> Bij de eerste datamatrix wordt te hoog geaggregeerd
verlijden 1 -> het verband tussen overlevingskans en ziekenhuizen
verleven
100 100 = een schijnverband: als je het opsplitst in andere variabelen,
verandert het compleet
- Als je bepaalde resultaten analyseert
-> altijd belangrijk na te denken of er geen andere belangrijke variabelen meespelen!
2.3 Variabelen
= kenmerken van de onderzoekselementen die kunnen variëren
Conceptualisering: wat wil je meten?
(niet ‘ik eet geslacht’ -> wat bedoel je et geslacht? Hor onen/chro oso en/…?)
Indicering: welke empirische representanten? -> welke indicator gebruik je om te meten?
(testosterongehalte kan je op verschillende manieren meten)
- Validiteit: meet je wat je wilt meten? Is de indicator valide?
(kunnen er bv. geen vrouwen zijn met een zeer hoog testosterongehalte?)
Operationalisering: hoe ga je het registreren? Hoe ga je de indicatoren gebruiken?
(op welk o ent, nauwkeurig of niet, …)
Bv: 5 antwoordcategorieën: formaat van Likert (volledig eens, eens, noch eens, noch oneens, volledig oneens)
- Betrouwbaarheid:
- interpersoon betrouwbaarheid: mensen die ongeveer dezelfde karakteristiek vertonen, moeten op
gelijkaardige manier reageren op de indicatoren
- intertemporele/test-retest betrouwbaarheid: als men dezelfde indicatoren gebruikt op
verschillende momenten zou men ceteris paribus (de andere omstandigheden zijn constant) een vrij
grote samenhang moeten zien tussen de antwoorden
Antwoorden op survey-items = vaak vertekend door onwetendheid, luiheid & sociale wenselijkheid
-> moeilijke verwoording vermijden & een ‘weet niet’- / ‘geen ening’-categorie voorzien
6
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller johannaverstraelen. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $7.56. You're not tied to anything after your purchase.