Dit document is een uitgebreide samenvatting van alle theorie (video-) lessen (=hoorcolleges) van het vak statistiek gegeven door John Lievens. Dit document kan gebruikt worden door alle studenten van 1e bachelor politieke en sociale wetenschappen aan de UGent. Alles wat in de lessen besproken wer...
Statistiek 2020-2021
1. DEEL 1: UIVARIATE BESCHRIJVENDE STATISTIEK
1.1. DOELSTELLINGEN
1.2. BASISCONCEPTEN
Illustratie
We zullen basisconcepten behandelen die we in het vak veel nodig hebben
We zullen een concreet voorbeeld gebruiken om die basisconcepten te illustreren:
• Onderzoeksvraag: verschillen in museumbezoek bij studenten 1BA PSW in kaart brengen
• We zouden dan een korte vragenlijst afnemen die relevante informatie opleverd om
verschillen in museumbezoek te bergrijpen
o Wat is je geslacht?
Uit empirisch onderzoek is gebleken dat vrouwen meer geneigd zijn om naar een
museum te gaan dan mannen
o Welke opleiding volgde je vorig jaar?
We weten dat hoger opgeleiden meer kans hebben om naar een museum geweest te
zijn dan lager opgeleiden
o Wat is het hoogst behaalde diploma van je ouders?
Opleiding van ouders/cultuurparticipatie kunnen helpen in het begrijpen van
verschillen in museumbezoeken van jongeren.
o Hoe vaak ging je het voorbije jaar naar een museum?
= centrale variabele, dit is de variabele die we willen weten
o Wat is je leeftijd?
Leeftijd kan een rol spelen Onderzoekelement: een student uit
o Naar welke tv-zender kijk je het meest? die populatie --> alle studenten
Relevant als Life style indicator samen vormen de
o Wat is je wekelijks budget voor vrije tijd? onderzoekspopulatie
Is er een economische drempel? Analuse eenheid: student 1ste
bachelor PSW
Belangrijke concepten
onderzoekselementen
• Ook wel elementen, (statistische) eenheden of cases genoemd
• Dit zijn de onderdelen van de realiteit waarop een onderzoek betrekking heeft.
• Je meet iets bij wie?
• Een onderzoekselement moet je eenduidig gaan definiëren omdat uitspraken beperkt zijn tot
de onderzoekelementen.
• Dit zijn individuen, gebeurtenissen, collectiviteiten, landen
o Onderzoekselement is land: werkloosheidcijfers tussen landen van de EU vergelijken
o Onderzoekelement is een gebeurtenis: verkeersovertredingen op bepaalde weg ivm
andere wegen vergelijken
onderzoekspopulatie
• Dit de verzameling van de onderzoekselementen
• Ook een eenduidige difinitie is noodzakelijk want alle uitspraken zullen beperkt blijven tot de
onderzoekspopulatie. Je kan op basis van de steekproef geen uitspraken doen over andere
onderzoekspopulaties (=bereik van de steekproef)
• Vaak gebonden aan tijd en ruimte
1
,analyse-eenheid
• Eenheid waarop de analyse gebeurt (eenheid waar het onderzoek op gebeurt)
Variabele
• Kemerk (=een mogelijke eigenschap van een eenheid) dat we meten bij onze
onderzoekseenheden
• Dit kenmerk varieert over de eenheden
uitkomstenverzameling
• Alle mogelijke uitkomsten van een variabele is de uitkomstenverzameling
• Bv woonplaats: alle gemeentes is uitkomstenverzameling
meten
• Met de vragenlijst zullen we vaststellen welke waarde een eenheid heeft op een variabele
• Dus: via een bepaalde meetprocedure vaststellen wat de waarde van een kenmerk is bij een
element.
• Aantal belangrijke elementen bij meten:
o Nauwkeurigheid: hoe exact zijn we bij onze meting?
§ Hoe we meten zal de exactheid beïnvloeden
§ Ook referentieperiode speelt een rol (20jaar vs 6 maanden)
o Betrouwbaarheid: heeft betrekking op consistentie bij herhaalde waarneming.
o Dit betekent dat indien we de vragenlijst nog eens zouden afnemen, dat er de zelfde
informatie uitkomt als de eerste keer dat de vragenlijst is afgenomen.
o Validiteit: de mate van overeenkomst tussen de indicator (wat we meten) en het
theoretisch concept (wat we wilden meten).
bv toepassing op illustratie: stel dat we wilden weten hoeveel mensen dat we naar
een kunstmuseum gingen, maar er is gevraagd of men naar een gewoon museum is
geweest. (=systematische fout: want er is iets gemeten die je eigenlijk niet wilde
meten)
waarde
• Het resultaat van meten is de waarde vaststellen
• De waarde van een element (bv:persoon) op een kermek dat we gementen hebben
(=variabele)
2
, Input voor statistische analyses
Als we gemeten hebben krijgen we een gegevensset/dataset/datamatrix: dit is een document waar
gegevens van het onderzoek in vervat zijn
Kolom
volgnr geslacht opleiding diploma vader museumbezoek leeftijd TV-zender budget
1 man menswet. HSO 12 18 VTM 15
2 vrouw lat.wisk LO 5 17 VT4 9
Rij 3 man mod.talen LSO 1 19 TV1 4
4 vrouw economie HO 0 18 2BE 12
... ... ... ... ... ... ... ...
Opbouw:
• kolom = de variabele, de kenmerken die we meten
• rij = de waarde van de verschillende eenheden op de variabele
o volgnummer = nummer van de eenheid, het nummer van mensen die aan het
onderzoek hebben deelgenomen
Maar in de praktijk wordt er vaak gewerkt met nummerieke codes (via een codeboek):
Opbouw:
• Geslacht wordt weergegeven met 0=man of 1 =vrouw (wordt weergegeven in een
codeboek)
• 9 = geen antwoord gegeven op de vraag of je weet het niet
• De nummerieke codes zijn bij sommige variabelen betekenisvol, maar bij andere niet
o Bv: geslacht (=betekenisvol) vs. Budget (=niet betekenisvol)
3
,Meetniveau van variabelen: schaal van meten (hoeveelheid informatie)
Informatie verschilt naargelange het meetniveau: een verschillende meetniveau geeft een
verschillende hoeveelheid informatie:
1. Kwalitatieve/categorische variabelen
• Nominale variabelen
o Exhuastieve classificatie (= volledige waarde, een volledige beschrijving)
o Exclusieve classificatie (=niet overlappend)
o Bv: gelacht, TV-zender, haarkleur, werelddeel,…
o Bij een nominale veraibale kan je een persoon indelen in verschillende waarden,
maar die waarden kunnen niet geordend worden want ze staan op hetzelfde
niveau.
• Ordinale variabelen
ð Waarden ordenen (iets is meer/minder waard), maar we kunnen niet zeggen hoeveel
meer of minder iets waard is.
ð Bv: opleiding, opinievraag, kwaliteitsoordeel in sterren, medaile
2. Kwantitatieve/metrische variabelen
• Intervalvariabelen
ð Afstand tussen de waarde heeft betekenis dus we kunnen uitspraken doen hoeveel
meer/minder iets waard is.
ð Bv: Leeftijd, geboortejaar (we kunnen zeggen of iemand jonger of ouder is en hoeveel
jaren ze verschillen.
ð Bv: temperaturen in graden celsius (we kunnen zeggen hoeveel de temperatuur
verschilt)
• Ratiovariabelen
ð Absoluut nulpunt: dit is een waarde waar je niet onder kan gaan
ð = Geen negatieve
ð Bv: leeftijd, tijdsverschil, budget
Opmerkingen :
• De meetniveau’s zijn geordend van weinig informatie naar veel informatie
• Wat kan op een lager meetniveau kan ook op een hoger meetniveau, maar niet
omgekeerd
• Er bestaat een verschil tussen wat we meten en wat we analyseren: bij het analyseren
kunnen we een transformatie toepassen
o Meten met open vraag (rationiveau)
o Bij de analyse zoeken we een groep mensen waardoor we gaan indelen in klassen
(ordinaalniveau)
• Een andere classificatie op basis van de uitkomstenverzameling:
o Continue variabelen:
§ Getal met komma (reële getallen)
§ Tussen 2 mogelijke uitkomsten is het mogelijk om een 3de te bedenken die
ertussen ligt
§ =oneindige uitkomstenverzameling
§ Bv: Tijd, exacte leeftijd, inkomen,..
o Discrete variabelen
§ Getal zonder komma (natuurlijk getal)
§ =eindige uitkomstenverzameling
§ Bv: leeftijd in verstreken jaren, aantal kinderen, museumbezoek,..
4
,Doelstelling van univariate beschrijvende statistiek voor 1 variabele
Univariate statisitiek heeft tot doel gegevens van 1 variabele op overzichtelijke en synthetische wijze
weergeven.
• Daarvoor gaan we verdelingen beschrijven via frequentietabellen, grafieken, maten van
positie, maten van spreiding en vorm
1.3. FREQUENTIEVERDELINGEN
= hoe zijn de eenheden verdeeld over de verschillende waarde van een variabele?
bv: beschrijven hoe een populatie verdeeld is op het kenmerk hoeveel keer men naar een museum
geweest is.
Soorten frequenties
1. Absolute frequentie (Fi)
• = Het aantal elementen met een bepaalde waarde
• i = de waarde
• fm = met m waarden (Dit zijn de mogelijke uitkomsten in de uitkomstenverzameling)
• formule:
2. Relatieve frequentie (pi)
• Het aantal elementen met een bepaalde waarde gedeeld door het totaal aantal
elementen
• Die uitkomst is de fractie of proportie (pi)
• Formule:
N? n= som van alle fi
Voorbeeld van een frequentietabel
(hier zie je de bovenstaande formules toegepast in een tabel)
= optelling van
proportie is altijd 1!
DUS:
= waarde (i)
Absolute frequentie: 1896 mensen hebben 0
poëziebundels gelezen
Proportie: de proportie is 0, 67 van de mensen die
geen poëziebundels gelezen hebben (=67%)
N: totaal aantal mensen die deel genomen hebben
5
, Frequentietabel met cummulatieve frequentie
Cummulatieve frequentie = het aantal (=cumulatieve frequentie) of proportie (=cumulatief
percentage) eenheden met waarde i of lager
• Kan enkel vanaf ordinaal meetniveau (want waarden moeten geordend kunnen worden)
illustratie van een frequentietabel:
Aantal elementen met een bepaalde proportie pi= Fi /n
waarde (i) => fi= pi x n
F1
F2,
F1 (=) F2= F1+F2
N= f1+f2+f3+f4+f5
Pi (=)
P2= P1+P2
Frequentietabel met metrische variabelen
Er zijn te veel verschillende waarden om die overzichtelijk weer te geven in een frequentietabel
OPLOSSING:
Gegevens opdelen in klassen via een frequentietabel met klassenindeling
• OPGELET: de tabel is afhankelijk van de klassenindeling, afhakelijk van de klasse indeling die
gebruikt wordt kan men een andere verdeling krijgen
• OPGELET: Men moet afwegen tussen een overzichtelijke weergave vs. Verlies aan informatie
• OPGELET: meetniveau kan veranderen (meting nominaal, maar rapportering ordinaal)
6
,Weergave van klassen in tabel
Je hebt keuze tussen:
• Klassengrenzen = laagste waarden, hoogste waarde
• Klassenmidden = laagste waarde + hoogste waarde / 2
OPGELET:
• Indien we werken met continue varabelen dat moeten de klassen exclusief zijn. er mogen
geen verlappingen zijn tussen verschillende klassen.
o Dus niet: niet:
§ 25 - 50
§ 50 - 75
o Wel met open en gesloten haakjes:
§ 25 £ . < 50 of [25,50[
§ 50 £ . < 75 of [50,75[
• Het is ook nog mogelijk dat de weergegeven klasse niet overeenkomt met de werkelijke klasse
o weergegeven werkelijk
25 £ . < 50 24,5 £ . < 49,5
50 £ . < 75 49,5 £ . < 74,5
(het getal 25 begint eigenlijk bij 24,5)
Formele voorschriften voor tabellen
Noodzakelijke elementen van tabellen:
• waarden/klassen exhaustief en exclusief
• titel: kort en bondig inhoud aangeven
• kolomkoppen, met exacte aanduiding inhoud
• logische ordening
• totalen
• bronvermelding
Grafieken
Naast tabellen kunnen we ook gebruik maken van grafieken om frequentieverdelingen te bestuderen.
(De basisconcepten zijn hetzelfde als bij tabellen, maar het is een grafische weergave).
1. Taartdiagram
• definities:
ai = hoek voor waarde i
ai = pi x 360°
Hoe groter de pi, hoe groter de hoek
voor waarde i is.
• Voordeel: maakt verdeling direct
visueel duidelijk
• Nadeel: aantal waarden beperkt want
de taartdiagram is niet overzichtelijk
als er te veel waarden zijn.
(oplossing = klassen)
OPGELET: een 3 dimensionele taartdiagram
kan misleidend zijn
7
,2. Staafdiagram (univariaat)
• Frequenties worden weergegeven via staven
ð De hoogte van de staaf toont de
frequentie
DUS: Een hoge staaf komt overeen
met een hoge frequentie.
• definities:
ð L = lengte van nulpunt tot maximum in
grafiek
ð Li = lengte van staaf voor waarde i
ð Li = pi x L
ð Het zijn losse staafjes
• voordeel:
ð Meer waarden opnemen (ev. verticale oriëntatie) (wat beperkt was bij een taartdiagram)
ð Mogelijkheid om verdeling op te splitsen naar waarden op tweede variabele (bivariaat).
We kunnen makkelijk een visuele voorstelling maken van een bivariate samenhang
tussen twee kenmerken.
3. Staafdiagram (bivariaat)
• Illustratie: is er een samenhang tussen naar pop/rock concerten gaan en de leeftijd?
ð We gaan dus 2 variabelen in relatie brengen met elkaar (= bivariate statistiek)
ð Conclusie: naarmate de leeftijd stijgt, stijgt het mensen die 0 keer naar een concert
geweest is en daalt het aantal mensen die 1-2 keer of meer dan 3 keer naar een concert
geweest zijn.
4. Histogram
• definities:
o Enkel voor metrische variabelen, in klassen gegroepeerd
o Staafjes plakken tegen elkaar
o Oppervlakte staafjei = fi (of pi)
o Totale oppervlakte = n (of 1)
o Ii = klassenbreedte klasse i (=5)
o Frequentiedichtheid: hi = fi / Ii
• Voordeel: verdeling van metrische variabele visueel duidelijk
• Nadeel: verdeling afhankelijk van klassenindeling
8
,Formele voorschriften voor grafieken
noodzakelijke elementen:
• titel: kort en bondig inhoud aangeven
• titels op assen
• teleenheden
• nulpunt
• legende
• bronvermelding
• opletten met verwarrende lay-out (bvb. 3D)
1.4. MATEN VAN POSITIE
Samenvatten van verdelingen
We zullen verdelingen samenvatten voor het beschrijven en vergelijken van de verdeling
ð Meer specifiek zullen we een aantal kenmerken samenvatten:
1. Positie (centraliteit, ligging)
• = hoe centraal zijn de waarnemingen verdeeld over de mogelijke waarden van een
variabele?
o Aan de linkse kant?
o In het centrum?
o Aan de rechtse kant?
2. Spreiding (variatie)
• Hoe dicht liggen waarnemingen bij elkaar?
• Zijn ze sterk gespreid, waardoor we meer variatie hebben?
3. Vorm (symmetrie, scheefheid)
• Symetrische verdeling?
= ene helft van de verdeling is een spiegeling van de andere helft
• Scheve verdeling?
Illustratie: studie over de politieke links/rechts attitude in vlaanderen
0= extreem links
10 = extreem rechts
Mogelijke situaties na verdeling:
A: symmetrische verdeling met centrale ligging
op
positie
ð De meerderheid van de mensen heeft
een waarde die in het centrum ligt.
C: symmetrische verdeling, maar meer links
gelegen
ð De meerderheid van de mensen hebben
een waarde die meer aan de linkse kant
spreidin ligt (=politiek linkse attitude)
B: veel spreiding, want waarden zijn meer
verspreid over de x-as.
D: geringe spreiding
ð De meeste waarden zijn gespreid over
een geringe waarde op de x-as.
9
, Maten van positie
1. Rekenkundig gemiddelde (x)
= De waarde die de centrale positie het beste weergeeft van een verdeling
• Voor individuele waarnemingen
!"# %&' &(() *&&+,)'
o Formule: = -"-&&( &&'-&( *&&+')#.'/)'
o Compactere formule:
som van alle xi van de 1ste tot de laatste (n)
=
totaal aantal waarnemingen
• Het gemiddelde berekenen obv absolute frequenties uit een frequentietabel
01234567 897:57;6<7 = >009?7
o =𝑥 =
-"-&&( &&'-&( *&&+,)' (;)
o Illustratie
• Met relatieve frequentie
o = 𝑥 = relatieve frequentie x waarde
o Illustratie:
• Met in klasse gegroepeerde gegevens
B+)CD)'-.) E F(&!!)'/)#.,,)(,)
o =𝑥 = '
o Kan fouten bevatten, want deze is minder nauwkeurig
o Illustratie:
Kenmerken van het rekenkundig gemiddelde:
• De uikomst van het rekenkundig gemiddelde obv absolute frequenties is gelijk aan het
rekenkunig gekmiddel obv relatieve frequenties
• Enkel voor metrische variabelen (of in klassen gegroepeerd)
• Het rekenkundig gemiddelde is het evenwichtspunt (zwaartepunt) van de verdeling
• Geen resistente (robuuste) maat want het is gevoelig voor uitschieters
10
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller liessimons. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $8.42. You're not tied to anything after your purchase.