100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
P4: Beschrijvende en Inferentiele Statistiek (eindtentamen) €15,49
In winkelwagen

College aantekeningen

P4: Beschrijvende en Inferentiele Statistiek (eindtentamen)

2 beoordelingen
 153 keer bekeken  12 keer verkocht

Alle aantekeningen die ik heb gemaakt tijdens de colleges van het vak Beschrijvende en Inferentiele Statistiek (BIS), dat wordt gegeven tijdens de premaster Beleid, Communicatie en Organisatie (BCO) aan de VU. De aantekeningen zijn aangevuld met informatie uit het boek van Van de Bunt (Descriptive ...

[Meer zien]
Laatste update van het document: 4 jaar geleden

Voorbeeld 6 van de 45  pagina's

  • 16 maart 2020
  • 20 maart 2020
  • 45
  • 2019/2020
  • College aantekeningen
  • Onbekend
  • Alle colleges
book image

Titel boek:

Auteur(s):

  • Uitgave:
  • ISBN:
  • Druk:
Alle documenten voor dit vak (3)

2  beoordelingen

review-writer-avatar

Door: benthesneeuw • 10 maanden geleden

review-writer-avatar

Door: rickremmen • 3 jaar geleden

avatar-seller
sop_hie_
Beschrijvende en Inferentiële statistiek (BIS) – Eindtentamen

College 1 – Beschrijvende univariate statistiek (H2)

Statistiek gaat over de methoden om gegevens te verzamelen, bewerken, interpreteren en presenteren. Deze gegevens worden
ook wel data genoemd
• Beschrijvende statistiek
Samenvatting van de verkregen data
• Inferentiële statistiek
Uitspraken en voorspelingen doen over de hele populatie op basis van de verkregen data van de steekproef

In dit college gaat het over beschrijvende univariate statistiek. Univariaat betekent dat het over één variabele gaat.

Meetniveaus van variabelen
Een variabele is een meetbaar concept, een eigenschap waarop cases (meestal personen) variëren. Er kunnen verschillende
meetniveaus van variabelen worden onderscheiden:
• Dichotoom (dummy variable)
De classificatie bestaat uit twee elkaar uitsluitende en uitputtende categorieën
Voorbeeld: geslacht, iemand is een man of een vrouw
• Nominaal (nominal variable)
De classificatie bestaat uit meerdere elkaar uitsluitende en uitputtende categorieën
Voorbeeld: met welk vervoersmiddel reis je naar de VU?
• Ordinaal (ordinal variable)
De classificatie bestaat uit elkaar uitsluitende en uitputtende categorieën en heeft een rangordening
Voorbeeld: opleidingsniveau, deze heeft wel een rangorde maar het verschil tussen de categorieën is niet eenduidig
• Interval/ratio (scale variable)
De classificatie bestaat uit elkaar uitsluitende en uitputtende categorieën, heeft een rangordening en heeft gelijke
afstanden tussen de gemeten categorieën
Voorbeeld: gewicht, de opties tussen de verschillende gewichten nemen telkens met hetzelfde aantal toe

Centrummaten
Binnen de beschrijvende statistiek worden diverse centrummaten onderscheiden. Deze beschrijven het centrum van de data
• Gemiddelde (mean, M)
Het gemiddelde wordt ook wel de verwachte waarde genoemd en is de beste gok over een
waarneming als je verder nog niets weet. Het gemiddelde kan worden berekend door de totale som
van observaties te delen door het aantal observaties. De x in deze formule wordt ook wel de x-bar
genoemd
• Mediaan (median, Md)
De mediaan is het middelpunt van de observaties wanneer deze van laag naar hoog worden geordend. Wanneer het
aantal observaties oneven is, is de mediaan het middelste getal. Wanneer het aantal observaties even is, wordt de
mediaan bepaald door het gemiddelde van de twee observaties in het middelpunt
• Modus (mode)
De modus is de waarde die het meest voorkomt

Soorten variabelen in beschrijvende statistiek
Een variabele is elk kenmerk dat wordt waargenomen voor de proefpersonen in een onderzoek. Er kunnen twee typen
variabele worden onderscheiden:
• Categorische variabelen
Een variabele is categorisch wanneer elke observatie bij een van de categorieën hoort. Deze variabelen hebben geen
getallen als waarde, maar kenmerken of categorieën, zoals geslacht, nationaliteit, religie of opleidingsniveau
o Nominaal
De variabele heeft meerdere groepen, maar er is geen rangordening. Een speciaal geval van een nominale
variabele is een dichotoom
o Ordinaal
De groepen hebben een rangordening, maar geen vaste afstand. Deze variabelen worden soms voor het
gemak als kwantitatief behandeld
• Kwantitatieve variabelen
Een variabele is kwantitatief wanneer de observaties de waarde van een getal aannemen die overeenkomt met een
van de verschillende grootten van de variabele, zoals leeftijd, gewicht, lengte of inkomen. Bryman noemde deze
variabelen ook wel interval/ratio (scale)
o Discreet
Een variabele waarbij slechts bepaalde waarden kunnen voorkomen, bijvoorbeeld alleen hele getallen (dit
is onder andere het geval bij het aantal kinderen of het aantal huisdieren)
o Continu
Een variabele waarbij oneindig veel mogelijkheden zijn in waarde, zoals bij afstand. Er is hierbij dus een
kommagetal mogelijk

,Weergave van categorische data
Categorische data kan op verschillende manieren worden weergegeven:
• Frequentietabel
In een frequentietabel is een lijst met mogelijke waarden voor een variabele, samen met het aantal waarnemingen
voor elke waarde. Er worden verschillende getallen weergegeven:
o Frequentie
Het aantal keer dat een observatie is waargenomen (absolute frequentie)
o Proportie
Het aantal keer dat een observatie is waargenomen binnen een bepaalde categorie in verhouding tot het
totale aantal observaties. Deze is altijd tussen de 0 en 1 (relatieve frequentie)
o Percentage
De proportie in procenten, welke berekend kan worden door de proportie x 100 te doen (relatieve
frequentie)

Regio Frequentie Proportie Percentage
Frankrijk 1 0,17 17
België 3 0,5 50
Nederland 2 0,33 33
Totaal 6 1 100

• Taartdiagram (pie chart)
Een taartdiagram is een cirkel waarbij elk stuk taart voor een andere categorie staat. De grootte van het stuk geeft
de grootte van de categorie weer




• Staafdiagram (bar chart)
Bij een staafdiagram wordt voor elke categorie een verticale staaf weergegeven. Om deze reden zit er een stukje wit
tussen. De hoogte van de staaf geeft de grootte van de categorie weer. Wanneer een staafdiagram is geordend op
frequentie wordt dit ook wel een Pareto chart genoemd. Op deze manier is het namelijk gemakkelijk het Pareto-
principe toe te passen, waarbij wordt gesteld dat een klein deel van de categorieën (20%) de meeste observaties
bevat (80%)




Weergave van kwantitatieve data
Kwantitatieve data kan op verschillende manieren worden weergegeven:
• Puntdiagram (dot plot)
Een puntdiagram geeft een punt weer voor elke individuele observatie, geplaatst boven de waarde die op de lijn
wordt weergegeven voor die observatie. Het aantal punten boven een nummer geeft weer hoe vaak de observatie
van die waarde is gedaan. Deze manier van data weergeven is alleen geschikt voor kleine dataset




• Stam-bladdiagram (stem-and-leaf plot)
In een stamdiagram wordt elke observatie individueel weergegeven in de stam en in het blad. De stam blijft daarbij
telkens hetzelfde, terwijl het blad veranderd. Bij de stam 1, horen in onderstaand voorbeeld de bladeren 1, 4, 8 en 8,
Dit betekent dat de volgende getallen zijn geobserveerd: 11,14, 18 en 18, De data wordt hierbij van klein naar groot
weergegeven. Deze manier van data weergeven is alleen geschikt voor kleine datasets

, Stam Blad
1 1488
2 346
3 28

• Histogram
Een histogram is een grafiek waarbij staven worden gebruikt die de frequentie of de relatieve frequentie
weergeven. Hierbij zitten er geen witte stukken tussen de staven. Wanneer een histogram wordt gemaakt voor een
discrete variabele, wordt er een aparte staaf gemaakt voor elke variabele. Wanneer een histogram wordt gemaakt
voor een continue variabele, worden verschillende observaties samengevoegd tot intervallen. Er worden tussen de 5
en 10 intervallen gemaakt




Verdelingen van data
Een grafiek geeft de verdeling van de data weer. De verdeling kan verschillende vormen aannemen:
• Unimodale verdeling
Bij een unimodale verdeling is de data in het midden weergegeven. De spreiding van de data is hierbij laag en
daarom is het bij deze dataverdeling goed mogelijk om het gemiddelde uit te rekenen




• Bimodale verdeling
Bij een bimodale verdeling is de data aan twee kanten verdeeld. Dit kan voorkomen wanneer de respondenten erg
verdeeld zijn over een bepaald onderwerp. De spreiding van de data is hierbij hoog en daarom is het niet handig om
het gemiddelde uit te rekenen of de modus de bepalen. In plaats daarvan kan naar de mediaan worden gekeken




• Scheve verdeling (asymmetrisch)
Een verdeling is scheef wanneer de ene kant van de verdeling langer is dan de andere kant. Een scheve verdeling
kan op twee manieren voorkomen:
o Skewed to the right
Wanneer de linker kant hoger is dan de rechter kant, is de data ‘skewed to the right’. Om dit makkelijk te
onthouden kan je bedenken dat er aan deze kant van de grafiek naar beneden geskied kan worden. In een
dergelijk geval is het gemiddelde altijd het hoogst, daarna de mediaan en tot slot de modus. De meeste
observaties bevinden zich dus aan de linkerkant
o Skewed to the left
Wanneer de rechterkant hoger is dan de linker kant, is de data ‘skewed to the left’. Om dit gemakkelijk te
onthouden kan je bedenken dat er aan deze kant van de grafiek naar beneden geskied kan worden. In een
dergelijk geval is het gemiddelde altijd het laagst, daarna de mediaan en tot slot de modus. De meeste
observaties bevinden zich dus aan de rechterkant

, • Uitbijter (outlier)
Soms komt het voor dat er in de dataset een uitbijter zit. Deze valt dan ver boven of ver onder de andere
observaties. Het gemiddelde is het meest gevoelig voor uitbijters. Wanneer dit het geval is, kan beter de mediaan
worden berekend. Deze wordt hier niet door beïnvloed doordat de mediaan wordt bepaald door het aantal getallen
dat om de middelste heen staat. Er wordt ook wel gesteld dat de mediaan resistant is tegen uitbijters




Spreidingsmaten
Het beschrijven van het centrum van een grafiek (gemiddelde, mediaan en modus) is niet voldoende om een goed beeld te
krijgen van de verdeling. Naast het centrum moet er ook worden gekeken naar de spreiding van de data. Bij een grote
spreiding zijn er grote afwijkingen (zwarte lijn) en bij een kleine spreiding zijn er kleine afwijkingen (rode lijn). Hierbij zijn
verschillende maten te onderscheiden:
• Standaarddeviatie (s)
De standaarddeviatie geeft aan hoeveel de data gemiddeld afwijkt van het gemiddelde.
Wanneer dit een positief getal is, ligt de observatie boven het gemiddelde; wanneer dit een
negatief getal is ligt de observatie onder het gemiddelde. Het nut van deze maat is het
beschrijven van de spreiding van de data. Ook is het met een standaarddeviatie
gemakkelijker om data te vergelijken. Hoe groter de standaarddeviatie, hoe meer de data
verspreid is. Hoe meer spreiding er is, hoe minder zeker een onderzoeker uitspraken kan doen




• Variantie (s2)
De variantie is het gemiddelde van de gekwadrateerde deviaties

Empirische regels
Wanneer je alleen het gemiddelde en de standaarddeviatie hebt, kan je toch nog wat over de data zeggen. Indien er sprake is
van een unimodale (normaal) verdeling, gelden de volgende empirische regels over de steekproef:
• Ongeveer 68% van de observaties liggen 1 standaarddeviatie van het gemiddelde af, dus X - s en X + s. Dit wordt
ook wel geschreven als X ± s
• Ongeveer 95% van de observaties liggen 2 standaarddeviaties van het gemiddelde af, dus X - 2s en X + 2s. Dit
wordt ook wel geschreven als X ± 2s. Wanneer een observatie meer dan 1,96 (precieze meting) / 2 (schatting)
standaarddeviaties van het gemiddelde af ligt, is de observatie significant
• Ongeveer 99,7% van de observaties liggen 3 standaarddeviaties van het gemiddelde af, dus X - 3s en X + 3s. Dit
wordt ook wel geschreven als X ± 3s




Een z-score kan worden berekend wanneer we willen weten hoeveel standaarddeviaties (s) een bepaalde
observatie (y) van het gemiddelde (µ) ligt. Wanneer een score in een z-score wordt uitgedrukt, wordt dit
ook wel standaardiseren genoemd. Een z-score van 1 betekent dus dat de waarde 1 standaarddeviatie van
het gemiddelde af ligt.

,Overige manieren om data te beschrijven
Andere manieren om verdeling van data te beschrijven
• Percentielen
Het percentiel geeft aan hoeveel procent van de observaties op of onder een bepaald punt ligt. Het p-de percentiel is
de waarde waarbij p procent van de observaties op of onder die waarde ligt
Voorbeeld: het 50e percentiel (is ook de mediaan) is 30 jaar. Dit betekent dat 50% van de observaties 30 jaar of
kleiner is




• Kwartielen
Er wordt vaak gebruik gemaakt van de 25e, 50e en 75e percentiel. Deze worden
ook wel Q1, Q2 en Q3 genoemd. Hierbij is Q2 de mediaan
• Interkwartiel range (IQR)
De interkwartiel range is de middelste 50% van de data. Deze kan worden
uitgerekend door: Q3 – Q1, Hoe groter de interkwartiel range, hoe groter de
spreiding van de data
• Boxplot (Box-whisker plot)
Een IQR kan je ook weergeven in een boxplot. Dit is een box die Q1 tot Q3
weergeeft, met daarbij een lijn in het midden van de box (mediaan) en lijnen
naar de maximum- en minimumwaarde, afgezien van de uitbijters. De
minimumwaarde, Q1, mediaan, Q3 en de maximumwaarde worden ook wel de
vijf-nummer samenvatting van een dataset genoemd
• Criterium bij uitbijters
Een observatie is een potentiële outlier wanneer het meer dan 1,5 keer de IQR onder het eerste kwartiel of boven
het derde kwartiel ligt (Q1 – 1,5 IQR of Q3 + 1,5 IQR)




College 2 – Beschrijvende bivariate statistiek (H3)

In dit college gaat het over beschrijvende bivariate statistiek. Dit betekent dat het verband tussen twee variabelen wordt
beschreven. Vaak wordt hierbij gesproken over associatie en causaliteit. Dit is niet hetzelfde:
• Associatie
Associatie betekent letterlijk verband. De waarde van de ene variabele hangt samen met de waarde van de andere
variabele. Wanneer er sprake is van samenhang, betekent dit nog niet dat er sprake is van causaliteit
• Causaliteit
De onafhankelijke variabele (X – explanatory variable) heeft een invloed op de afhankelijke variabele (Y –
response variable). Indien er sprake is van causaliteit wordt dit weergegeven in een causaal model

Een verband tussen twee categorische variabelen
Bij categorische variabelen (nominaal/ordinaal) wordt gebruik gemaakt van kruistabellen, staafdiagrammen of
taartdiagrammen. Bij veronderstelde causaliteit is het de gewoonte om bij tabellen en figuren de onafhankelijke variabele (X)
horizontaal en de afhankelijke variabele (Y) verticaal weer te geven.

Er kan op twee manieren naar de kruistabel worden gekeken:
• Conditionele proportie
Gegeven een bepaalde categorie. Wanneer onderscheid wordt gemaakt tussen de onafhankelijke en afhankelijke
variabele, wordt de conditionele proporties gevormd voor de categorieën van de onafhankelijke variabele (X)

Etniciteit (X)
Wit Zwart Totaal
Stemgedrag Democraten 3 7 10
(Y) Republikeinen 7 3 10
Totaal 10 10 20

, Voorbeeld: hoeveel procent van de witte mensen stemt democratisch? In dit geval is de conditie dus een witte
!
etniciteit. Antwoord: "# = 0,3 * 100 = 30%

• Marginale proportie
Van het totaal. De getallen die hiervoor worden gebruikt staan altijd aan de rand van de kruistabel

Etniciteit (X)
Wit Zwart Totaal
Stemgedrag Democraten 3 7 10
(Y) Republikeinen 7 3 10
Totaal 10 10 20

Voorbeeld: hoeveel procent van alle mensen stemt democratisch? In dit geval kijken we naar de totaalkolom
"#
Antwoord: $# = 0,5 * 100 = 50%

à In dit geval is er een verschil tussen het aantal witte mensen dat democratisch stemt (30%) en het totaal aantal mensen dat
democratisch stemt, ongeacht hun etniciteit (50%). Doordat deze twee antwoorden van elkaar verschillen, kan worden
gesteld dat er een associatie is tussen etniciteit en stemgedrag.

De gegevens in de kruistabel kunnen ook in proportie of percentages worden weergegeven.

Dezelfde gegevens kunnen ook in een staafdiagram worden weergegeven. Er is sprake van een associatie wanneer de staven
niet aan elkaar gelijk zijn (links) en er is geen sprake van een associatie wanneer de staven aan elkaar gelijk zijn (rechts). In
dit laatste geval wordt gesteld dat het stemgedrag onafhankelijk is van de etniciteit.
10 6
4
5 Wit Wit
2
Zwart Zwart
0 0
Democraten Republikeinen Democraten Republikeinen
Een verband tussen twee kwantitatieve variabelen
Bij kwantitatieve variabelen (interval/ratio) wordt vaak gebruik gemaakt van een spreidingsdiagram (scatter plot). Dit is een
grafische weergave van twee kwantitatieve variabelen. Ook hier wordt de onafhankelijke variabele (X) op de x-as
(horizontale as) geplaatst en de afhankelijke variabele (Y) op de y-as (verticale as) geplaatst. Elke stip geeft hierbij een
observatie weer. Ordinale variabelen kunnen hierbij ook als kwantitatief worden beschouwd.
Er wordt gebruik gemaakt van een spreidingsdiagram om te
onderzoeken of er een associatie is. Wanneer er ruwweg een
rechte lijn kan worden getrokken door het
spreidingsdiagram bestaat er een lineair verband tussen X
en Y. Deze kan zowel positief als negatief zijn:
• Positieve correlatie
X omhoog, Y omhoog
• Negatieve correlatie
X omhoog, Y omlaag

De correlatie (r) drukt de sterke van dit lineaire verband uit in een cijfer. Dit cijfer ligt altijd tussen de -1 en +1, Hoe dichter
de r bij 0 ligt, hoe zwakker het verband; hoe dichter r bij -1 of +1 ligt, hoe sterker het verband
• Wanneer de r dicht bij de -1 ligt, is er sprake van een negatieve correlatie
• Wanneer de r dicht bij de +1 ligt, is er sprake van een positieve correlatie

De sterkte van de correlatie is onafhankelijk van de meeteenheden. Het maakt dus niet uit of het inkomen bijvoorbeeld in
euro’s of in dollars wordt weergegeven. Ook is de correlatie hetzelfde wanneer de onafhankelijke variabele als de
afhankelijke variabel wordt gezien en andersom.

Richtlijnen over de interpretatie van een correlatie (Cohen):
• r = 0,1 zwakke correlatie
• r = 0,3 matige correlatie
• r = 0,5 sterke correlatie

Om een valide uitspraak te kunnen doen over de correlatie moet de data altijd in een spreidingsdiagram worden weergegeven.

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper sop_hie_. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €15,49. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 53249 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen
€15,49  12x  verkocht
  • (2)
In winkelwagen
Toegevoegd