Beschrijvende en Inferentiele Statistiek (S_PMBIS)
Institution
Vrije Universiteit Amsterdam (VU)
Book
Descriptive and Inferential Statistics in the Social Sciences
Alle aantekeningen die ik heb gemaakt tijdens de colleges van het vak Beschrijvende en Inferentiele Statistiek (BIS), dat wordt gegeven tijdens de premaster Beleid, Communicatie en Organisatie (BCO) aan de VU. De aantekeningen zijn aangevuld met informatie uit het boek van Van de Bunt (Descriptive ...
Beschrijvende en Inferentiele Statistiek (S_PMBIS)
All documents for this subject (3)
2
reviews
By: benthesneeuw • 9 months ago
By: rickremmen • 3 year ago
Seller
Follow
sop_hie_
Reviews received
Content preview
Beschrijvende en Inferentiële statistiek (BIS) – Eindtentamen
College 1 – Beschrijvende univariate statistiek (H2)
Statistiek gaat over de methoden om gegevens te verzamelen, bewerken, interpreteren en presenteren. Deze gegevens worden
ook wel data genoemd
• Beschrijvende statistiek
Samenvatting van de verkregen data
• Inferentiële statistiek
Uitspraken en voorspelingen doen over de hele populatie op basis van de verkregen data van de steekproef
In dit college gaat het over beschrijvende univariate statistiek. Univariaat betekent dat het over één variabele gaat.
Meetniveaus van variabelen
Een variabele is een meetbaar concept, een eigenschap waarop cases (meestal personen) variëren. Er kunnen verschillende
meetniveaus van variabelen worden onderscheiden:
• Dichotoom (dummy variable)
De classificatie bestaat uit twee elkaar uitsluitende en uitputtende categorieën
Voorbeeld: geslacht, iemand is een man of een vrouw
• Nominaal (nominal variable)
De classificatie bestaat uit meerdere elkaar uitsluitende en uitputtende categorieën
Voorbeeld: met welk vervoersmiddel reis je naar de VU?
• Ordinaal (ordinal variable)
De classificatie bestaat uit elkaar uitsluitende en uitputtende categorieën en heeft een rangordening
Voorbeeld: opleidingsniveau, deze heeft wel een rangorde maar het verschil tussen de categorieën is niet eenduidig
• Interval/ratio (scale variable)
De classificatie bestaat uit elkaar uitsluitende en uitputtende categorieën, heeft een rangordening en heeft gelijke
afstanden tussen de gemeten categorieën
Voorbeeld: gewicht, de opties tussen de verschillende gewichten nemen telkens met hetzelfde aantal toe
Centrummaten
Binnen de beschrijvende statistiek worden diverse centrummaten onderscheiden. Deze beschrijven het centrum van de data
• Gemiddelde (mean, M)
Het gemiddelde wordt ook wel de verwachte waarde genoemd en is de beste gok over een
waarneming als je verder nog niets weet. Het gemiddelde kan worden berekend door de totale som
van observaties te delen door het aantal observaties. De x in deze formule wordt ook wel de x-bar
genoemd
• Mediaan (median, Md)
De mediaan is het middelpunt van de observaties wanneer deze van laag naar hoog worden geordend. Wanneer het
aantal observaties oneven is, is de mediaan het middelste getal. Wanneer het aantal observaties even is, wordt de
mediaan bepaald door het gemiddelde van de twee observaties in het middelpunt
• Modus (mode)
De modus is de waarde die het meest voorkomt
Soorten variabelen in beschrijvende statistiek
Een variabele is elk kenmerk dat wordt waargenomen voor de proefpersonen in een onderzoek. Er kunnen twee typen
variabele worden onderscheiden:
• Categorische variabelen
Een variabele is categorisch wanneer elke observatie bij een van de categorieën hoort. Deze variabelen hebben geen
getallen als waarde, maar kenmerken of categorieën, zoals geslacht, nationaliteit, religie of opleidingsniveau
o Nominaal
De variabele heeft meerdere groepen, maar er is geen rangordening. Een speciaal geval van een nominale
variabele is een dichotoom
o Ordinaal
De groepen hebben een rangordening, maar geen vaste afstand. Deze variabelen worden soms voor het
gemak als kwantitatief behandeld
• Kwantitatieve variabelen
Een variabele is kwantitatief wanneer de observaties de waarde van een getal aannemen die overeenkomt met een
van de verschillende grootten van de variabele, zoals leeftijd, gewicht, lengte of inkomen. Bryman noemde deze
variabelen ook wel interval/ratio (scale)
o Discreet
Een variabele waarbij slechts bepaalde waarden kunnen voorkomen, bijvoorbeeld alleen hele getallen (dit
is onder andere het geval bij het aantal kinderen of het aantal huisdieren)
o Continu
Een variabele waarbij oneindig veel mogelijkheden zijn in waarde, zoals bij afstand. Er is hierbij dus een
kommagetal mogelijk
,Weergave van categorische data
Categorische data kan op verschillende manieren worden weergegeven:
• Frequentietabel
In een frequentietabel is een lijst met mogelijke waarden voor een variabele, samen met het aantal waarnemingen
voor elke waarde. Er worden verschillende getallen weergegeven:
o Frequentie
Het aantal keer dat een observatie is waargenomen (absolute frequentie)
o Proportie
Het aantal keer dat een observatie is waargenomen binnen een bepaalde categorie in verhouding tot het
totale aantal observaties. Deze is altijd tussen de 0 en 1 (relatieve frequentie)
o Percentage
De proportie in procenten, welke berekend kan worden door de proportie x 100 te doen (relatieve
frequentie)
Regio Frequentie Proportie Percentage
Frankrijk 1 0,17 17
België 3 0,5 50
Nederland 2 0,33 33
Totaal 6 1 100
• Taartdiagram (pie chart)
Een taartdiagram is een cirkel waarbij elk stuk taart voor een andere categorie staat. De grootte van het stuk geeft
de grootte van de categorie weer
• Staafdiagram (bar chart)
Bij een staafdiagram wordt voor elke categorie een verticale staaf weergegeven. Om deze reden zit er een stukje wit
tussen. De hoogte van de staaf geeft de grootte van de categorie weer. Wanneer een staafdiagram is geordend op
frequentie wordt dit ook wel een Pareto chart genoemd. Op deze manier is het namelijk gemakkelijk het Pareto-
principe toe te passen, waarbij wordt gesteld dat een klein deel van de categorieën (20%) de meeste observaties
bevat (80%)
Weergave van kwantitatieve data
Kwantitatieve data kan op verschillende manieren worden weergegeven:
• Puntdiagram (dot plot)
Een puntdiagram geeft een punt weer voor elke individuele observatie, geplaatst boven de waarde die op de lijn
wordt weergegeven voor die observatie. Het aantal punten boven een nummer geeft weer hoe vaak de observatie
van die waarde is gedaan. Deze manier van data weergeven is alleen geschikt voor kleine dataset
• Stam-bladdiagram (stem-and-leaf plot)
In een stamdiagram wordt elke observatie individueel weergegeven in de stam en in het blad. De stam blijft daarbij
telkens hetzelfde, terwijl het blad veranderd. Bij de stam 1, horen in onderstaand voorbeeld de bladeren 1, 4, 8 en 8,
Dit betekent dat de volgende getallen zijn geobserveerd: 11,14, 18 en 18, De data wordt hierbij van klein naar groot
weergegeven. Deze manier van data weergeven is alleen geschikt voor kleine datasets
, Stam Blad
1 1488
2 346
3 28
• Histogram
Een histogram is een grafiek waarbij staven worden gebruikt die de frequentie of de relatieve frequentie
weergeven. Hierbij zitten er geen witte stukken tussen de staven. Wanneer een histogram wordt gemaakt voor een
discrete variabele, wordt er een aparte staaf gemaakt voor elke variabele. Wanneer een histogram wordt gemaakt
voor een continue variabele, worden verschillende observaties samengevoegd tot intervallen. Er worden tussen de 5
en 10 intervallen gemaakt
Verdelingen van data
Een grafiek geeft de verdeling van de data weer. De verdeling kan verschillende vormen aannemen:
• Unimodale verdeling
Bij een unimodale verdeling is de data in het midden weergegeven. De spreiding van de data is hierbij laag en
daarom is het bij deze dataverdeling goed mogelijk om het gemiddelde uit te rekenen
• Bimodale verdeling
Bij een bimodale verdeling is de data aan twee kanten verdeeld. Dit kan voorkomen wanneer de respondenten erg
verdeeld zijn over een bepaald onderwerp. De spreiding van de data is hierbij hoog en daarom is het niet handig om
het gemiddelde uit te rekenen of de modus de bepalen. In plaats daarvan kan naar de mediaan worden gekeken
• Scheve verdeling (asymmetrisch)
Een verdeling is scheef wanneer de ene kant van de verdeling langer is dan de andere kant. Een scheve verdeling
kan op twee manieren voorkomen:
o Skewed to the right
Wanneer de linker kant hoger is dan de rechter kant, is de data ‘skewed to the right’. Om dit makkelijk te
onthouden kan je bedenken dat er aan deze kant van de grafiek naar beneden geskied kan worden. In een
dergelijk geval is het gemiddelde altijd het hoogst, daarna de mediaan en tot slot de modus. De meeste
observaties bevinden zich dus aan de linkerkant
o Skewed to the left
Wanneer de rechterkant hoger is dan de linker kant, is de data ‘skewed to the left’. Om dit gemakkelijk te
onthouden kan je bedenken dat er aan deze kant van de grafiek naar beneden geskied kan worden. In een
dergelijk geval is het gemiddelde altijd het laagst, daarna de mediaan en tot slot de modus. De meeste
observaties bevinden zich dus aan de rechterkant
, • Uitbijter (outlier)
Soms komt het voor dat er in de dataset een uitbijter zit. Deze valt dan ver boven of ver onder de andere
observaties. Het gemiddelde is het meest gevoelig voor uitbijters. Wanneer dit het geval is, kan beter de mediaan
worden berekend. Deze wordt hier niet door beïnvloed doordat de mediaan wordt bepaald door het aantal getallen
dat om de middelste heen staat. Er wordt ook wel gesteld dat de mediaan resistant is tegen uitbijters
Spreidingsmaten
Het beschrijven van het centrum van een grafiek (gemiddelde, mediaan en modus) is niet voldoende om een goed beeld te
krijgen van de verdeling. Naast het centrum moet er ook worden gekeken naar de spreiding van de data. Bij een grote
spreiding zijn er grote afwijkingen (zwarte lijn) en bij een kleine spreiding zijn er kleine afwijkingen (rode lijn). Hierbij zijn
verschillende maten te onderscheiden:
• Standaarddeviatie (s)
De standaarddeviatie geeft aan hoeveel de data gemiddeld afwijkt van het gemiddelde.
Wanneer dit een positief getal is, ligt de observatie boven het gemiddelde; wanneer dit een
negatief getal is ligt de observatie onder het gemiddelde. Het nut van deze maat is het
beschrijven van de spreiding van de data. Ook is het met een standaarddeviatie
gemakkelijker om data te vergelijken. Hoe groter de standaarddeviatie, hoe meer de data
verspreid is. Hoe meer spreiding er is, hoe minder zeker een onderzoeker uitspraken kan doen
• Variantie (s2)
De variantie is het gemiddelde van de gekwadrateerde deviaties
Empirische regels
Wanneer je alleen het gemiddelde en de standaarddeviatie hebt, kan je toch nog wat over de data zeggen. Indien er sprake is
van een unimodale (normaal) verdeling, gelden de volgende empirische regels over de steekproef:
• Ongeveer 68% van de observaties liggen 1 standaarddeviatie van het gemiddelde af, dus X - s en X + s. Dit wordt
ook wel geschreven als X ± s
• Ongeveer 95% van de observaties liggen 2 standaarddeviaties van het gemiddelde af, dus X - 2s en X + 2s. Dit
wordt ook wel geschreven als X ± 2s. Wanneer een observatie meer dan 1,96 (precieze meting) / 2 (schatting)
standaarddeviaties van het gemiddelde af ligt, is de observatie significant
• Ongeveer 99,7% van de observaties liggen 3 standaarddeviaties van het gemiddelde af, dus X - 3s en X + 3s. Dit
wordt ook wel geschreven als X ± 3s
Een z-score kan worden berekend wanneer we willen weten hoeveel standaarddeviaties (s) een bepaalde
observatie (y) van het gemiddelde (µ) ligt. Wanneer een score in een z-score wordt uitgedrukt, wordt dit
ook wel standaardiseren genoemd. Een z-score van 1 betekent dus dat de waarde 1 standaarddeviatie van
het gemiddelde af ligt.
,Overige manieren om data te beschrijven
Andere manieren om verdeling van data te beschrijven
• Percentielen
Het percentiel geeft aan hoeveel procent van de observaties op of onder een bepaald punt ligt. Het p-de percentiel is
de waarde waarbij p procent van de observaties op of onder die waarde ligt
Voorbeeld: het 50e percentiel (is ook de mediaan) is 30 jaar. Dit betekent dat 50% van de observaties 30 jaar of
kleiner is
• Kwartielen
Er wordt vaak gebruik gemaakt van de 25e, 50e en 75e percentiel. Deze worden
ook wel Q1, Q2 en Q3 genoemd. Hierbij is Q2 de mediaan
• Interkwartiel range (IQR)
De interkwartiel range is de middelste 50% van de data. Deze kan worden
uitgerekend door: Q3 – Q1, Hoe groter de interkwartiel range, hoe groter de
spreiding van de data
• Boxplot (Box-whisker plot)
Een IQR kan je ook weergeven in een boxplot. Dit is een box die Q1 tot Q3
weergeeft, met daarbij een lijn in het midden van de box (mediaan) en lijnen
naar de maximum- en minimumwaarde, afgezien van de uitbijters. De
minimumwaarde, Q1, mediaan, Q3 en de maximumwaarde worden ook wel de
vijf-nummer samenvatting van een dataset genoemd
• Criterium bij uitbijters
Een observatie is een potentiële outlier wanneer het meer dan 1,5 keer de IQR onder het eerste kwartiel of boven
het derde kwartiel ligt (Q1 – 1,5 IQR of Q3 + 1,5 IQR)
College 2 – Beschrijvende bivariate statistiek (H3)
In dit college gaat het over beschrijvende bivariate statistiek. Dit betekent dat het verband tussen twee variabelen wordt
beschreven. Vaak wordt hierbij gesproken over associatie en causaliteit. Dit is niet hetzelfde:
• Associatie
Associatie betekent letterlijk verband. De waarde van de ene variabele hangt samen met de waarde van de andere
variabele. Wanneer er sprake is van samenhang, betekent dit nog niet dat er sprake is van causaliteit
• Causaliteit
De onafhankelijke variabele (X – explanatory variable) heeft een invloed op de afhankelijke variabele (Y –
response variable). Indien er sprake is van causaliteit wordt dit weergegeven in een causaal model
Een verband tussen twee categorische variabelen
Bij categorische variabelen (nominaal/ordinaal) wordt gebruik gemaakt van kruistabellen, staafdiagrammen of
taartdiagrammen. Bij veronderstelde causaliteit is het de gewoonte om bij tabellen en figuren de onafhankelijke variabele (X)
horizontaal en de afhankelijke variabele (Y) verticaal weer te geven.
Er kan op twee manieren naar de kruistabel worden gekeken:
• Conditionele proportie
Gegeven een bepaalde categorie. Wanneer onderscheid wordt gemaakt tussen de onafhankelijke en afhankelijke
variabele, wordt de conditionele proporties gevormd voor de categorieën van de onafhankelijke variabele (X)
, Voorbeeld: hoeveel procent van de witte mensen stemt democratisch? In dit geval is de conditie dus een witte
!
etniciteit. Antwoord: "# = 0,3 * 100 = 30%
• Marginale proportie
Van het totaal. De getallen die hiervoor worden gebruikt staan altijd aan de rand van de kruistabel
Voorbeeld: hoeveel procent van alle mensen stemt democratisch? In dit geval kijken we naar de totaalkolom
"#
Antwoord: $# = 0,5 * 100 = 50%
à In dit geval is er een verschil tussen het aantal witte mensen dat democratisch stemt (30%) en het totaal aantal mensen dat
democratisch stemt, ongeacht hun etniciteit (50%). Doordat deze twee antwoorden van elkaar verschillen, kan worden
gesteld dat er een associatie is tussen etniciteit en stemgedrag.
De gegevens in de kruistabel kunnen ook in proportie of percentages worden weergegeven.
Dezelfde gegevens kunnen ook in een staafdiagram worden weergegeven. Er is sprake van een associatie wanneer de staven
niet aan elkaar gelijk zijn (links) en er is geen sprake van een associatie wanneer de staven aan elkaar gelijk zijn (rechts). In
dit laatste geval wordt gesteld dat het stemgedrag onafhankelijk is van de etniciteit.
10 6
4
5 Wit Wit
2
Zwart Zwart
0 0
Democraten Republikeinen Democraten Republikeinen
Een verband tussen twee kwantitatieve variabelen
Bij kwantitatieve variabelen (interval/ratio) wordt vaak gebruik gemaakt van een spreidingsdiagram (scatter plot). Dit is een
grafische weergave van twee kwantitatieve variabelen. Ook hier wordt de onafhankelijke variabele (X) op de x-as
(horizontale as) geplaatst en de afhankelijke variabele (Y) op de y-as (verticale as) geplaatst. Elke stip geeft hierbij een
observatie weer. Ordinale variabelen kunnen hierbij ook als kwantitatief worden beschouwd.
Er wordt gebruik gemaakt van een spreidingsdiagram om te
onderzoeken of er een associatie is. Wanneer er ruwweg een
rechte lijn kan worden getrokken door het
spreidingsdiagram bestaat er een lineair verband tussen X
en Y. Deze kan zowel positief als negatief zijn:
• Positieve correlatie
X omhoog, Y omhoog
• Negatieve correlatie
X omhoog, Y omlaag
De correlatie (r) drukt de sterke van dit lineaire verband uit in een cijfer. Dit cijfer ligt altijd tussen de -1 en +1, Hoe dichter
de r bij 0 ligt, hoe zwakker het verband; hoe dichter r bij -1 of +1 ligt, hoe sterker het verband
• Wanneer de r dicht bij de -1 ligt, is er sprake van een negatieve correlatie
• Wanneer de r dicht bij de +1 ligt, is er sprake van een positieve correlatie
De sterkte van de correlatie is onafhankelijk van de meeteenheden. Het maakt dus niet uit of het inkomen bijvoorbeeld in
euro’s of in dollars wordt weergegeven. Ook is de correlatie hetzelfde wanneer de onafhankelijke variabele als de
afhankelijke variabel wordt gezien en andersom.
Richtlijnen over de interpretatie van een correlatie (Cohen):
• r = 0,1 zwakke correlatie
• r = 0,3 matige correlatie
• r = 0,5 sterke correlatie
Om een valide uitspraak te kunnen doen over de correlatie moet de data altijd in een spreidingsdiagram worden weergegeven.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller sop_hie_. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $16.60. You're not tied to anything after your purchase.