Statistical Methods for the Social Sciences, Global Edition
Dit is een samenvatting van het vak Staistiek 2, destijds gegeven door Marleen de Moor en soms een andere coordinator. De samenvatting begint met een korte samenvatting van Statistiek 1, de hele samenvatting hiervan staat ook op mijn profiel.
Leertip: Het heeft mij erg geholpen toen ik de tabel ...
Week 1
Lecture 1 – Hoofdstuk 1 t/m 4
Een variabele is een eigenschap die kan variëren van persoon tot persoon. Het meetniveau van een
variabele bepaalt de statistische methoden die gebruikt kunnen worden. Elke variabele heeft zijn
eigen meetniveau.
Er kunnen verschillende meetniveau`s worden onderscheiden:
- Nominaal: Dit is vooral categoriseren, er is een identiteit. De categorieen moeten arbitrair zijn. De
categorieen zijn wederzijds uitsluitend, zo kan iemand bijvoorbeeld alleen maar in één categorie
geplaatst worden. Zo is iemand man of vrouw, iemand is het één of het ander
- Ordinaal: Dit is een natuurlijke rangorde van laag naar hoog in één dimensie. Er is sprake van
transitiviteit, er kunnen aannames gemaakt worden op basis van de rangorde. Als je weet dat 0<1 en
1<2, dan weet je ook dat 0<2.
- Interval: Er is een gelijke ruimte tussen verschillende schaalpunten, kwantiteit. Verschillen tussen
mensen kunnen gegeven worden in bepaalde meeteenheden met gelijke intervallen. Deze
meeteenheden zijn vaak universeel geaccepteerd. Ook zijn de meeteenheden vaak deelbaar en
kunnen in andere eenheden worden omgezet, zoals van centimeter naar meter. Er is hier wel sprake
van een relatief nulpunt, hier betekent de nul niet dat er niks is, zo kan het -5 graden celsius zijn en
betekent het bij 0 graden dat water bevriest.
- Ratio: Er is een absoluut nulpunt, er is dan een afwezigheid van de eigenschap. Bij nul is er niks, als
de afgelegde afstand nul is betekent dit dat iets niet is verplaatst. Dit komt in de psychologie
nauwlijks voor, de eigenschappen van mensen zijn vaak beschreven in een spectrum. Zo is de
eigenschap extraversie of intelligentie ook onderdeel van een spectrum, deze is nooit helemaal nul.
Bij fuzzy variabelen is het soms lastig om te zien welk meetniveau een bepaalde variabele is.
Voorbeelden hiervan zijn somscores van de likert-scale.
De meeste methodes zijn gebaseerd op interval of ratio variabelen, de afhankelijke variabele wordt
vaak via deze meetniveau`s gemeten en zijn parametrische variabelen.
De beschrijvende statistiek doet vooral aan het samenvatten van data, zoals door gemiddeldes,
tabellen en figuren te gebruiken. Er moet wel altijd goed gekeken worden naar de data, door een
snelle blik kunnen eventuele fouten al zichtbaar worden, zoals de verdeling man/vrouw. Iemand
moet dan voorzichtig zijn met het doen van uitspraken.
Het weergeven van categorische date wordt vaak gedaan via frequenties en staafdiagrammen. Een
frequentie kan weergegeven worden via absolute aantallen, een proportie of via percentages. Een
staafdiagram maakt een categorische verdeling ook zichtbaar.
Het beschrijven van kwantitatieve data wordt vooral gedaan via frequenties en histogrammen. Er
wordt vaak een bepaalde range gebruikt als er wordt gesproken over frequenties. Een histogram
wordt gebruikt bij kwantitatieve data. Kwantitatieve data kan ook weergegeven worden via een
stem-and-leafplots.
,Bij de beschrijvende statistiek kan er ook gekeken worden naar de verdeling van de data,
bijvoorbeeld bij een histogram. Zo kan er gekeken worden of er sprake is van een normaalverdeling
en kan het gemiddelde en de standaarddeviatie genoemd worden.
Het gemiddelde is niet altijd even representatief. Bij scheve verdelingen, zoals inkomen, geeft het
gemiddelde vaak een vertekend beeld. Men kan dan gebruikmaken van de modus of de mediaan.
Het gemiddelde is wel altijd het middelpunt van een weegschaal, als elk datapunt even zwaar
meeweegt.
De modus is het meest voorkomende getal in je dataset. Het kan in elk type data gebruikt worden.
De mediaan is het middelste getal in je geordende reeks. Bij een oneven reeksaantal is dit letterlijk
het middelste getal. Bij een even reeksaantal is dit de middelste twee waarden bij elkaar opgeteld
delen door 2. De mediaan is fijner in gebruik bij een skewed verdeling en kan gebruikt worden op
ordinaal niveau.
De gemiddeldes zijn hier hetzelfde, maar er is veel verschil tussen de twee groepen en veel spreiding.
De meeste populatiedistributies kunnen worden geplot langs een bell-curve. In tegenstelde situaties
kan er een U-vorm ontstaan. Als eigenschappen niet evenredig zijn verdeeld over een populatie, kan
de bell-curve scheef worden, ze zijn dan skewed.
Bij een normaalverdeling zijn de mediaan, modus en het gemiddelde hetzelfde. Als de verdelingen
scheef zijn, dan verschillen deze juist vaker en ligt het eraan welke centrummaat het meest
representatief is. Bij scheve verdelingen wordt vaker de mediaan gebruikt in plaats van het
gemiddelde. Als een verdeling twee pieken, bimodaal verdeeld, heeft is het gemiddelde ook niet
representatief, maar misschien de modus.
Om de spreiding van scores te bepalen kan er bijvoorbeeld gekeken worden naar de range, er wordt
dan gekeken naar het verschil in de hoogste en laagste score.
Ook kan er gekeken worden naar de deviatie, hier wordt er gekeken naar (Yi - Ῡ), zo wordt er
zichtbaar hoe iemand zijn score verschilt van de gemiddelde score. Dit verschil kan gekwadrateerd
worden, zo worden positieve als negatieve verschillen een positief getal. Dit kan berekent worden
voor iedere participant. Zo kan er gekeken worden naar de spreiding van de gehele steekproef.
Uiteindelijk kan hier de variantie mee berekend worden door te delen door (n-1), zo wordt er
gecorrigeerd voor de grootte van de steekproef. De standaarddeviatie is de wortel van de variantie.
,De standaarddeviatie is kleiner als de scores dichtbij het gemiddelde liggen, de standaarddeviatie
neemt toe als veel van de scores juist ver van het gemiddelde af liggen.
De empirische regel stelt:
- Ongeveer 68% van de data zit tussen Ῡ - s & Ῡ + s.
- Ongeveer 95% van de data zit tussen Ῡ - 2s & Ῡ + 2s.
- Ongeveer al je data zit tussen Ῡ - 3s & Ῡ + 3s.
Er kan ook gekeken naar lower quartile en de upper quartile, de 25e percentile score en de 75e
percentile score. De interquartile range is het gebied tussen de lower quartile en de upper quartile
en dit bevat 50% van je data. De lijn die deze gebieden weer scheidt in gebieden van beide 25% is de
mediaan. Als er veel spreiding is, is de IQR ook groter. De IQR is niet gevoelig voor outliers. het gaat
puur om de positie van de data.
Voor het maken van een box plot zijn vier stappen nodig:
- Vindt de mediaan, het middelste getal. De mediaan wordt ook wel de 50th percentielscore
genoemd.
- Zoek vervolgens het 1e kwartiel, het middelste getal tussen de mediaan en het eerste datapunt.
Zoek ook het 3e kwartiel, het middelste getal tussen de mediaan en het laatste datapunt. Je
ontwikkelt zo de interkwartiel afstand en krijgt zo een beeld tussen welke waardes 50% van je data
ligt. Het verschil tussen Q1 en Q3 is de interkwartiel afstand.
- Bereken de lengte van de whiskers, dit is 1,5x de IQR. Het datapunt dat daar nog binnen zit, daar
trek je de whisker naartoe, dus niet naar een afstand die 1,5x de IQR is. De whisker trek je dus naar
het verste datapunt, dat nog binnen de 1,5x IQR zit. De IQR meet je vanaf Q1 & Q3, dus vanaf de
randen van de box plot.
- Waardes die buiten de whiskers liggen heten outliers, die worden aangegeven met cirkels.
, Een kans kan gedefinieerd worden als de kans dat een observatie een bepaalde waarde aanneemt.
Een random variabele kan gedefinieerd worden als elke mogelijke observatie van een variabele heeft
een bepaalde kans. Dit kan weergegeven worden in een kansverdeling.
Bij discrete kansverdelingen heeft elk mogelijke waarde een eigen kans, dit kan weergegeven
worden via een histogram met op de X-as de mogelijke uitkomsten en op de Y-as de kans.
Bij een continue kansverdeling zijn er een oneindig aantal mogelijke waardes. De kans wordt hier
bepaald door middel van de oppervlakte onder de curve. De kans kan niet berekend worden op één
specifieke waarde, de oppervlakte zou dan nul zijn. Wel kan de kans van een interval berekend
worden.
Kansen bij elkaar optellen: Als kansen afhankelijk van elkaar zijn.
Kansen met elkaar vermenigvuldigen: Als kansen onafhankelijk zijn van elkaar, bijvoorbeeld als iets
eerst moet gebeuren en hetgeen dat daarna gedaan moet worden afhankelijk is van de eerste
handeling. Bijvoorbeeld twee dezelfde sokken pakken uit een la, dit is afhankelijk van welke sok je als
eerste pakt. Het steekproevengemiddelde is vaak ook het populatiegemiddelde.
In de statistiek staan drie verdelingen centraal:
- Populatieverdeling: Population distribution is de distributie die zou ontstaan als de gehele
populatie onderzocht kon worden. De verdeling van de variabele in de populatie, de parameter. De
waardes worden aangegeven met de griekse letters.
- Steekproefverdeling: Sample data distribution is de distributie die ontstaat na het trekken van een
steekproef. Men wil natuurlijk dat deze uitkomsten zo dicht mogelijk komen bij de
populatiewaarden. De verdeling van de variabele in een steekproef.
- Steekproevenverdeling: Sampling distribution is de distributie die ontstaat, nadat je meerdere
steekproeven trekt. In een enkele steekproef kan een foutenmarge zitten, uitkomsten komen dan
sterker naar voren. Deze distributie is geen distributie over gemiddeldes, maar over hoe de
steekproefgrootheid zelf verdeeld is. Deze distributie laat zien hoe je steekproefgemiddelde varieert
van steekproef tot steekproef, dit is bijna altijd een normaalverdeling. Het is een verdeling van het
steekproefgemiddelde zelf, als je heel vaak een steekproef zou trekken van dezelfde omvang. Als je
hier de standaarddeviatie berekent, geeft dit aan hoe de spreiding is tussen je verschillende
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper davyhickmann. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €6,99. Je zit daarna nergens aan vast.