100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
Samenvatting - Beschrijvende en Inferentiële Statistiek (PMBIS) €7,16
In winkelwagen

Samenvatting

Samenvatting - Beschrijvende en Inferentiële Statistiek (PMBIS)

 2 keer bekeken  0 keer verkocht

Dit document bevat een samenvatting incl. college aantekeningen van het vak Beschrijvende en Inferentiële Statistiek van de Pre-master Beleid, Communicatie en Organisatie (BCO)

Voorbeeld 4 van de 98  pagina's

  • 11 december 2024
  • 98
  • 2023/2024
  • Samenvatting
Alle documenten voor dit vak (1)
avatar-seller
qianqian2001
Beschrijvende en inferentiële statistiek
Week 1: College modules 0, 1 & 2




Module 0: enkele statistische basisbegrippen
• Meetniveaus van variabelen: categorisch en kwantitatief

Module 1: het beschrijven van één variabele (beschrijvende univariate statistiek)
• Standaarddeviatie: hoe reken je deze uit en wat is het nut ervan?1
• Z-score: hoe reken je deze uit en wat is het nut ervan?

1.1: Data beschrijven

Tabellen
Je hebt een datamatrix nodig voor al je statistische analyses, het is een overzicht van je data.
Om de resultaten te presenteren, maak je gebruik van samenvattingen van de data. Een goede
manier van samenvatten, is het gebruiken van frequentietabellen.
Een frequentietabel laat zien hoe waarden van de variabelen verdeeld zijn over de cases.
Indien nodig kan je de waardes hercoderen van kwantitatieve waardes (exact) naar ordinale
categorieën (andersom hercoderen kan niet).

Grafieken
Voor het samenvatten van categoriale (ordianale)/nominale variabelen kan je het volgende
gebruiken:
Cirkeldiagram
• Voordeel: je kan onmiddelijk de percentages afleiden
Staafdiagram
• Voordeel: je kan eenvoudiger de exacte aantallen afleiden
Naarmate de categorieën in een variabele toeneemt, is een staafdiagram overzichtelijker dan een
cirkeldiagram.

Voor het samenvatten van kwantitatieve (interval/ratio) variabelen kan je het volgende gebruiken:
• Puntplot
• Histogram (als er veel observaties zijn), maakt gebruik van intervallen

, o Meest voorkomend: Klokvorm met 1 piek en redelijk symmetrisch (unimodel)
o Kan ook scheef zijn, scheef naar linkt is dat de linkerkant platter is, scheef naar rechts
is dat de rechterkant platter is.
o 2 pieken is ook mogelijk (bimodel)
Het beoordelen van de vorm is essentieel omdat het de statistische methode kan
beïnvloeden die je later gaat gebruiken.

1.2: Maten van centraliteit

Modus, mediaan en gemiddelde
Manieren om het centrum (centrale tendens) van je distributie te beschrijven/meten:
• Modus: waarde die het vaakst voorkomt
o Wordt vaak gebruikt wanneer een variabel op een nominaal of ordinaal niveau wordt
gemeten
o Er kan meer dan 1 modus zijn (bijv. bimodel histogram)
• Mediaan: de middelste waarde van de observaties wanneer ze gerangschikt zijn van klein
naar groot
o In het geval van een even aantal observaties, gemiddelde van de middelste 2
waarden
• Gemiddelde: de som van alle waardes delen door het aantal observaties
o Meest gebruikte maatstaf.

Wanneer welke manier gebruikt wordt, hangt deels af van de meetniveau van je variabele.
Als het categorisch (ordinaal)/ nominaal is, is het onmogelijk om de mediaan en gemiddelde te
berekenen. Je kan ze niet ordenen of een numeriek berekening uitvoeren, dus dan is de modus de
enige optie.
Wanneer er een “outliner” aanwezig is, is het beter om de mediaan te gebruiken i.p.v. het
gemiddelde, omdat het gemiddelde dat ver afwijkt. (voorbeeld inkomen voetballer)

1.3: Maten van variantie

Bereik, interkwartielafstand en boxplot
Dit zijn belangrijke maten van de spreiding van een dataverdeling, of manieren om die te laten zien.

Om de verdeling exacter te beschrijven, is er meer nodig dan de centrale tendens maten.
2 maten voor de variabiliteit van de data: bereik en interkwartielafstand.

Simpelste maat van variabiliteit is het bereik.
Bereik: het verschil tussen de hoogste en de laagste waarde.
Het bereik is een maat van de variabiliteit die eenvoudig te begrijpen en berekenen is. Het geeft in
veel gevallen echter geen goede indruk van de variabiliteit van de data. De reden is dat het alleen de
extreme waarden meeneemt.

Interkwartielafstand is een betere maat van dispersie, omdat het de extreme waarden buiten
beschouwing laat. Het verdeelt je verdeling in 4 gelijke delen (kwartielen).
Middelpunt (Q2) is hierdoor gelijk aan de mediaan. De interkwartielafstand is het verschil tussen Q3
en Q1.
Voordeel: Wordt niet beïnvloed door de outliers, omdat het de waardes onder Q1 en boven Q3 niet
meeneemt.
Als vuistregel kunnen observaties worden beschouwt als outliers als ze 1,5*IKR onder Q1 zitten of
1,5*IKR boven Q3.

,De boxplot is een handige grafiek die een goede beschrijving geeft van het centrum, de variabiliteit
en het opsporen van outliers, hoe de waarden in de verdeling verdeeld zijn. Het laat zien:
• Q1, Q2 en Q3
• De minimum en maximum waarde dat geen outlier is
• De outliers
De box zelf betreft de centrale 50% van de verdeling (Q1 tot Q3).
De lengte van de box is dan ook de IKR (Q3 – Q1)
De horizontale lijn binnen de box in de mediaan (Q2)
De verticale lijnen heten snorren (whiskers), deze bevatten de overige waarden behalve de outliers.
Outliers worden apart aangetoond d.m.v. stippen

Variantie en standaarddeviatie
2 andere maten van variabiliteit die vaak worden gebruikt in statistisch onderzoek: variantie en
standaarddeviatie.
Voordeel: ze houden rekening met alle waarden van de variabele.
Formule variantie:



Variantie is de standaarddeviatie in het kwadraat

Variantie (𝑠 2 ) is “de som van de kwadraten van (observatie min gemiddelde)” delen door “de sample
grootte (n) min 1”
We moeten kwadrateren, omdat de som van alleen de deviaties gelijk is aan 0.

Hoe groter de variantie, hoe groter de variabiliteit, hoe meer de waardes zijn verspreid rondom het
gemiddelde.

Belangrijk nadeel van variantie: het is een gekwadrateerde maat.
Simpele oplossing voor dit probleem: de wortel trekken van de variantie, dan krijg je de
standaarddeviatie.
De standaarddeviatie geeft aan hoeveel de data gemiddeld afwijkt van het gemiddelde.
Hoe groter de standaarddeviatie, hoe groter de variabiliteit van de data.

Dus formule:




De standaarddeviatie is de meest gebruikte dispersiemaat.

z-scores
De z-score geeft aan hoeveel standaarddeviaties een bepaalde observatie van het gemiddelde afligt.
Hieruit kan worden afgeleid hoe vaak een observatie voorkomt of niet.

Omdat het gemiddelde het balanspunt is van de verdeling, zijn de Z-scores bij elkaar opgeteld gelijk
aan 0.

, Of de Z-score hoog of laag is, hangt af van de verdeling en de context. Een goede vuistregel is dat als
de histogram van je variabele een klokvorm heeft, valt 68% van de waarden tussen de z-scores 1 en -
1, 95% tussen 2 en -2, 99% tussen 3 en -3. (Empiracal rule zoals genoemd in het college)




Een z-score hoger dan 3 of lager dan -3 kan worden gezien als nogal uitzonderlijk.

Als de grafiek scheef staat naar rechts, komen hoge positieve z-scores vaker voor, omdat er meer
extreme waarden zijn aan de rechterkant van de verdeling.




Als de grafiek scheef staat naar links, komen lage negatieve z-scores vaker voor, omdat er meer
extreme waarden zijn aan de linkerkant van de verdeling.




Een regel die voor elke verdeling van toepassing is, ongeacht de vorm, is dat 75% van de data tussen
een z-score van 2 en -2 moet liggen. En 89% van de data tussen een z-score van 3 en -3 moet liggen.

Dus op zichzelf geeft een z-score je, tot een bepaalde hoogte, informatie over hoe extreem een
observatie is. Z-scores zijn nog nuttiger als je verschillende verdelingen wilt vergelijken.

Als we originele waardes hercoderen naar z-scoren, noemen we dat het standaardiseren van een
variabele. Standaardiseren betekent dat we de gemeten waarden vervangen door scores uitgedrukt
in het aantal standaarddeviaties van het gemiddelde. Het voordeel is dat we in één oogopslag kunnne
zien of een bepaalde score vaak voorkomt of niet.

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper qianqian2001. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €7,16. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 48072 samenvattingen verkocht

Opgericht in 2010, al 15 jaar dé plek om samenvattingen te kopen

Start met verkopen
€7,16
  • (0)
In winkelwagen
Toegevoegd