Beschrijvende statistiek richt zich, in tegensteling tot inferentiele statistiek, alleen op de steekpref
of allen op de populatie. Inferentiele statistiek richt zich echter op de gehele populatie. Belangrijke
begrippen van beschrijvende statistiek zijn: data samenvatten, spreiding/variabiliteit,
normaalverdeling, Z-scores en kansen berekenen.
Beschrijvende statistiek: statistiek waarbij je met 100% zekerheid kan vaststellen wat er over
de populatie gezegd kan worden. De steekproef betreft de populatie (er is geen steekproef). De
verzameling wordt soms een ‘gegevensreeks’ of gewoon ‘gegevens’ genoemd. Alle data is
beschikbaar en kan relatief eenvoudig geordend worden.
- 100% zekerheid
- Steekproef = populatie (of: er is geen steekproef)
Inferentiele statistiek: op basis van een steekproef uitspraak doen over een gehele populatie. Er
is geen 100% zekerheid of de steekproef representatief is voor de gehele populatie. Door
gegevens uit de steekproef te verzamelen, kunnen waarschijnlijk kenmerken van de populatie
(die de onderzoeker niet kan zien) worden bepaald. De steekproef wordt ook wel de ‘sample’
genoemd en de gehele groep de ‘populatie’. De steekproef moet representatief zijn voor de
populatie. De beste manier om een steekproef samen te stellen is door middel van een
willekeurige steekproef.
- Geen 100% zekerheid
- Steekproef uit populatie trekken
Populatie = groep waar je uitspraken over wil doen
- Gemiddelde μ
- Standaarddeviatie σ
Steekproef = een onderdeel van je populatie
- Gemiddelde X
- Standaarddeviatie S
Hoorcollege 1: Data samenvatten, steekproef en populatie
Meetniveaus – manier om data te typeren
Er zijn verschillende manieren om data te typeren, één manier om data te typeren is doormiddel
van meetniveaus. De manier waarop data samengevat is heeft consequenties voor het type toets
je kan uitvoeren (steeds meer informatie/kwantiatiever).
Categorisch → staafdiagram
- Nominaal: categorieën of labels zonder logische volgorde
- Ordinaal: categorieën die wel een logische volgorde hebben
Continue → histogram
- Interval: betreft continue data. Tussen de verschillende data zijn betekenisvolle verschillen,
er zijn gelijke intervallen tussen de waarden
- Ratio: betreft continue data. De data heeft een absoluut nulpunt. Als het nulpunt 0 is, is er
geen variabele aanwezig.
= steeds meer informatie.
Note: interval en ratio wordt door SPSS samengevat door ‘skill’ data
Heeft consequenties:
- Kiezen voor centrummaten om data te verzamelen – beschrijvende statistiek
- Type statistische toetsen die je kan uitvoeren – inferentiële statistiek
,Data samenvatten – centrummaten
Centrummaten = grootste deel van je data
Om een groep data samen te vatten kan gebruikt worden gemaakt van centrummaten.
Centrummaten richten zich op waar het grootste deel van de data zich bevindt. Het betreft de
meest voorkomende of waarschijnlijke data.
→ Er zijn drie centrummaten, namelijk:
- Gemiddelde: Gemiddelde van de aantal waardes (optellen/aantal waardes)
- Mediaan: Middelste score (oneven aantal of: gemiddelde van twee middelste scores (even
aantal)
- Modus: Waarde die het vaakst voorkomt (waarde met de hoogste frequentie)
Gemiddelde: de som van alle scores, gedeeld door het aantal observaties.
Uitschieters/afwijkende data heeft veel invloed op de uitkomst van het gemiddelde. De mediaan
kan gebruikt worden in situaties waarin het gemiddelde minder goed werkt, doordat het
uitschieters bevat.
→ Het gemiddelde is de som van de waarden van een groep getallen gedeeld door het
aantal getallen in de groep.
Formule gemiddelde = X / N
Mediaan: de middelste score van een dataset. Bij een oneven aantal moet de middelste score
gebruikt worden en bij een even aantal het gemiddelde van de twee middelste scores. De
mediaan wordt minder beïnvloed door uitschieters. Je kunt bij nominale data niet de mediaan
vinden.
Nominale data kent geen ordering, dus je kunt de waardes nooit op een rij zetten om de
middelste waarde te vinden.
Modus: waarde die het vaakst voorkomt (waarde met de hoogste frequentie). De modus kan
worden toegepast op gecategoriseerde data. Continue/interval data bevat te veel verschillende
waardes, waardoor de modus niet vaak toegepast kan worden. Een dataset kan meerdere modi
hebben, de verdeling is dan bimodaal.
Conclusie:
- Het gemiddelde en de mediaan zijn beide te gebruiken bij interval/ratio meetniveau
- Gemiddelde wordt beïnvloed door uitschieters, mediaan niet
- Gemiddelde kan alleen uitgerekend worden door interval/ratio data. Dit is niet mogelijk voor
ordinale data
- Let op met uitschieters bij kleine datasets
- Nominaal meetniveau gebruik de modus
Richtlijnen voor tabellen:
- Duidelijke titel
- Nummer je tabellen
- Label je rijen en kolommen
- Maak een duidelijke lay-out (kopieer niet direct uit SPSS)
- Verwijs naar de bron van de data
- Noem de meeteenheid (%, cm)
- Gebruik niet te veel decimalen en overbodige informatie
Een figuur kan handiger zijn dan een tabel:
- Veel informatie op één plek
Rodi Sekha
,- Makkelijker om patronen te zien in de data
- Doel: versimpelen, niet ‘opscheppen’ met ingewikkelde figuren
- Type grafiek moet passen bij type data (meetniveau)
Meetniveau Kenmerk Centrummaat Figuur
Nominaal Categorieën/labels zonder Modus Staafdiagram
logische volgorde
Ordinaal Categorieën met een Gemiddelde, Mediaan en Staafdiagram
logische volgorde Modus
Interval Betekenisvolle verschillen Gemiddelde en Mediaan Histogram
tussen stappen
Ratio Er is een nulpunt, waarop Gemiddelde en Mediaan Histogram
iemand kan scoren
Staafdiagram:
- Categorische data
- Frequentie of % per categorie
- Staven staan los van elkaar
→ Want: geen continue schaal, maar losse categorieën zonder betekenisvolle intervallen!
Histogram:
- Continue data
- Het gekleurde gebieden (staven bij elkaar) weergeven het aantal observaties
- Staven raken elkaar aan
Centrummaten in grafieken: normaal en scheefverdeling
- Positieve scheve verdeling (rechts): modus heeft een lagere waarde dan gemiddelde
- Symmetrische verdeling: gemiddelde, modus en mediaan zijn gelijk
- Negatieve scheve verdeling (links): modus heeft hogere waarde dan gemiddelde
- Bimodale verdeling: er zijn twee topen of “modi” er zijn 2 groepen wat betreft test scores
Wat houdt statistiek in?
- Het begrijpen van data
- Data – overal om ons heen
Statistiek is een instrument dat ons helpt om de wereld om ons heen te begrijpen.
In het begin van de 17de eeuw werden er voor het eerst gegevens verzameld en bijgehouden
over populaties. Dit werd gedaan aan de hand van ‘beschrijvende statistiek’. Door middel van
statistiek kan verzamelde informatie geordend worden om vervolgens uitspraken over, de
kenmerken van de informatie te doen. Er zijn twee vormen van statistiek toegepast moet worden.
Programma's kunnen helpen om statistiek te gebruiken en toe te passen.
→ SPSS: instrument voor statistische analyse, voor de analyse van gegevens. Het is
momenteel een van de populairste krachtig analyse instrumenten.
Rodi Sekha
, Hoorcollege 2: Variabiliteit, normaalverdeling en standaardiseren
- Data samenvatten: variabiliteit (spreiding)
- Normaalverdeling
- Standaardiseren: Z-scores
Data samenvatten: variabiliteit (spreiding in Grasple)
3 metingen van variabiliteit
1. Bereik
2. Standaarddeviatie
3. Variantie
Bereik = h – l
Om het bereik uit te kunnen rekenen trek je de waarde van de hoogste score af van de waarde
van de laagste score. Hiermee meet je hoever de spreiding is van de grafiek.
→ Hoge spreiding = minder nauwkeurig – dan een lage spreiding.
Variantie: = tussenstap
Zowel de SD als de variantie zeggen iets over de spreiding in een verdeling.
→ Met de variantie bereken je het verschil tussen de score en het gemiddelde.
→ Het verschil is dat de eenheden tussen de methodes verschillen.
Standaarddeviatie wordt uitgedrukt in dezelfde eenheid als de oorspronkelijke waarden
Variantie wordt uitgedrukt in veel grotere eenheden.
→ Variantie = Gemiddelde gekwadrateerde afwijking
Formule variantie populatie:
Formule variantie steekproef:
Standaarddeviatie:
Bij de standaarddeviatie bereken je de gemiddelde afwijking van het gemiddelde.
→ Hoe hoger de SD = hoe hoger de afwijking
Formule standaarddeviatie populatie:
Formule standaarddeviatie steekproef:
Formule omrekenen
Note 1: het kwadrant zorgt ervoor dat het minteken van de waarde wegvalt.
Note 2: als de metingen (n) en de standaarddeviatie (q) is gegeven, en ze vragen naar de
variantie hoef je alleen de standaarddeviatie te kwadrateren (q2)
Berekening variantie – standaarddeviatie:
1. Noteer alle scores (X-waarden)
2. Bereken het gemiddelde
3. Bereken de afwijking van elke X-waarde
4. Kwadrateer de afwijkingen
5. Bereken de kwadrantensom ( x – u )
6. Bereken de variantie (x – u) 2 (= kwadraat)
7. Bereken de standaarddeviatie: wortel van variantie (als je dat niet doet heb je dus de
variantie)
Conclusie:
Bereik:
- Voordeel: Makkelijk te berekenen
Rodi Sekha
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper rodisekha17. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €4,94. Je zit daarna nergens aan vast.