Beschrijvende statistiek richt zich, in tegensteling tot inferentiele statistiek, alleen op de steekpref
of allen op de populatie. Inferentiele statistiek richt zich echter op de gehele populatie. Belangrijke
begrippen van beschrijvende statistiek zijn: data samenvatten, spreiding/variabiliteit,
normaalverdeling, Z-scores en kansen berekenen.
Beschrijvende statistiek: statistiek waarbij je met 100% zekerheid kan vaststellen wat er over
de populatie gezegd kan worden. De steekproef betreft de populatie (er is geen steekproef). De
verzameling wordt soms een ‘gegevensreeks’ of gewoon ‘gegevens’ genoemd. Alle data is
beschikbaar en kan relatief eenvoudig geordend worden.
- 100% zekerheid
- Steekproef = populatie (of: er is geen steekproef)
Inferentiele statistiek: op basis van een steekproef uitspraak doen over een gehele populatie. Er
is geen 100% zekerheid of de steekproef representatief is voor de gehele populatie. Door
gegevens uit de steekproef te verzamelen, kunnen waarschijnlijk kenmerken van de populatie
(die de onderzoeker niet kan zien) worden bepaald. De steekproef wordt ook wel de ‘sample’
genoemd en de gehele groep de ‘populatie’. De steekproef moet representatief zijn voor de
populatie. De beste manier om een steekproef samen te stellen is door middel van een
willekeurige steekproef.
- Geen 100% zekerheid
- Steekproef uit populatie trekken
Populatie = groep waar je uitspraken over wil doen
- Gemiddelde μ
- Standaarddeviatie σ
Steekproef = een onderdeel van je populatie
- Gemiddelde X
- Standaarddeviatie S
Hoorcollege 1: Data samenvatten, steekproef en populatie
Meetniveaus – manier om data te typeren
Er zijn verschillende manieren om data te typeren, één manier om data te typeren is doormiddel
van meetniveaus. De manier waarop data samengevat is heeft consequenties voor het type toets
je kan uitvoeren (steeds meer informatie/kwantiatiever).
Categorisch → staafdiagram
- Nominaal: categorieën of labels zonder logische volgorde
- Ordinaal: categorieën die wel een logische volgorde hebben
Continue → histogram
- Interval: betreft continue data. Tussen de verschillende data zijn betekenisvolle verschillen,
er zijn gelijke intervallen tussen de waarden
- Ratio: betreft continue data. De data heeft een absoluut nulpunt. Als het nulpunt 0 is, is er
geen variabele aanwezig.
= steeds meer informatie.
Note: interval en ratio wordt door SPSS samengevat door ‘skill’ data
Heeft consequenties:
- Kiezen voor centrummaten om data te verzamelen – beschrijvende statistiek
- Type statistische toetsen die je kan uitvoeren – inferentiële statistiek
,Data samenvatten – centrummaten
Centrummaten = grootste deel van je data
Om een groep data samen te vatten kan gebruikt worden gemaakt van centrummaten.
Centrummaten richten zich op waar het grootste deel van de data zich bevindt. Het betreft de
meest voorkomende of waarschijnlijke data.
→ Er zijn drie centrummaten, namelijk:
- Gemiddelde: Gemiddelde van de aantal waardes (optellen/aantal waardes)
- Mediaan: Middelste score (oneven aantal of: gemiddelde van twee middelste scores (even
aantal)
- Modus: Waarde die het vaakst voorkomt (waarde met de hoogste frequentie)
Gemiddelde: de som van alle scores, gedeeld door het aantal observaties.
Uitschieters/afwijkende data heeft veel invloed op de uitkomst van het gemiddelde. De mediaan
kan gebruikt worden in situaties waarin het gemiddelde minder goed werkt, doordat het
uitschieters bevat.
→ Het gemiddelde is de som van de waarden van een groep getallen gedeeld door het
aantal getallen in de groep.
Formule gemiddelde = X / N
Mediaan: de middelste score van een dataset. Bij een oneven aantal moet de middelste score
gebruikt worden en bij een even aantal het gemiddelde van de twee middelste scores. De
mediaan wordt minder beïnvloed door uitschieters. Je kunt bij nominale data niet de mediaan
vinden.
Nominale data kent geen ordering, dus je kunt de waardes nooit op een rij zetten om de
middelste waarde te vinden.
Modus: waarde die het vaakst voorkomt (waarde met de hoogste frequentie). De modus kan
worden toegepast op gecategoriseerde data. Continue/interval data bevat te veel verschillende
waardes, waardoor de modus niet vaak toegepast kan worden. Een dataset kan meerdere modi
hebben, de verdeling is dan bimodaal.
Conclusie:
- Het gemiddelde en de mediaan zijn beide te gebruiken bij interval/ratio meetniveau
- Gemiddelde wordt beïnvloed door uitschieters, mediaan niet
- Gemiddelde kan alleen uitgerekend worden door interval/ratio data. Dit is niet mogelijk voor
ordinale data
- Let op met uitschieters bij kleine datasets
- Nominaal meetniveau gebruik de modus
Richtlijnen voor tabellen:
- Duidelijke titel
- Nummer je tabellen
- Label je rijen en kolommen
- Maak een duidelijke lay-out (kopieer niet direct uit SPSS)
- Verwijs naar de bron van de data
- Noem de meeteenheid (%, cm)
- Gebruik niet te veel decimalen en overbodige informatie
Een figuur kan handiger zijn dan een tabel:
- Veel informatie op één plek
Rodi Sekha
,- Makkelijker om patronen te zien in de data
- Doel: versimpelen, niet ‘opscheppen’ met ingewikkelde figuren
- Type grafiek moet passen bij type data (meetniveau)
Meetniveau Kenmerk Centrummaat Figuur
Nominaal Categorieën/labels zonder Modus Staafdiagram
logische volgorde
Ordinaal Categorieën met een Gemiddelde, Mediaan en Staafdiagram
logische volgorde Modus
Interval Betekenisvolle verschillen Gemiddelde en Mediaan Histogram
tussen stappen
Ratio Er is een nulpunt, waarop Gemiddelde en Mediaan Histogram
iemand kan scoren
Staafdiagram:
- Categorische data
- Frequentie of % per categorie
- Staven staan los van elkaar
→ Want: geen continue schaal, maar losse categorieën zonder betekenisvolle intervallen!
Histogram:
- Continue data
- Het gekleurde gebieden (staven bij elkaar) weergeven het aantal observaties
- Staven raken elkaar aan
Centrummaten in grafieken: normaal en scheefverdeling
- Positieve scheve verdeling (rechts): modus heeft een lagere waarde dan gemiddelde
- Symmetrische verdeling: gemiddelde, modus en mediaan zijn gelijk
- Negatieve scheve verdeling (links): modus heeft hogere waarde dan gemiddelde
- Bimodale verdeling: er zijn twee topen of “modi” er zijn 2 groepen wat betreft test scores
Wat houdt statistiek in?
- Het begrijpen van data
- Data – overal om ons heen
Statistiek is een instrument dat ons helpt om de wereld om ons heen te begrijpen.
In het begin van de 17de eeuw werden er voor het eerst gegevens verzameld en bijgehouden
over populaties. Dit werd gedaan aan de hand van ‘beschrijvende statistiek’. Door middel van
statistiek kan verzamelde informatie geordend worden om vervolgens uitspraken over, de
kenmerken van de informatie te doen. Er zijn twee vormen van statistiek toegepast moet worden.
Programma's kunnen helpen om statistiek te gebruiken en toe te passen.
→ SPSS: instrument voor statistische analyse, voor de analyse van gegevens. Het is
momenteel een van de populairste krachtig analyse instrumenten.
Rodi Sekha
, Hoorcollege 2: Variabiliteit, normaalverdeling en standaardiseren
- Data samenvatten: variabiliteit (spreiding)
- Normaalverdeling
- Standaardiseren: Z-scores
Data samenvatten: variabiliteit (spreiding in Grasple)
3 metingen van variabiliteit
1. Bereik
2. Standaarddeviatie
3. Variantie
Bereik = h – l
Om het bereik uit te kunnen rekenen trek je de waarde van de hoogste score af van de waarde
van de laagste score. Hiermee meet je hoever de spreiding is van de grafiek.
→ Hoge spreiding = minder nauwkeurig – dan een lage spreiding.
Variantie: = tussenstap
Zowel de SD als de variantie zeggen iets over de spreiding in een verdeling.
→ Met de variantie bereken je het verschil tussen de score en het gemiddelde.
→ Het verschil is dat de eenheden tussen de methodes verschillen.
Standaarddeviatie wordt uitgedrukt in dezelfde eenheid als de oorspronkelijke waarden
Variantie wordt uitgedrukt in veel grotere eenheden.
→ Variantie = Gemiddelde gekwadrateerde afwijking
Formule variantie populatie:
Formule variantie steekproef:
Standaarddeviatie:
Bij de standaarddeviatie bereken je de gemiddelde afwijking van het gemiddelde.
→ Hoe hoger de SD = hoe hoger de afwijking
Formule standaarddeviatie populatie:
Formule standaarddeviatie steekproef:
Formule omrekenen
Note 1: het kwadrant zorgt ervoor dat het minteken van de waarde wegvalt.
Note 2: als de metingen (n) en de standaarddeviatie (q) is gegeven, en ze vragen naar de
variantie hoef je alleen de standaarddeviatie te kwadrateren (q2)
Berekening variantie – standaarddeviatie:
1. Noteer alle scores (X-waarden)
2. Bereken het gemiddelde
3. Bereken de afwijking van elke X-waarde
4. Kwadrateer de afwijkingen
5. Bereken de kwadrantensom ( x – u )
6. Bereken de variantie (x – u) 2 (= kwadraat)
7. Bereken de standaarddeviatie: wortel van variantie (als je dat niet doet heb je dus de
variantie)
Conclusie:
Bereik:
- Voordeel: Makkelijk te berekenen
Rodi Sekha
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller rodisekha17. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $5.37. You're not tied to anything after your purchase.