Beschrijvende en inferentiële statistiek deel 1
Statistiek ➔ Gaat over de methoden om gegevens te verzamelen, bewerken, interpreteren en
presenteren. Die gegevens noemen we data. Ultieme doel: door middel van data kennis vergaren
over de wereld om ons heen.
Beschrijvende = Hoe zien de data eruit ➔ Samenvatting van de verkregen data
Inferentiële = Wat zeggen de data van de steekproef over de gehele populatie ➔ Uitspraken en
voorspellingen doen over hele populatie op basis van de vergregen data (steekproef)
To infer = conluderen uit/opmaken uit
Terminologie: het boek heeft het over ‘sample statistic’ en ‘population parameter’
Variabelen = Wat je wil onderzoeken, zoals kleur, stad
Cases = Hetgeen wat je gaat onderzoeken, 1 persoon of 1 team
Constante = wanneer er geen variatie is, het blijft hetzelfde
Meetniveau’s:
Categorische variabelen:
- Nominaal: Verschillende categorieën, geen rangorde (kleur, nationaliteit)
- Ordinaal: Verschillende categorieën, rangorde, je weet niets over de verschillende
categorieën dus met hoeveel het van elkaar verschilt (slecht, neutraal, goed of eerste,
tweede)
Kwantitatieve variabelen:
- Interval: Verschillende categorieën, rangorde, je weet iets over de intervallen tussen de
verschillende categorieën (geslacht, temperatuur)
- Ratio: Verschillende categorieën, rangorde, je weet iets over de verschillende categorieën, 0-
punt met betekenis (lengte)
Kwantitatieve variabelen kunnen ook nog discreet of continu zijn.
- Discreet: set van aparte nummers (doelpunten, 1 of 2 niet 1,21)
- Continue: eindeloos aan getal (lengte, bijvoorbeeld 1,75)
Een nominale variabele met 2 categorieën (ja/nee – goed/fout) ➔ Dichotoom
Module 1
Data beschrijven
Bij een studie kijk je naar de data, die valt op te delen in de variabelen en cases
- Cases ➔ Persoon of iets dat je bestudeert
- Variabele ➔ Kenmerken waar je geïnteresseerd bent
De data kan je het beste plaatsen in een datamatrix. Van iedere studie is de datamatrix het
kernelement.
Datamatrix ➔ Het is een overzicht van al je cases en variabelen. De cases staan in de rijen en de
variabelen in de kolommen.
Observaties ➔ De gegevens in de datamatrix
In een datamatrix geef je met ‘…’ aan dat de rijen doorgaan, de allerlaatste van de rij schrijf je wel op.
1
, De datamatrix is nodig voor alle statistische analyses. Samenvattingen van de datamatrix gebruiken
we om de data aan andere te laten zien. De samenvattingen kunnen worden gegeven in tabellen en
grafieken.
Frequentietabel ➔ Laat zien hoe vaak een variabel voorkomt. Hoe de waarden van een variabele dus
verdeeld zijn over de cases.
Relatieve frequentie ➔ Wordt uitgedrukt in percentages
Cumulatieve percentage ➔ De percentages van categorieën worden bij elkaar opgeteld.
Hercoderen ➔ Het veranderen van meetniveau. Bijvoorbeeld van kwantitatief naar ordinaal (gewicht
nu neerzetten in intervallen met bijvoorbeeld 60-70 kg, 70-80kg)
Kan niet van ordinaal naar kwantitatief.
De informatie van een frequentietabel kan je laten zien in een grafiek. Dat kan op 2 manieren voor
nominale gegevens:
- Taartdiagram (nominale gegevens)
- Staafdiagram
Je kan meteen zien hoeveel het is, maar het exacte nummer is niet makkelijk uit een taartdiagram te
halen. Dat is makkelijker bij een staafdiagram. Een staafdiagram is handiger als de categorieën in een
variabel toenemen.
Voor kwantitatieve gegevens:
- Dotplot ➔ Weinig observaties
- Histogram ➔ Veel observaties. Vergelijkbaar met een staafdiagram waarin de (relatieve)
frequentie wordt aangegeven van de mogelijk waarden van een variabel. Wel een belangrijk
verschil. De balken zijn wel verbonden aan elkaar. Dit komt doordat de waarden van een
interval ratio variabel een onderliggende continue schaal representeert.
Maten van centraliteit
Categorische gegevens:
- Modus (mode) ➔ Waarde die het vaakst voorkomt
Kwantitatieve gegevens:
- Mediaan (median) ➔ Middelste waarde van de dataset, gegevens moeten wel gesorteerd
worden
- Gemiddelde (mean) ➔ De som van alle waarden, gedeeld door het totale aantal waarden
Kies voor de mediaan als je outliers (disproportionele getal) of een scheve verdeling hebt, ga anders
voor het gemiddelde.
Mate van variantie
2