Dit document bestaat uit een samenvatting van het van Statistiek aan de Vrije Universiteit Amsterdam. Stap voor stap wordt het gebruik van SPSS uitgelegd en worden begrippen toegelicht. Theorie wordt afgewisseld met voorbeelden, tabellen en plaatjes, zodat de tekst makkelijker te begrijpen is.
Statistiek: methoden om gegevens (data) te verzamelen, bewerken, interpreteren en presenteren.
DOEL: kennis vergaren over de wereld om ons heen.
Beschrijvende statistiek: hoe ziet de data eruit? (BV wat is de gemiddelde leeftijd van deelnemers
van enquête?) samenvatting van verkregen data. Sample statistic
Inferentiële statistiek: wat zegt de data van de steekproef over de gehele populatie? (onzekerheid)
bijvoorbeeld: is het verschil tussen twee groepen significant? Is het een goede schatting van de
hele populatie?
uitspraken en voorspellingen doen over gehele populatie op basis van de verkregen data
(steekproef). Population parameter
Belangrijke termen die in de cursus voor gaan komen: onzekerheidsmarge en significantie.
Belangrijkste concepten in de statistiek, hoe zien kwantitatieve data eruit en hoe praten we er over?
Variabelen: kenmerken van iets of iemand (BV kenmerken van voetbalteams aantal gewonnen
wedstrijden, kleuren van de shirts, hoeveel doelpunten gescoord) moet variëren.
Cases: zijn die dingen of personen waar de variabelen over gaan (BV de voetbalteams cases
hoeven dus niet altijd individuen te zijn)
Constante: een variabele die niet varieert. (BV cases die allemaal uit spanje komen. De constante is
dan het land waar de cases vandaan komen. Variabele kan zijn de steden waar de cases vandaan
komen)
Meetniveaus:
Categorisch:
- Nominaal: meerdere categorieën die van elkaar verschillen zonder rangorde. Het is niet
mogelijk om te stellen dat een categorie beter of meer dan de ander is. (BV nationaliteit of
geslacht van cases)
- Ordinaal: meerdere categorieën die van elkaar verschillen met een rangorde. Je weet echter
niet het verschil in interval hoeveel is nummer één beter dan twee? (BV de rangorde van
de cases in een competitie. Het is duidelijk wie er bovenaan staat, wie tweede, etc.)
Kwantitatief (categorieën staan voor numerieke waarden)
- Interval: meerdere categorieën die van elkaar verschillen met een rangorde. Er is een
vergelijkbare interval tussen de categorieën. (BV leeftijd van cases. Iemand van 18 verschilt
van iemand van 16 verschil tussen deze twee is hetzelfde als tussen iemand van 12 en 14.
Rangorde is dat iemand ouder is dan de ander.)
- Ratio: meerdere categorieën die van elkaar verschillen met een rangorde. Er is een
vergelijkbaar interval tussen de categorieën met een betekenisvolle nulpunt. (BV lengte van
cases. Rangorde is dat iemand groter is, nulpunt is lengte 0)
Kwantitatief kan worden ingedeeld in discrete vs continious gehele getallen of getallen achter
de komma. (BV aantal doelpunten gescoord vs lichaamslengte)
, Waarom is het belangrijk om deze meetniveaus te kennen? methoden die we gebruiken om
data te analyseren hangen af van het niveau waarop de variabelen gemeten zijn.
Module 1: beschrijvende statistiek
1.1 Data beschrijven
Frequentietabel: laat zien hoe de waarden van de variabelen verdeeld zijn over de cases lijst van
alle mogelijke waarden, samen met het aantal observaties voor elke waarde. Hierin kan ook de
relatieve waarden weergegeven worden percentage van gehele steekproef die aan bepaalde
waarden voldoet. Ook de cumulatieve percentages kunnen in een frequentietabel weergeven
worden de percentages van relatieve waarden bij elkaar op geteld.
Dit is vooral handig bij categorische kenmerken
Bij kwantitatieve kenmerken kunnen er ordinale categorieën gemaakt worden door
intervallen te gebruiken. (BV mensen van 60-65 kg, 66-70 kg, etc) de variabele wordt
gehercodeerd van kwantitatief naar ordinaal met minder categorieën.
Samenvatting: alle data wordt weergeven in een datamatrix. De data wordt samengevat en
weergeven in bijvoorbeeld een frequentietabel. Van kwantitatieve variabele kunnen ordinale
categorieën gemaakt worden om het overzichtelijker te maken.
Van een frequentietabel kan een grafiek gemaakt worden. Deze grafiek kan verschillende vormen
aannemen.
Categorische variabele
Cirkeldiagram Staafdiagram
Voordeel Het percentage van een variabele is Het exacte aantal van een variabele is
makkelijk af te leiden makkelijk af te leiden
Nadeel Het exacte aantal van een variabele Het percentage van een variabele is
is moeilijk af te leiden moeilijk af te leiden.
Kwantitatieve variabele
Dotplot Histogram
Lijn met kleinste en grootste mogelijkheid aan Soort staafdiagram waarbij de variabelen
de uiteinde. Gelijke intervallen hier tussen, verdeeld zijn over gelijke intervallen. De
met boven elke waarde een stip. Handig voor staven raken elkaar aan, door deze verdeling
een kleine steekproef over intervallen. Histogram kan 1 piek hebben
die symmetrisch verdeeld is, een piek die naar
links of rechts is verschoven of 2 pieken.
unimodaal of bimodaal
Vorm van de grafiek is van belang omdat het kan helpen bij de methoden die je verder gaat
gebruiken.
, 1.2 Maten van centraliteit
3 manieren waarop het midden van een dataverdeling aangegeven kan worden:
- Modus: de waarde die het vaakst voor komt most common outcome. Wordt vooral
gebruikt bij categorische variabelen. Er kunnen meerdere modi zijn bimodaal
- Mediaan: de middelste waarde van je observaties. Bij een oneven aantal waarden neem je
de middelste waarde, bij een even aantal waarden neem je het gemiddelde van de twee
middelste waarden. Mediaan verdeeld waarden in twee gelijke delen.
- Gemiddelde: som van alle waarden gedeeld door het aantal observaties. balanspunt: alle
waarde aan de ene kant zijn gelijk aan de andere kant.
Wanneer gebruik je welke maat? hangt af van meetniveau.
Bij nominale (categorische) variabelen maak je gebruik van de modus.
Bij kwantitatieve variabelen moet je kijken naar de verdeling van de waarden. Bij een reeks
waarbij er afwijkende waarden zijn, kun je vaak beter de mediaan gebruiken om het midden
van de data te vinden dan het gemiddelde, omdat het gemiddelde makkelijk beïnvloed kan
worden door deze afwijkende waarden. Ook als de verdeling scheef is kun je beter de
mediaan gebruiken.
1.3 Maten van variatie
Naast het midden van de verdeling zijn we ook geïnteresseerd in de variatie van de dataverdeling.
Om de verdeling te beschrijven, is er meer nodig dan alleen het midden van de dataverdeling
centrale tendens. Om de verdeling te beschrijven hebben we ook de variabiliteit van de waarden
nodig. Twee maten van variabiliteit:
- Bereik: verschil tussen hoogste en laagste waarde geeft vaak niet zo’n goede indruk van
de variabiliteit van de data. Kijkt alleen naar de extreme waarden.
- Interkwartielafstand: verdeelt de dataverdeling in 4 gelijke delen. Deze delen worden
kwartielen genoemd. Tweede kwartiel verdeeld de verdeling in twee gelijke delen en is
hetzelfde als de mediaan. Interkwartielafstand is de afstand tussen eerste en derde kwartiel.
IQR = Q3 – Q1 Q1 is mediaan eerste helft, Q3 is mediaan tweede helft.
Interkwartielafstand neemt extreme waarden niet mee, waardoor de variabiliteit beter
beschreven wordt.
Extreme waarden hebben een waarde die onder Q1 – IQR x 1,5 of boven Q3 + IQR x 1,5
liggen
Boxplot: grafiek die weergeeft hoe de waarden in de dataverdeling verdeeld zijn.
Twee andere maten van variabiliteit: nemen ALLE waarden van de variabelen mee
- Variantie: is een gekwadrateerde waarde. Hoe groter de variantie, hoe groter de variabiliteit.
hoe meer de waardes rondom het gemiddelde verspreid zijn.
- Standaarddeviatie: gemiddelde afstand van een observatie van het gemiddelde. Is de wortel
van de variantie.
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper sophievandulmen. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €6,49. Je zit daarna nergens aan vast.