Alle verplichte literatuur voor quantitative methods
Boek – statistics for people who (think they) hate statistics.
Week 1
Hoofdstuk 1 – statistics or sadistics? It’s up to you.
Geschiedenis van statistiek
Statistiek begon met het rellen en verzamelen van gegevens, maar ontwikkelde zich pas echt vanaf de
17e eeuw. Aanvankelijk werden statistische methoden vooral gebruikt in vakgebieden als landbouw
en astronomie. Later breidde dit zich uit naar het bestuderen van menselijk gedrag, en geleidelijk
ontstonden steeds complexere technieken. Tegenwoordig worden programma’s zoals SPSS en Excel
veel ingezet voor statistische analyses, waarbij de komst van de persoonlijke computer zowel
voordelen als nadelen met zich meebrengt. Een groot voordeel is dat mensen met een relatief kleien
investering toegang hebben tot statistische software, wat het gebruik van statistiek toegankelijker
maakt. Een nadeel is echter dat de uitkomsten onbetrouwbaar en ongeldig kunnen zijn wanneer de
ingevoerde gegevens niet betrouwbaar of nauwkeurig zijn – vandaar de uitdrukking “garbage in,
garbage out”. Vandaag de dag wordt statistiek breed toegepast in allerlei vakgebieden. De
onderwerpen van onderzoek kunnen sterk verschillen, maar de statistische methoden blijven
hetzelfde.
Wat is statistiek en wat is het niet?
Statistiek is een verzameling technieken en methoden die we gebruiken om informatie en gegevens
te ordenen, beschrijven en interpreteren. Denk bijvoorbeeld aan het vastleggen van de resultaten van
een test of het berekenen van de gemiddelde prijs van een restaurant in Santa Fe, Mexico. De
basisstappen zijn dataverzameling, ordening, samenvatting en interpretatie.
Beschrijvende statistiek is bedoeld om de eigenschappen van een dataset inzichtelijk te maken. Dit
kan bijvoorbeeld een dataset zijn over studenten waarin leeftijd en studie staan. Door beschrijvende
statistiek te gebruiken, zoals het berekenen van de modus (meest voorkomende waarde), het
gemiddelde, of de mediaan (middelste waarde), kun je zien welke kenmerken het meest voorkomen.
Stel dat je wilt weten welke studie het populairst is onder studenten, dan kun je dat met deze
methoden eenvoudig bepalen.
Inferentiële statistiek gaat een stap verder: nadat de gegevens zijn samengevat, kun je met
inferentiële statistiek conclusies trekken over een grotere groep op basis van een kleinere groep. Stel
bijvoorbeeld dat je een groep van 22 eerstejaarsstudenten onderzoekt; inferentiële statistiek helpt
om op basis van deze steekproef uitspraken te doen over alle eerstejaarsstudenten. Dit wordt veel
gebruikt bij marktonderzoek. Een marketingbureau dat de naam voor een nieuw chipmerk wil testen,
kan een representatieve groep chipseters vragen welke naam ze het beste vinden. De resultaten van
deze steekproef kun je dan generaliseren voor alle chipseters. De term “to infer” betekent letterlijk
“concluderen” of “afleiden” voor een bredere groep.
Kortom, statistiek helpt ons om de wereld beter te begrijpen door verzamelde informatie te ordenen
en analyseren. Het maakt het mogelijk om eigenschappen van gegevens inzichtelijk te maken en,
indien nodig, conclusies te trekken die we kunnen toepassen op grotere groepen. Beschrijvende en
inferentiële statistiek vullen elkaar daarbij aan, en de keuze voor de ene of de andere vorm hangt af
van je onderzoeksvraag en de informatie die je wilt verkrijgen.
,Begrippen hoofdstuk 1
o Statistics = statistiek is de wetenschap die zich richt op het verzamelen, analyseren en
interpreteren van gegevens. Het helpt om patronen te ontdekken en conclusies te trekken
over verschillende onderwerpen.
o Descriptive statistics = beschrijvende statistiek omvat technieken die gebruikt worden om
gegevens te ordenen, samenvatten en beschrijven. Voorbeelden zijn het berekenen van
gemiddelden, mediaan of spreiding binnen een dataset.
o Data set/data = een dataset, of data, is een verzameling van gegevens die zijn verzameld en
opgeslagen voor analyse. Dit kan bijvoorbeeld bestaan uit een lijst met leeftijden,
testresultaten of andere meetbare informatie.
o Inferential statistics = inferentiële statistiek gebruikt gegevens van een steekproef om
conclusies te trekken over een bredere populatie. Dit maakt het mogelijk om op basis van een
kleine groep voorspellingen te doen over een grotere groep.
o Sample = een steekproef is een kleinere groep individuen of elementen die geselecteerd is uit
een grotere populatie. Deze wordt gebruikt om gegevens te verzamelen en representatieve
uitspraken te doen over de gehele populatie.
o Population = een populatie is de volledige groep personen of elementen waarover men
conclusies wil trekken. Dit kan een hele bevolkingsgroep zijn of een bepaalde categorie, zoals
alle middelbare scholieren in een land.
Hoofdstuk 4: computing and understanding averages
Nadat data is verzameld, is de eerste stap meestal om deze te organiseren en beschrijven, vaak met
behulp van eenvoudige kerncijfers. Een veelgebruikte methode hiervoor is het berekenen van het
gemiddelde, omdat dit een goede weergave geeft van de algehele waarde van de scores in een
dataset. Het gemiddelde is een van de drie manieren om de centrale tendens (measures of central
tendency) van een groep scores te beschrijven. De drie belangrijkste maten van centrale tendens zijn:
het gemiddelde (mean), de mediaan (median), die de middelste waarde aangeeft, en de modus
(mode), die de meest voorkomende waarde in de dataset vertegenwoordigt.
Het gemiddelde berekenen
In het boek wordt de mean (het gemiddelde) gezien als een specifieke manier om het average ofwel
het gemiddelde van een groep waarden te berekenen. Om het gemiddelde te vinden, tel je alle
waarden bij elkaar op en deel je de som door het totale aantal waarden in de groep.
Het gemiddelde, ook wel "X met een streepje" genoemd (X-bar), bereken je door alle individuele
scores bij elkaar op te tellen (sigma) en deze te delen door het totale aantal scores, aangeduid met
"n." In sommige boeken wordt dit gemiddelde weergegeven als de letter "M."
Het gemiddelde verdeelt de data gelijkmatig: de waarden links en rechts van het gemiddelde
balanceren elkaar. Het gemiddelde wordt vaak gezien als de nauwkeurigste maat voor centrale
tendens, maar het kan sterk beïnvloed worden door extreme scores, waardoor het soms geen
representatief beeld geeft.
Naast het gewone gemiddelde is er ook een gewogen gemiddelde. Dit bereken je door iedere waarde
te vermenigvuldigen met het aantal keren dat deze waarde voorkomt, de resultaten op te tellen en de
som te delen door het totaal aantal waarnemingen.
,De mediaan berekenen
De mediaan is een ander type gemiddelde dan het "gewone" gemiddelde en geeft het middelpunt
aan van een reeks scores. De mediaan ligt op het punt waar de helft van de scores eronder valt en de
andere helft erboven. Om de mediaan te vinden, zet je eerst alle scores op volgorde van laag naar
hoog; de mediaan is dan de score in het midden. Bij een even aantal scores neem je het gemiddelde
van de twee middelste scores.
De mediaan kan ook gekoppeld worden aan percentielpunten, waarbij je de reeks verdeelt in vier
gelijke delen, oftewel kwartielen: het eerste kwartiel (Q1) bevat de laagste 25% van de scores, Q2 is
de mediaan op 50%, Q3 markeert 75%, en Q4 bevat alle scores tot 100%.
In tegenstelling tot het gewone gemiddelde wordt de mediaan niet beïnvloed door extreme waarden
(uitbijters) en is daardoor nuttig bij scheve datasets. Dit maakt de mediaan een betrouwbare maat bij
reeksen met uitschieters, omdat die het gemiddelde sterk kunnen vervormen. Voor de mediaan
worden de symbolen M, Med, of Mdn gebruikt.
De modus berekenen
De modus is de eenvoudigste en minst gedetailleerde maat voor centrale tendens. Het geeft de
waarde aan die het vaakst voorkomt in een dataset. Er is geen formule voor het berekenen van de
modus, je zoekt gewoon de waarde die het meeste voorkomt.
Let op: de modus is niet hetzelfde als de frequentie. Als bijvoorbeeld een bepaalde waarde 57 keer
voorkomt, betekent dit niet dat de modus 57 is, maar dat de waarde zelf, zoals antwoord A, het
vaakst voorkomt.
Als er meer dan één waarde het vaakst voorkomt, spreken we van een multimodus (meerdere modi).
Bij twee modi noemen we dit bimodus en bij drie modi trimodus. Het komt zelden voor dat er precies
drie modi zijn.
Wanneer gebruik je het gemiddelde, de mediaan en de modus?
De keuze voor een maat van centrale tendens hangt af van het soort data dat je wilt beschrijven. Voor
kwalitatieve data, zoals categorieën of nominale gegevens (bijvoorbeeld oogkleur of stemvoorkeur),
gebruik je de modus, omdat deze aangeeft welke waarde het vaakst voorkomt.
Bij kwantitatieve data, zoals lengte, salaris of leeftijd, gebruik je meestal de mediaan of het
gemiddelde. Het gemiddelde is het meest nauwkeurig, tenzij er uitschieters (extreme scores) zijn; dan
is de mediaan een betere keuze, omdat deze niet door extreme scores wordt beïnvloed.
Samengevat:
Modus – geschikt voor data in categorieën waar één klasse domineert (bijvoorbeeld
haarkleur).
Mediaan – handig bij data met uitschieters die het gemiddelde zouden verstoren.
Gemiddelde – het nauwkeurigst voor numerieke data zonder uitschieters.
Meetschalen
Welke maatstaf van centrale tendentie je gebruikt, hangt af van bepaalde kenmerken van de
gegevens, met name de meetniveau’s (scales of measurement). Deze meetniveau's bepalen welke
centrale tendentiemaat je het beste kunt gebruiken.
Meten betekent het toekennen van waarden aan uitkomsten volgens een set regels. De resultaten
zijn de verschillende meetniveau's: nominaal, ordinaal, interval en ratio.
, De vier meetniveau's:
o Nominaal niveau: Hierbij worden uitkomsten in categorieën geplaatst die elkaar uitsluiten
(bijvoorbeeld geslacht of politieke voorkeur). Er is geen volgorde tussen categorieën, en het is
het minst precieze meetniveau.
o Ordinaal niveau: Hierin worden uitkomsten gerangschikt (bijvoorbeeld een rangorde van
kandidaten voor een baan). De volgorde is duidelijk, maar we weten niet hoe groot de
verschillen tussen de rangposities zijn.
o Interval niveau: Dit niveau heeft een onderliggende schaal waarbij de intervallen tussen
punten gelijk zijn (zoals scores op een toets). Het is mogelijk om te zeggen dat één score een
bepaalde hoeveelheid groter of kleiner is dan een andere.
o Ratio niveau: Kenmerkend voor dit niveau is het bestaan van een absoluut nulpunt (zoals bij
lengte of gewicht). Een nul betekent dat de eigenschap volledig afwezig is. In de
natuurwetenschappen komt dit vaker voor dan in de sociale wetenschappen, waar het
moeilijker is om ‘niets’ van een eigenschap te meten.
Ieder meetniveau heeft een specifieke maat van centrale tendentie die daarbij past, en het begrijpen
van deze niveaus helpt bij het kiezen van de juiste statistische maat.
Begrippen hoofdstuk 4
o Average = Gemiddelde: de typische waarde van een dataset, vaak berekend door alle
waarden op te tellen en te delen door het aantal waarden.
o Measures of Central Tendency = Maten van centrale tendentie: statistische methoden om de
'centrale' of typische waarde in een dataset te beschrijven, zoals het gemiddelde, de mediaan
en de modus.
o Mean = Gemiddelde: de som van alle waarden gedeeld door het aantal waarden, een
veelgebruikte maat voor de centrale tendentie.
o Median = Mediaan: de middelste waarde van een geordende dataset, die de gegevens in
twee gelijke helften verdeelt.
o Percentile Points = Percentielpunten: waarden die een dataset verdelen in gelijke delen, zoals
het 25e of 50e percentiel, om de positie van een waarde binnen de gehele reeks aan te
geven.
o Mode = Modus: de meest voorkomende waarde in een dataset; de enige maat van centrale
tendentie geschikt voor nominale data.
o Data Points = Datapunten: individuele waarnemingen of metingen binnen een dataset.
o Scale of Measurements = Meetniveau: de manier waarop data gemeten en geclassificeerd
worden, zoals nominaal, ordinaal, interval of ratio.
o Nominal Level of Measurement = Nominaal meetniveau: een niveau waarbij gegevens in
losse, niet-geordende categorieën worden ingedeeld (zoals geslacht of haarkleur).
o Ordinal Level of Measurement = Ordinaal meetniveau: een niveau waarbij gegevens
geordend worden op basis van rangorde, zonder exacte verschillen tussen de rangposities
(bijvoorbeeld rangschikking van voorkeuren).
o Interval Level of Measurement = Interval meetniveau: een niveau waarbij gelijke afstanden
tussen meetwaarden bestaan, maar zonder absoluut nulpunt (zoals temperatuur in Celsius).
o Ratio Level of Measurement = Ratio meetniveau: een niveau met een absoluut nulpunt en
gelijke intervallen, wat betekenisvolle verhoudingen mogelijk maakt (zoals lengte of gewicht).