Literatuur hoorcolleges blok 1.4
Lecture 1
Hoofdstuk 1 Statistics or sadistics?
Statistics: een set van instrumenten en technieken die gebruikt worden voor het beschrijven,
organiseren, samenvatten en interpreteren van informatie of data. Deze data kan van alles
zijn, zoals scores op een tentamen, de snelheid waarmee studenten problemen oplossen,
aantal bijwerkingen van een medicijn, de prijs van een gemiddeld etentje, etc.
Descriptive statistics: wordt gebruikt om karakteristieken van een verzameling data te
organiseren en beschrijven. De verzameling data wordt ook wel data set of gewoon data
genoemd.
- The mode: de meest voorkomende keuze. Bijv. om te kijken wat de populairste
studie is kijken welke studie het meest is ingevuld.
- The mean: gemiddelde, bijv. gemiddelde leeftijd.
Inferential statistics: vaak (niet altijd) de volgende stap na het verzamelen en samenvatten
van de data. Wordt gebruikt om vanuit een kleinere groep data (zoals een aantal studenten)
aannames te maken over een grotere groep (zoals alle studenten aan de EUR).
- Sample: kleinere groep data, een deel van het geheel. Bijv. 150 eerstejaars-
studenten. Moet representatief zijn van de hele populatie.
- Population: de grotere groep, het geheel. Alle gebeurtenissen met bepaalde
karakteristieken, bijv. alle eerstejaarsstudenten aan de EUR.
Hoofdstuk 2 Means to an end
An average/een gemiddelde: de waarde die het beste een hele groep scores weergeeft. Ook
wel ‘measures of central tendency’. Soorten measures of central
tendency:
● The (simple) mean: meest gebruikte. De som van alle
waarden in een groep gedeeld door het aantal waarden in die
groep. Bijv. van 20 mensen de leeftijden optellen en delen
door 20. In formule: De X met het streepje erboven (X bar) is de mean waarde of de
mean van de groep scores. De Sigma betekent dat je moet optellen wat de letter
volgt. In dit geval is dat dus X, oftewel alle individuele scores in de groep scores. De
n is de grootte van de sample die je onderzoekt. Stappenplan:
1. Lijst van gehele set waarden in 1 of meer kolommen (alle X’en).
2. Tel de X’en op.
3. Deel dit door het aantal waarden (delen door sample, niet populatie).
- De mean wordt soms weergegeven als M. Synoniemen: typical, average, most
central score, arithmetic mean.
,- Soms is er onderscheid tussen n en N (small n en large N). N is dan de populatie, n
de sample.
- Sample mean geeft de populatie mean precies weer. Het middelpunt waar de andere
waarden links en rechts evenveel wegen (een soort seesaw).
- Gevoelig voor ‘extreme scores’ die het gemiddelde ver naar de ene of andere kant
kunnen trekken, waardoor het minder representatief is van alle scores.
- Middelpunt in een set waarden.
● Weighted mean: de waarde vermenigvuldigen met zijn frequentie van voorkomen. Al
deze producten worden opgeteld en dit totaal wordt gedeeld door het totale aantal
voorkomingen (occurences). Stappenplan:
1. Lijst van waarden waarvan de mean wordt berekend.
2. Lijst van hoe vaak elk van deze waarden voorkomen.
3. Vermenigvuldig waarde met bijbehorende frequentie.
4. Tel a deze producten (elke waarde x frequentie) bij elkaar op.
5. Deel dit door totale frequentie. Totale frequentie is de optelsom van de kolom
met frequenties (hoe vaak de waarden voorkomen).
- Voor de statistiek van een sample, zoals sample mean, worden Romeinse letters
gebruikt (X). Voor de statistiek van de populatie, zoals populatie mean, worden
Griekse letters gebruikt ( μ ).
● The median: het middelpunt in een set scores. Het punt waar de ene 50% onder en
de andere 50% boven valt. Stappenplan:
1. Lijst van waarden in volgorde van hoogste naar laagste of andersom.
2. Vindt de middelste score, dat is de mediaan.
3. Als het aantal scores/waarden een even getal is, is de mediaan de mean van
de 2 middelste waarden.
4. Als het aantal waarden een even getal is en de 2 middelste waarden zijn
hetzelfde is de mediaan gewoon die waarde.
- Percentile points: 75th percentile (of Q3) betekent dat de score op of boven 75% van
de scores zit. Q2 is de mediaan, Q1 is 25th percentile.
- Niet gevoelig voor extreme scores.
- Soms weergegeven met M, Med of Mdn.
- Middelpunt in een set cases.
● The mode: minst precies, maar belangrijk om karakteristieken van een set scores te
begrijpen. De waarde die het meest voorkomt. Er is geen formule. Stappenplan:
1. Lijst van alle waarden in een verdeling, maar elke waarde maar 1 keer.
2. Turf hoe vaak elke waarde voorkomt.
3. De waarde die het meest voorkomt is de mode.
4. Let op: de modus is niet de frequentie van een categorie, maar het label van
die categorie.
5. Als meer dan 1 waarde dezelfde frequentie heeft is de verdeling multimodal.
Bij bimodal zijn er bijv. 2 modes.
1
, - Belangrijk: categorieën moeten mutually exclusive zijn. Bijv. in een klas kijken welke
haarkleur het meest voorkomt → niemand kan zowel in de categorie blond als bruin
haar vallen.
Een extreme score is een score/waarde die heel anders is dan de groep waarin deze zit.
Bijv. met prijzen voor pizza van laag naar hoog: 4eu, 4eu, 5eu, 6eu, 13eu, is 13eu een
extreme score.
- Oplossen: mediaan ipv een mean.
- Teveel extreme scores kunnen de mean vervormen (skew).
- Ook wel outliers genoemd.
Measurement: toekennen van waarde als uitkomst van het volgen van een set regels.
Levels of measurement (NOIR):
- Nominaal
- Ordinaal
- Interval
- Ratio
Gebruik:
- Mode wanneer waarden in 1 categorie passen en deze categorieën natuurlijk
ontstaan.
- Median wanneer extreme scores het gemiddelde kunnen vervormen.
- Mean wanneer data geen extreme bevat en niet natuurlijk in categorieën past.
Hoofdstuk 4 A picture really is worth a thousand words
Belangrijke punten voor illustraties/typografieen:
- Minimize chart or graph junk: ga niet te ver met grafieken en opties enzo.
- Plan eerst hoe het eruit moet zien voor je het echt maakt, zelfs als dit digitaal is.
Begin met schetsen.
- Zeg niet meer of minder dan je wil zeggen.
- Label alles zodat niks verkeerd begrepen kan worden.
- Een grafiek moet slechts 1 idee overbrengen.
- Balans: centreer titels en axis enzo.
- Schaal en verhoudingen. Iets van 3 inches breed en 4 inches hoog.
- Een grafiek moet op zichzelf kunnen staan en begrepen worden.
- Gebruik niet teveel woorden.
- Zorg dat je zegt wat je wil zeggen.
Manieren om data te illustreren:
● Frequency distribution: bijhouden hoe vaak een bepaalde score voorkomt. De scores
worden hiervoor vaak in class intervals verdeeld.
2