M0.1 Introductie
Beschrijvende statistiek = hoe ziet data eruit? Samenvatting van verkregen data
Inferentiële statistiek = wat zeggen de data van de steekproef over de gehele populatie?
Uitspraken en voorspellingen doen over de hele populatie van de verkregen data (steekproef)
M0.2 Statistische concepten
Als je onderzoek doet naar voetbalclubs in Spanje (cases), kan je kijken naar de steden waar de
teams uit afkomstig zijn. Dit is voor elk team verschillend. Denk aan Barcelona, Madrid, Sevilla en
Valencia (variabelen). Als je kijkt naar het land waarin de teams zijn, is dat voor allemaal Spanje;
het zijn immers Spaanse teams (constanten). Niveaus van meten:
- Nominale variabelen gaan om feiten, geen beter/slechter (nationaliteit van de spelers) →
dichotoom (nominale variabelen met twee categorieën)
- Bij ordinale variabelen is er sprake van een rangorde (winnaar/verliezer/1e/2e, maar je weet
niet hoeveel nr1 beter speelde dan nr2)
- Interval variabelen: hier heb je verschillende categorieën en een rangorde (temperatuur:
gisteren was het 10*C en vandaag is het 20*C, dus het is nu ‘twee keer zo warm) plus 0
betekent niet dat er geen warmte is. Er is namelijk een willekeurig en niet absoluut nulpunt
- Het onderscheid tussen interval en ratio is in deze cursus niet belangrijk
Variatie Order Similar Meaningful Voorbeeld
intervals score point
Categoriaal Nominaal + - - - Naam, afkomst
Ordinaal + + - - Klanttevredenheid op
schaal van 1-5
Kwantitatief Interval + + + - Temperaturen en tijd (uren
op klok)
Ratio + + + + Lengte, gewicht, inkomen
M1.1 Data beschrijven
Tabellen
Cases: de dingen die je bestudeerd (mensen of groepen of dieren)
Variabelen: de karakteristieken die je interesseren (leeftijd, haarkleur etc.)
Door een data matrix kan je informatie makkelijk overzichtelijk noteren → verticaal de cases,
horizontaal de variabelen (oftewel de observaties). Deze matrix is niet handig om te presenteren.
Door de puntjes geef je aan, dat je een aantal rijen hebt overgeslagen.
Leeftijd Gewicht Haarkleur
Player 1 18 72,8 Zwart
Player 2 17 76,1 Zwart
Player 3 19 72,4 Rood
…
Player 100 19 73,6 Blond
Met een frequentietabel kan je eenvoudig een overzichtelijker beeld schetsen van de data
Haarkleur Frequentie Percentages Cumulatieve percentages
Blond 76 19 19
Bruin 134 33,5 52,5
Zwart 160 40 92,5
Anders 30 7,5 100
Totaal 400 100
, Met gewicht wordt het maken van een frequentietabel lastig → hier gebruik je intervallen
Gewicht Frequentie Percentages Cumulatieve percentages
<60 … … …
60-69,9 … … …
70-79,9 … … …
80-89,9 … … …
Totaal … … …
Grafieken
Hier kan je kiezen voor bijvoorbeeld een cirkel- (pie chart) of een staafdiagram (bar graph) als je
nominale data wil presenteren (categorisch). Een staafdiagram heeft als voordeel dat je het
frequentienummer binnen de categorie kan aflezen aan de y-as. Bij het presenteren van
kwantitatieve data kan je kiezen voor een dotplot – dit is echter erg onoverzichtelijk, dus bij een
grote steekproef, wordt gebruik gemaakt van een histogram, waarbij je een trend kan ontdekken
(bell shaped).
M1.2 Maten van centraliteit
Mode (modus) = value that occurs most frequently (most common outcome) → often used if a Met opmerkingen [TL(1]: Modus = meest voorkomende
variable is measured on a nominal or ordinal level. Als er twee modussen zijn, is er sprake van twee
pieken in een de trendlijn.