STATISTIEK: DEEL 1 EN 2
– Materiaal meebrengen naar examen: ZRM, formularium en statistische tabellen (dus formules niet
instuderen (formularium beschikbaar), maar systematiek en bedoeling ervan begrijpen)
– 7 uur per week aan statistiek besteden
Inleidende vraag
Ik bevraag 50 professoren voor een onderzoek Dit is niet representatief: steekproefgrootte is te klein + het toeval
bepaalt welke 50 professoren je neemt, je kan evengoed 50 andere professoren genomen hebben wat het resultaat
kan veranderen
Zijn reguliere studenten intelligenter dan schakelstudenten? Als in een onderzoek blijkt dat reguliere studenten een
hoger IQ hebben. Dit is niet representatief: het toeval speelt bij de gekozen 40 studenten, het is significant, het IQ
bepaalt daarom niet (enkel) het examenresultaat
H1: VERDELING VAN GEGEVENS - HET BESCHRIJVEN VAN 1 VARAIABELE (BESCHRIJVENDE STATISTIEK)
Het gegevensrooster
Bij een onderzoek doe je metingen en ga je op een slimme manier noteren via een gegevensrooster.
Een gegevensrooster bestaat uit:
– Variabelen: vaak voorgesteld door hoofdletter X, dit zijn toevalsvariabelen (de waarden van de variabelen
zijn afhankelijk van het toeval) Dus als je willekeurige onderzoekselementen neemt, is het een toeval
welk kenmerk het onderzoekselement heeft (dus bv. of het een reguliere of een schakelstudent is)
Bv. variabele X1 (schakel of reguliere student), variabele X2 (de provincie waarin de student woont),
variabele X3 (ASO/TSO/KSO/BSO), variabele X4 (de uren wiskunde), variabele X6 (het examencijfer),
variabele X8 (met welke graad zijn ze afgestudeerd)
– Onderzoekselementen: de mensen, de subjecten bij wie we het onderzoek doen
Bv. studenten pedagogische wetenschappen
1
, Je krijgt een score (X14) voor een bepaald subject op een bepaalde variabele (de score voor variabele X4 voor
subject 1 is X14 = 3 student 1 had 3uur wiskunde)
* Verdeling van gegevens:
- Onderzoekselementen: proefpersonen
- Variabelen: de soort gegevens, kenmerken
de data zijn soms cijfers en soms letters
* 3 types van variabelen:
1) Onafhankelijke variabele en afhankelijke variabele
- Onafhankelijke variabele of verklarende variabele (X): de oorzaak, uw input (meestal).
Bv. het schakel of regulierprogramma, in welke provincie je woont
- Afhankelijke variabele (Y): gegevens dat van iets anders afhangen. Het gevolg, uw output (meestal).
Bv. uw examencijfer, de graad dat je haalt op uw diploma, geslaagd of niet geslaagd (afh. variabele) is afhankelijk van
uw IQ, het feit of je een reguliere of schakelstudent bent
Bv. uw uren wiskunde in het secundair, bepalen uw examencijfer statistiek. Het is niet dat uw punt op statistiek, uw
uren wiskunde gaan bepalen.
Maar niet altijd duidelijk!! Bv. onderzoek naar het verband tussen motivatie voor school en de punten die je haalt.
Enerzijds kan iemand die gemotiveerd is, beter werken en dus betere punten scoren. Anderzijds kan iemand dat
goede punten haalt, een goed gevoel krijgen waardoor die gemotiveerder is.
Welk soort variabele hangt af van het soort onderzoek.
OEF: het verband tussen het aantal aangereden voetgangers en het aantal auto’s dat per dag door een straat rijden.
Het aantal voetgangers is de afhankelijke variabele (het gevolg). Doordat er veel auto’s door de straat rijden,
passeren er minder voetgangers.
2) Discrete variabele en continu variabele
- Discrete variabele: een natuurlijk, afgerond, duidelijk cijfer. Als het een beperkt aantal waarden aanneemt. Tussen
de cijfers past geen ander cijfer. De cijfers staan vast.
1 2
Bv. uw uren wiskunde (4u) (niet continu, omdat scholen enkel volledige uren aanbieden en geen halve uren)
Bv. uw aantal kinderen (is vast en duidelijk)
Bv. uw examencijfer aan de KUL (wordt afgerond, dus zonder komma)
Soorten discrete variabelen:
– Dichotome variabele: 2 verschillende waarden
bv: geslaagd of niet geslaagd
– Trichotome variabele: 3 verschillende waarden
2
, – Polytome variabele: 3 of meer verschillende waarden
- Continue variabele: niet duidelijk, maar wel het vaakst als ze een groot aantal waarden aannemen vaak
kommagetallen, halfjes. Tussen de getallen passen veel andere getallen. Deze staan niet vast. Dus tussen 2
variabelen past een 3de waarde.
1 1,25 1,5 1,75 2
Bv. IQ test, lengtes, tijd (want met kommagetallen (uren, minuten, seconden) en er passen veel varianten tussen)
Maar continuïteit bestaat nooit helemaal, want als je gaat meten kom je altijd bij een discrete variabele uit. Bij
lengtes afnemen met een meetlat, kan men niks tussen de mm vinden. Het stopt daar. In dat geval is het discreet,
omdat het daar een beperkt aantal waarden waarneemt. Er is niemand dat je gaat vinden tussen 1m80,4 en 1m80,5,
want meetlat is niet zo nauwkeurig. Dus in theorie is lichaamslengte continu (dus een theoretische veronderstelling),
maar in de realiteit is dit niet zo want de waarden/ variabelen zijn beperkter. Hetzelfde voor een IQ test.
3) Kwalitatieve variabele en - kwantitatieve variabele
bepaalt welke statistiek ik ga doen met mijn variabelen
- KwaLitatieve variabele: het getal is een label of naam waarmee je niet kan rekenen. Deze gegevens gaan puur om
de info. De getallen verwijzen naar gelijkheden en verschillen tussen onderzoekselementen. De volgorde van deze
gegevens maakt niet uit.
Bv. provincie, geslacht MAAR stel dat je deze benamingen een cijfer geeft, bv. Antw. = 1, Vlaams Brabant = 2,
West-Vlaanderen = 3,… dan kan je hier nog steeds niet mee rekenen want je hebt niets met bv. het gemiddelde
hiervan want deze cijfers betekenen in de werkelijkheid niets, je kon evengoed andere cijfers gebruiken het maakt
niet uit welk cijfer je gebruikt, enkel dat je ze steeds op dezelfde manier gebruikt
gaat wel bij dichotome variabelen
– Ordinale variabele (speciaal type): labels (behoren tot kwalitatief) waarbij de volgorde moet
gerespecteerd worden (vaste ordening). Dus de getallen vergelijken volgens grootte, maar waarmee je
niet kan rekenen.
Bv: graad van verdienste (onvoldoende = laagste, voldoening, onderscheiding, grote onderscheiding =
hoogste) als je deze benamingen willekeurige nummers geeft, dan moet je de volgorde wel blijven
respecteren (bv. van -1 3 ;dus laagste = laagste cijfer en hoogste = hoogste cijfer)
- KwaNtitatieve variabele: getallen waarmee je rekent. Getallen komen overeen met zaken die je ook in de realiteit
kan meten. De afstanden tussen getallen komen overeen met afstanden tussen onderzoekselementen (omtrent
gemeten kenmerken).
Bv. dichotome variabele (regulier of schakelstudent) schakelstudenten = 0 en reguliere studenten = 1 als je
hiervan het gemiddelde meet, dan kom je het % reguliere studenten uit.
3
, hier zit een hiërarchie in: alle variabelen kunnen we behandelen als kwalitatieve variabelen, maar sommige zijn
ordinaal omdat er een volgorde in zit, en die volgorden moet gerespecteerd worden. Sommige van de ordinale
variabelen zijn kwantitatief, want je kan ermee rekenen omdat die getallen echt zijn wat ze zijn.
* Het beschrijven van 1 variabele
1) a.d.h.v. tabellen
2) a.d.h.v. kengetallen
(3) Combinatie van figuur en kengetallen)
4) a.d.h.v. figuren
1ste beschrijven en daarna relateren
1) Adhv tabellen
a. Frequentie tabellen:
De simpelste manier om data weer te geven in tabellen.
- Frequentie = f(X)
Hoe vaak komt een score (X) voor?
Bv. de frequentie van 77 is 3 f(X=77) = 3 (dus het punt 77 komt 3 keer voor)
tabel als je de frequentie f(X) zou nagaan van elke score (X)
- Relatieve frequenties of proporties = p(X)
De frequenties f(X) delen door het aantal observaties (= alle cijfers f(X) optellen = n)
DUS: p(score) = f(X) / n = kommagetal = %
Bv. de score (X) 77 komt 3 keer (frequentie) voor, in totaal zijn de punten van 30 verschillende leerlingen
geobserveerd dus doe je 3 gedeeld door 30 = 0,1
p(77) = 3/30 = 0,1 = 10% 10% van de studenten heeft 77 behaald
4