Statistiek 1A les 1 12/09/2022
Operationalisatie de manier waarop de kenmerken bij de onderzoekseenheden worden gemeten.
Het is het vertalen van een abstract theoretisch begrip naar meetbare gegevens. E.g. geheugen is
geoperationaliseerd als het gemiddeld aantal getallen dat onthouden is in een geheugentest. Je moet
bij operationalisatie nagaan of het omvat wat je wilt onderzoeken, hoe je operationalisatie zich
verhoudt tot die van andere onderzoekers, of er een standaard manier is om je variabele te
operationaliseren en of je operationalisatie eenvoudig meetbaar is.
Als we een variabele gaan meten, dan kiest de gebruikter/onderzoeker het meetniveau van
de variabele. Algemene regel is dat je dan het hoogst mogelijk zinvolle (waar je mediaan modus of
gemiddelde van kan berekenen) meetniveau kiest. Het gekozen meetniveau bepaalt een aantal zaken
namelijk welke vragen zinvol te stellen zijn over de data, welke statistics zinvol zijn om te berekenen
en welke grafische weergaven zinvol zijn om te maken.
Er zijn dus verschillende meetniveaus. De laagste is nominale schaal, hiertoe behoren ongeordende
categorieën zoals geslacht of politieke voorkeur. Een stap hoger is de ordinale schaal, hiertoe
behoren geordende categorieën. Deze kan je opdelen op een rangorde (erg slecht, voldoende, erg
goed). Het hoogste meetniveau is de interval/ratio schaal, deze wijst scores to op een schaal met
kwantitatieve informatie. De uitkomsten van berekeningen zijn zinvol te interpreteren, e.g. de
gemiddelde score op een toets is 5.2 Met kwantitatieve informatie kunnen we berekeningen doen.
Broers of zussen ratio. Waarom? Omdat er een 0 in zit.
Hoeveel sigarreten rook je per dag? Kies uit 0, 1-2, 3-6, 7 of meer ordinaal. Waarom? Rangorde.
Wat is je lievelingskleur? Nominaal. Waarom? Ongeordende categorie.
Hoe tevreden ben je op een schaal van extreem ontevreden (0) tot extreem tevreden (9)?
ordinaal.
Een ander belangrijk kenmerk is of de data discreet of continu is.
Discrete variabelen getallen ertussenin hebben geen betekenis e.g., 2.5 broers/zussen is niet
mogelijk, 2 en 3 zijn wel mogelijke antwoorden.
Continue data getallen ertussenin hebben wel betekenis e.g., hoe lang ben je? Alle positieve
reële getallen zijn zinvolle antwoorden.
Deze twee meetniveaus zijn gerelateerd aan elkaar maar zijn niet hetzelfde. De lagere meetniveaus
(nominaal en ordinaal) zijn vaak discreet. Interval en ratio variabelen kunnen beiden zijn. Houd
rekening dat als je data verzameld, welk meetniveau heb je, is het discreet of continu en hoe kan je
dit weergeven.
De rij van data is niet informatief. Wat je wel kan doen is een plaatje maken (grafische weergave) of
getallen berekenen als gemiddelde, SD en spreiding (numerieke samenvatting van data). Hoe je dit
samenvat hangt af van het meetniveau van je variabele. Nominale of ordinale data wordt
weergegeven in een taart of staafdiagram. Op een hoger meetniveau, interval of ratio, kunnen we
een histogram of stemplot maken.
Er zijn verschillende soorten histogrammen. Histogram is een voorbeeld van een grafiek. In een
histogram is elke staaf een klasse. Er is een klasse voor elke range van getallen in de data. Alle
klassen hebben dezelfde breedte. De hoogte van de klasse is het aantal waarnemingen in de klasse
en er zit geen ruimte/gaten tussen de klassen (dit is een verschil met een staafdiagram).
,Grafieken helpen met het begrijpen van de data en om meer inzicht te krijgen in de data. Bij elke
grafiek moet je altijd kijken naar het algemene patroon en naar opvallende afwijkingen van het
patroon. Kijk naar het centrum van de data, ophopingen/clusters van data, naar de spreiding (spread)
en symmetrie van de verdeling (shape, outliers).
Als we iets willen zeggen over het centrum van de data, dan kijken we naar de mediaan of het
gemiddelde. Voor ophoping kijken we naar de modus. Voor de spreiding kijken we naar de range,
variantie, standaarddeviatie en de interquartile range (IQR). Om te zien of de verdeling symmetrisch
is kijken we naar de vorm en specifiek naar outliers.
Central tendency centrum van de data. Mediaan geeft het middelste getal in de data set. Als de
verdeling symmetrisch is, dan ligt de mediaan in het midden en is hetzelfde als het gemiddelde.
Modus is het meest voorkomende getal, een clustering van de data.
Centrum: mean/gemiddelde. Het steekproefgemiddelde is de meest belangrijke centrummaat
(measure of central tendency). Dit is het punt waarbij de som van alle afwijkingen gelijk is aan 0. Het
gemiddelde kan gezien worden als een ‘balanspunt’ van de steekproef. Het gemiddelde van de
waarnemingen wordt vaak weergegeven als x met normaal een streep erboven. Een
enkele waarneming wordt vaak weergegeven als x i. De formule van het gemiddelde
Spreiding van de data. Hoe verschillend zijn de waarnemingen van elkaar? De range wordt berekend
door de max – min te doen. Daarnaast kunnen we de variantie, standaarddeviatie en IQR berekenen.
Variantie. Dit is altijd de afwijking ten opzichte van het gemiddelde. We berekenen voor elke
waarneming xi – x. Het maakt niet uit of de afwijkingen positief of negatief zijn, dus we nemen hier
het kwadraat van. We nemen ongeveer het gemiddelde want we delen door n-1. Waarom niet door
n? Als we door n-1 delen krijgen we een meer nauwkeurige schatting (verder hoef je dit
niet te weten). Zo krijgen we ongeveer het gemiddelde. De formule voor de variantie s 2 is:
Hierna kunnen we de standaarddeviatie berekenen door de wortel van de formule te berekenen (we
hebben liever oorspronkelijke eenheden dan gekwadrateerde eenheden zoals s 2). Dit heeft als
voordeel dat we dan een uitspraak kunnend doen over de internen van de oorspronkelijke data. De
variantie ligt gebalanceerd rond het gemiddelde.
Linksboven symmetrische verdeling betekent dat het gemiddelde gelijk is
aan de mediaan. Dan zie je dat de spreiding iets, maar niet extreem groot is.
Rechtsonder twee toppen in de data, hier is de spreiding veel groter.
Rechtsboven data voornamelijk aan de linkerkant, spreiding zit om het
gemiddelde maar dus meer aan de linkerkant waar het gemiddelde ook is
(skewed to the right).
Linksonder data meer naar de rechterkant, spreding redelijk rond het
gemiddelde maar meer naar de rechterkant van de grafiek waar het
gemiddelde ook is (skewed to the left).
IQR is de interquartile range. Q1 is de mediaan van de laagste 50% van de waarnemingen. Q2 is de
mediaan van de waarnemingen. Q3 is de mediaan van de hoogste 50% van de waarnemingen. IQR is
de range van de middelste 50% van de data, dus van Q1 tot Q3. Als er meer spreiding is, dan word de
boxplot langer, de afstand tussen Q1 en Q3 word dan groter.
We kunnen elke verdeling weergeven met de five number summary. Hierin zitten het minimum, Q1,
Q2, Q3 en het maximum. Dit kunnen we ook grafisch weergeven in een boxplot. Deze geven een snel
overzicht van belangrijke kenmerken van een steekproef.
,Outliers/uitbijters handig om vast te stellen omdat ze heel veel invloed kunnen hebben op
analyses en ook op de conclusies die je trekt. Ze horen erbij en zijn heel interessant en van groot
belang voor de conclusie die je trekt. Hoe kun je ze vinden? Daar kun je histogram en boxplot bij
gebruiken. Er is ook een beslis regel 1,5 x IQR. Een waarneming die verder afligt als 1.5xIQR onder
1ste kwartiel of boven 3e kwartiel is een outlier. IQR is het verschil tussen 1 en 3 kwartiel. Deze regel is
geen harde beslisregel, je moet vooral eigen inzicht gebruiken.
Conclusie. Als je socres van variabelen hebt verzameld dan inspecteer je de data voor elke variabele:
- Grafisch
- Numeriek/samenvattingsmaten
o Centrum: median, mean, mode
o Spreiding: range, variantie, standaarddeviatie, IQR
o Vorm: outliers
, Statistiek 1A les 2 16/09/2022
Lineaire transformaties we willen een originele variabele X veranderen/transformeren naar een
nieuwe variabele Xnieuw. Hier is een standaard formule voor Xnieuw = a + bX.
X is de scores van alle proefpersonen op variabele X.
a is een optelconstante.
b is een vermenigvuldigingsconstante.
Deze formule kun je gebruiken bij omrekenen, bijv. bij omrekenen van euro’s naar guldens of bij IQ.
Effect van een lineaire transformatie op de verdeling van X:
- Effect op gemiddelde van X:
- Effect op standaarddeviatie van X:
Lineaire transformaties veranderen de vorm van een distributie niet, maar het veranderd de waarde
van het gemiddelde en de spreiding wel!.
Voorbeeld van IQ: X is het aantal vragen goed beantwoord op een test met in totaal 80 vragen. Kan je
met die test (met minder vragen dan het normale aantal van 100 vragen) iets zeggen over de
normale test met 100 vragen? Dit kan maar dan moeten we de scores aanpassen. Voor deze
transformatie komen we uit op een nieuwe formule: IQ = 2X + 20. Als we dan het gemiddelde en de
standaarddeviatie van de nieuwe getransformeerde variabele IQ wat willen weten moet dat met de
formules die hierboven staan. Als gegeven is dat het
gemiddelde van X 41.5 is en de standaarddeviatie s x
is 7.0 dan geeft dit voor IQ:
Voorbeeld 1.
Nieuwe test met 80 vragen i.p.v. normale 100. X variabele is aantal vragen goed. Score kan tussen 0-
80 zijn. Als je van je max score 80 naar gemiddelde van 100 wil gaan, zal je transformaties moeten
toepassen. Dat doen we door 2X + 20. In de data set is de gemiddelde score 41.5 en de
standaarddeviatie 7.0. Wat weten we nu over gemiddelde en de standaarddeviatie van nieuwe
getransformeerde variabele IQ? Na die formules kom je uit op 103 als gemiddelde en 14.0 als
standaarddeviatie. Nu zitten we dicht bij het gemiddelde van 100 en standaarddeviatie 15 maar niet
precies nog (dat is de normale verdeling). Dit is dus niet precies genoeg. Dat gaan we doen door het
probleem om te keren.
Voorbeeld 2.
Lineair transformeren van ruwe testscores in IQ scores (met gem. 100 en sd. 15).
- Gegeven: ruwe testscores met gemiddelde 20 en standaarddeviatie 7.5.
- Gevraagd: lineare transformatie van ruwe testscore (X) naar IQ score (Z) met gemiddelde 100
en standaarddeviatie 15.
Uitwerking:
In het bovenste histogram zie je een gemiddelde van 20 en een
standaarddeviatie van 7.5. Als we de nieuwe variabele Y
opstellen, wat gebeurt er dan? Het gemiddelde wordt 40 (deze