Statistiek 2
0. Prolegomena
0.1. Statistiek, psychometrie en methodologie
Een onderzoeker wenst een of meerdere onderzoeksvragen te beantwoorden.Deze vragen
hebben betrekking op een bepaalde populatie. Hiertoe zal de onderzoeker data verzamelen
in een specifieke steekproef die min of meer representatief zal zijn voor de beoogde
populatie.
➔ Het is de taak van de methodologie om te bepalen hoe de steekproef samengesteld
wordt en welk soort van onderzoeksdesign het meest geschikt is om een antwoord te
bieden op de onderzoeksvragen.
➔ Het is de taak van de psychometrie om te bepalen hoe de veriabelen het best kunnen
gemeten worden.
➔ Het is de taak van de statistiek om via een aantal technieke de gegevens in de
steekproef te beschrijven, ondenen, te representere en samen te vatten.
(inductieve statistiek bestaat uit technieken om observaties (steekproef) te
veralgemenen naar de populatie
0.2. Variabelen
= een eigenschap die bij de elementen van de populatie of van de steekproef variëeren.
- Een variabele kan numeriek of niet-numeriek zijn vb man/vrouw OF 1/2
- Een variabele kan continue of discreet zijn.
- Een variabele word aangeduid door een hoofdletter vb X
(de waarnemingen van die variabele zijn een kleine letter vb x)
0.3. Meetniveaus
Absolute schaal
= gewoon de objecten of mensen tellen. Vb gezinsgrootte
- Meeteenheid EN nulpunt is vast
- Variabele is discreet.
Ratio
= eerst een meeteenheid kiezen, daarna moet je het aantal meeteenheden tellen tussen het
te meten object of nulpunt. Vb leeftijd
- Meeteenheid en nulpunt is vast
- Variabele is continu
Interval
= eerst een meeteenheid of referentiepunt kiezen, daarna moet je het aantal meeteenheden
tellen tussen het te meten object of referentiepunt. Vb temperatuur
- Er is geen absoluut nulpunt
- Variabele is continu
, Ordinaal
= je kan de te meten objecten ordenen maar geen meeteenheid definiëren. Vb punten
- Variabele is continu OF discreet
Nominaal
= je kan de te meten objecen niet ordenen. Vb postcode
- Variabelen zijn NIET discreet of continu
- Dichotome variabelen (slechts 2 variabelen vb man/vrouw)
Opmerking!!
- Technieken voor ratio en interval zijn identiek omdat ze beide onder noemer van
“continue” vallen. MAAR dat is niet 100% juist omdat ordinale variabelen ook continu
kunnen zijn.
- Sommige technieken voor nominaal worden ook gebruikt voor ordinaal omdat ze samen
ze beide onder noemer van “categorisch” vallen.
0.4. Zinvolheid
Een bewering of uitspraak is zinvol als
= als waarheidswaarde onafhankelijk is van de meetschaal dat je gebruikt.
- indien de bewering correct is met een bepaalde schaal, dan blijft ze correct met een
andere schaal.
- Indien de bewering fout is met een bepaalde schaal, dan blijft ze fout met een andere
schaal.
Vermijden van zinloze beweringen?
= opletten bij het manipuleren van scores!
Bij nominaal en ordinaal mag je GEEN bewerkingen uitvoeren met scores!
Bij interval met je ENKEL optellen en aftrekken.
- Vermenigvuldigen en delen is riskant!
Enkel de afwijkingen mag je delen en vermenigvuldigen!
- Logaritmes zijn VERBODEN!
Bij ratio zijn er BIJNA geen restricties
Bij absoluut meetniveau zijn er geen restricties.
(zinloze beweringen zijn hierbij onmogelijk!)
,1. Data manipulatie
1.1. De data in R
c = vector (reeks objecten dat als 1 samengesteld object word beschouwd in R)
Vb
>leeftijd <- c(18,22,17,19,19)
Het commando c(18,22,17,19,19) creëert een object dat bestaat uit
- 5 getallen
- Het pijltje <- kent de naam “leeftijd” toe aan het object
- Het object “leeftijd” wordt in het geheugen van R gestop en kan daarna gebruikt worden
1.1.1. R en de meetniveaus
String=
Een reeks tekens zonder betekenis voor R vb ABC1V (niet numeriek)
Moet ALTIJD tussen aanhalingstekens staan indien letters, nummers mag je KIEZEN.
Vb
Postcode <- c(“9000” , “2500”, “8400”) (je mag eventueel de aanhalingstekens weglaten)
Als je een vector aanmaakt met het commando:
Roker <- c(“ja” , “neen” , “ja”)
➔ Dan weet R automatisch dat de 3 waarden van de variabele “roker” van ordinaal of
nominaal meetniveau zijn.
➔ R weet dat strings niet numeriek zijn
➔ R zal geen gemiddelde kunnen berekenen:
> mean(roker)
[1] NA
, Om te vermijden dat R toch numerieke ordinale of nominale waarden gaat berekenen (vb
tramnummers), moeten we R zelf laten weten dat de waarden ordinaal of nominaal zijn.
> tramnummer <- factor( c(1, 21, 22, 4, 21, 1, 4)
➔ “factor” laat R weten dat numerieke waarden als niet-numeriek mogen worden
beschouwd
➔ R zal daarna een foutmelding geven als je berekeningen wil doen.
Levels=
Een lijst van de verschillende (unieke) waarden in de vector.
Vb
> tramnummer
[1] 1 21 22 4 22 21 1 4
Levels: 1 4 21 22
Als je een vector wil aanmaken met waarden van een ordinale variabele, dan gebruik je
ook het commando “factor” maar zeg je ook wat de volgorde is “levels” en dat het over
een ordinale variabele gaat met “ordened”.
Vb
>uitslag <- factor( c(“brons”, “goud”, “goud”, “brons”, “zilver”, “brons”, “brons”, “brons”,
“brons”), levels= c( “brons”, “zilver”, “goud”), ordened = TRUE)
Als je de naam van de vector typt dan krijg je de vector te zien, maar ook de lijst van de
levels en hun volgorde. (soms is de volgorde belangrijk)
Vb output
> uitslag
[1] brons goud goud brons zilver brons brons brons
Levels: brons < zilver < goud
1.1.2. Data frames
= “data.frame”
= wordt gebruikt als we meerdere vectoren hebben (dus meerdere variabelen)
= zo weet R dat de waarden van een vector telkens van eenzelfde steekproef zijn
Vb (tabel maken van alle variabelen per deelnemer)
>myData <- data.frame (score, iq , motivatie, geslacht, roken, opleiding, gewicht, lengte)
Het commando “myData” staat voor alle waarden die telken bij de variabele horen binnen
de data frame. Je kan ze opvragen door “myDate” te type.
Vb