Samenvatting OIM-B
Hoorcollege 1 Hoofdstuk 1 en 4
Conceptuele achtergronden:
- cijfers spreken nooit voor zich
- initiële observatie → theorie → hypothese → dataverzameling → analyse → uitspraak over
de initiële observatie (inference).
VB: migratie
stap 1; identificeren van afhankelijke variabele. wat je wil gaan verklaren,
stap 2; bepalen van de mate van spreiding. mensen moeten er verschillend over denken
stap 3; opzoek naar factoren die deze spreiding kunnen verklaren. (vb: mate van geluk, angst
misdaad)
stap 4; modellen opstellen die deze spreiding kunnen wegnemen.
Soorten statistiek:
- beschrijvende statistiek: gehele populatie onderzoeken.
- verklarende statistiek: niet de gehele populatie, er is een steekproef, op basis daarvan ga je
uitspraken doen over de populatie. probleem hierbij is onzekerheid.
Begin altijd met een datamatrix. In de kolommen staan variabelen en analyse eenheden.
In een datamatrix staan alleen getallen. deze getallen worden uitgewerkt in een codeboek.
Verschillende meetniveau’s van data:
1. kwalitatieve gegevens, categorisch.
a. nominaal meetniveau. De getallen hebben geen verhouding en geen rangorde
- (geslacht, nationaliteit).
b. ordinaal meetniveau. Er is wel rangorde, maar geen verhouding tussen de getallen
- (opleidingsniveau).
De afstanden tussen de data hebben geen betekenis. hier kun je in de statistiek niet zoveel mee.
2. kwantitatieve gegevens, continue.
a. interval meetniveau. Wel rangorde en ook verhouding, maar geen nulpunt
- (IQ, temperatuur)
b. ratio meetniveau. Wel rangorde, verhouding en ook nulpunt. Iets is x meer dan het ander
- (inkomen, leeftijd).
De afstanden blijven gelijk en hebben een betekenis.
,Eigenschappen van kwantitatieve data: dia 24.
- Centrale tendentie → data heeft de neiging om zich te concentreren rondom een bepaald
punt. Dus, daar waar de meeste scores zitten.
o Gemiddelde: scores optellen / aantal waarnemingen. Data nodig: I, R
o Mediaan: middelste waarneming. Er moet rangorde zijn: O, I, R
o Modus: meest voorkomende score. Kan bij alles: N, O, I, R
- Variatie, spreiding → data heeft de neiging zich te spreiden rondom het centrale punt
o Bereik: verschil tussen de laagste en hoogste waarde (range). Een zwakke maat,
want je weet niets over de spreiding en er zijn uitschieters.
o Interkwartiel range → orden alle waarnemingen van laag naar hoog en dan pak je de
middelste 50%, vanaf Q1 t/m Q3. Boxplot.
o Variantie → het kwadraat van de standaarddeviatie
o Standaarddeviatie → je pakt van iedereen de individuele waarneming en kijkt
hoever die van het gemiddelde ligt. Deze afstand doe je in het kwadraat. Die tel je
allemaal bij elkaar op en dit deel je door (n – 1). Van dit getal neem je de wortel.
- Vorm → hoe is de data verdeeld?
o Scheefheid:
▪ Maat = skewness
▪ Symmetrische verdeling is ideaal: gemiddelde = modus = mediaan
▪ Gevolgen scheve verdeling:
➢ Gemiddelde wordt opgetrokken
➢ Spreiding wordt opgerekt
o Spitsheid:
▪ Maat = kurtosis
,De normale verdeling:
- is klokvormig, symmetrisch
- gemiddelde, mediaan en modus zijn gelijk
- heeft (in theorie) een oneindige range
Van frequentie- naar kansverdeling
- frequentieverdeling = een overzicht van de mogelijke scores en hoe vaak deze scores
voorkomen
- kansverdeling = overzicht van de mogelijke scores en de kans op die scores
Kansen onder de normale verdeling
Z-score kan iets zeggen over hoe waarschijnlijk iets is.
x−μ
Z=
σ
Hele normale verdeling kan je vertalen naar Z-score,
gemiddelde is dan altijd 0 en standaarddeviatie is 1.
De Z-score kan je ook opzoeken achterin het boek.
, Hoorcollege 2 Hoofdstuk 2
Centrale limiet stelling betrouwbaarheidsintervallen
Inductieve statistiek betreft schatten, het doel is beslissing nemen over bepaalde kenmerken van een
populatie.
Schattingsproces:
1. Populatie vaststellen
2. Steekproef trekken
3. Steekproef waarde vaststellen
4. Schatten door analyse
Als je een gemiddelde wil uitrekenen, heb je niks aan ordinaal meetniveau, waarbij de stapgrootte
niet gelijk.
Steekproevenverdeling:
1. Basis voor schatten en toetsen van hypothese
2. Theoretische kansverdeling
3. Random variabele is steekproefwaarde
a. Steekproefgemiddelde, steekproefproportie, etc
4. Resultaten van het trekken van alle mogelijke steekproeven van een vaste omvang
5. Lijst van alle mogelijke [𝑥̅ , P(X) ] paren
a. Steekproevenverdeling van het gemiddelde
Uiteindelijk zullen we op basis van steekproevenverdelingen hypotheses gaan toetsen, Hypothese-
toetsing volgende hoorcollege.
Wat is een steekproevenverdeling? Het is een theoretische kansverdeling die iets zegt over onze
steekproef. Waarom een kansverdeling? Omdat het van toeval afhangt welke mensen wij bijv gaan
ondervragen over een steekproef betreffende inkomens. Oftewel, het is een stochastische variabele.
Met een steekproevenverdeling kunnen wij populatieparameters schatten. Een parameter is een
numeriek beschrijvende maat van een populatie. Een steekproefparameter/grootheid/waarde is een
numeriek beschrijvende maat van een steekproef.
Stel dat we een gemiddelde willen bepalen van alcoholconsumptie. Populatie gemiddelde, die weten
we niet. Deze gaan we dus schatten adhv een steekproef waarbij we xstreep uitrekenen.
Ik kan deze steekproef blijven herhalen totdat ik uiteindelijk een verdeling krijg van al mijn
gemiddeldes betreffende de alcoholconsumptie. Als ik al mijn resultaten in een histogram zet dan
kijg ik een steekproevenverdeling.
Ik kan dit van het gemiddelde doen, maar ik kan dit natuurlijk ook met de mediaan doen, of de
std.dev.
Ontwikkelen van steekproefverdeling:
Maat Populatie Steekproef
Gemiddelde 𝜇 𝑥
Variantie σ2 s2
Standaarddeviatie σ s
Random is hetzelfde als stochast.