OIMB
Hoorcollege 1
College
- Data kan vrijwel alles mee bewezen worden wat men wil bewijzen. Er moet daarom kritisch
gekeken worden naar data.
- Initiële observatie Theorie Hypothese Dataverzameling Analyse Uitspraak
(inference).
- Stappen in onderzoek:
1. Identificeren van de afhankelijke variabele. (Meningen over migratie, dit is attitude-
meting.)
2. Bepalen van de mate van spreiding (variantie).
3. Zoeken naar factoren die deze spreiding mogelijk kunnen verklaren. (Mate van geluk,
angst voor misdaad.)
4. Modellen opstellen die deze spreiding kunnen wegnemen.
- Twee soorten statistiek:
o Beschrijvende statistiek: Gaat over de gehele populatie. Iedereen wordt onderzoek.
o Verklarende statistiek: Steekproef nemen, waarmee men iets zegt over de populatie. Uit de
populatie selecteert men een steekproef waarmee men uitspraken doet over de populatie.
- Datamatrix: Basis van de statistische analyse. Matrix met getallen. In kolommen staan variabelen.
In de rijen staan de onderzoekseenheden (bijv. personen). Hieraan worden scores gegeven. Dit
zijn altijd cijfers, je kunt geen woorden invoeren in een datamatrix. Deze cijfers kunnen staan
voor bijv. geslacht.
- Codeboek: Controleren waarvoor de cijfers in de datamatrix staan.
- Typen gegevens/data:
o Kwalitatieve gegevens (categorisch)
Nominaal meetniveau (geslacht, nationaliteit)
Ordinaal meetniveau (opleidingsniveau)
o Kwantitatieve (continue)
Interval meetniveau (IQ, temperatuur)
Ratio meetniveau (inkomen, leeftijd). Er is een BETEKENISVOL nulpunt.
- Bij nominale gegevens is er vaak weinig spreiding, door bijv. een ja/nee vraag. Spreiding is er dan
niet.
- Er moet gekeken worden wat de beste vraag is, maar ook wat de beste gegevens oplevert.
Interval kan een betere vraag zijn, maar slechtere resultaten opleveren als nominaal.
- Eerste stap: Maken van een frequentietabel: Scores op de meetschaal weergeven en daarbij
vermelden hoe vaak deze scores voorkomen. Er wordt de frequentie, percentage, cumulatieve
percentages enz. genoemd.
- Eigenschappen van data:
o Centrale tendentie (locatie)
o Spreiding (variantie)
o Vorm
,- Centrale tendentie: Centrummaten.
o Modus: Meest voorkomende waarneming.
o Mediaan: Middelste getal.
o Gemiddelde
Maat Populatie Steekproef Type data
Modus - - Nominaal, Ordinaal, Interval, Ratio
Mediaan M m Ordinaal, Interval, Ratio
Gemiddelde µ X̄ Interval, Ratio
- Spreiding (variantie):
o Bereik/range: Verschil tussen de hoogste en laagste score.
o Interkwartiel range: Waar middelste 50% van de waarneming zitten. Zo is men de
extremen aan beide zijden kwijt. (Kan weergegeven worden in boxplot.)
o Variantie
o Standaarddeviatie: Relatieve afstand tot het gemiddelde. Deze afstanden zijn
gekwadrateerd.
Maat Populatie Steekproef Type data
Bereik - - Ordinaal, Interval, Ratio
Interkwartiel range IQR IQR Ordinaal, Interval, Ratio
Variantie σ2 s2 Interval, Ratio
Standaarddeviatie σ s Interval, Ratio
- Stappen voor het berekenen van de interkwartiel range:
1. Maat voor spreiding in de middelste 50% van de waarnemingen (rondom de mediaan).
2. Verdeelt data in vier kwarten:
3. Interkwartiel afstand = Q3 – Q1
- Betekenis standaarddeviatie: Gaussian distribition.
- Standaarddeviatie uitrekenen:
√
n
o Populatie: ∑ ( x i− x̄)2
i =1
σ=
n
√
n
o Steekproef: ∑ ( xi − x̄)2
i=1
s=
n−1
- Z = Gestandaardiseerde score. Hierbij wordt
het aantal standaarddeviaties aangegeven.
x −μ
Z=
σ
- Scheefheid van de verdeling:
- Kurtosis: Spitsheid van de verdeling.
, - Werken met de normale verdeling: Klokvormig en
symmetrisch. Gemiddelde, mediaan en modus zijn gelijk.
Verder heeft het (in theorie) een oneindige range.
Hoofdstuk 1
- The research process:
- Initial observation: Iets vinden dat uitleg nodig heeft.
- Theory: Uitleg of een set van principes die goed onderbouwd zijn door herhaling van testen en
een breed begrip verklaren.
- Hypothesis: Voorgestelde uitleg van een betrekkelijk nauw begrip of set van observaties.
- Variabelen: Dingen die kunnen veranderen of variëren. Deze kunnen verschillen tussen mensen,
locaties of tijd. Om hypotheses te testen zijn er meetbare variabelen nodig. De meeste
hypotheses kunnen worden verklaard in termen van twee variabelen: Een voorgestelde oorzaak
en een voorgesteld gevolg.
- Onafhankelijke variabele: Een variabele waarvan we denken dat het de oorzaak is. Zijn waarde
hangt niet af van andere variabelen.
- Afhankelijke variabele: De waarde van deze variabelen hangt af van de oorzaak.
- Meetniveaus: Nominaal, Ordinaal, Interval, Ratio.
- Validiteit: Of een instrument meet wat het moet meten.
- Betrouwbaarheid: Of een instrument gebruikt kan worden in verschillende situaties en het
nauwkeurig is.
- Histogram: Een grafiek waarin staat hoe vaak elke score voorkomt. De verschillende soorten
observaties op de horizontale as en de frequentie op de verticale as.
- Twee manieren waarop een verdeling kan verschillen van de normaalverdeling:
o Skew (scheef): De symmetrie is anders en is geclusterd aan één uiteinde van de schaal.
Positief scheef: De scores zijn geclusterd aan het begin, staart zit aan het einde.
Negatief scheef: De scores zijn geclusterd aan het einde, staart zit aan het begin.
o Kurtosis (spitsheid):
Leptokurtic: Een spitste, puntige verdeling.
Platykurtic: Een platte verdeling.
- Centrale tendentie: Het meten van centrummaten:
o Modus: Score die het meeste voorkomt in een dataset.
o Mediaan: Middelste getal als de scores in volgorde staan.
n
o Gemiddelde:
∑ xi
i =1
X̄ =
n
- Afwijking: Deviance=x i− x̄