Inleiding Statistiek MTO-B TiU
Statistics for the Behavioral Sciences - Gravetter
MechteldC
Samenvatting Inleiding Statistiek
Opmerkingen vooraf
- Alle hypothesetoetsen zijn oranje g
ekleurd,
- Om dit vak te halen is het leren van deze samenvatting niet genoeg. Het is belangrijk
om te oefenen en opgaven te maken.
-Hoofdstuk 1 - Introductie tot de Statistiek-
Statistiek is een set van wiskundige procedures voor het organiseren, samenvatten en
interpreteren van informatie. Het dient voor 2 zaken:
1. Statistiek wordt gebruikt om informatie te organiseren en samen te vatten zodat de
onderzoeker kan zien wat er gebeurd is in het onderzoek en de resultaten naar anderen
kan communiceren.
2. Statistiek helpt de onderzoeker om de onderzoeksvragen te beantwoorden d oor de
algemene conclusie te trekken, gebaseerd op de verworven resultaten.
Een populatie is een set van alle individuelen die gebruikt kunnen
worden voor een onderzoek (bijv vrouwelijke studenten). Een
sample/steekproef is een set individuelen die geselecteerd wordt uit
een populatie, meestal is het de bedoeling dat deze de populatie
vertegenwoordigt. Een variabele is een eigenschap of conditie die
verandert of verschillende waarden heeft voor verschillende
individuelen (bijv hoogte, gewicht, temperatuur, tijdstip op de dag). Een
onafhankelijke variabele is de gemanipuleerde variabele. De
afhankelijke variabele wordt geobserveerd om het effect van de
behandeling te meten. Data zijn metingen of observaties. Een data set
is een collectie van metingen of observaties. Een datum is een enkele meting of observatie en
wordt meestal een score of een ruwe score g enoemd. Een parameter is een (numerieke)
waarde die een een populatie beschrijft, bijvoorbeeld de gemiddelde score van een populatie.
Deze wordt vaak afgeleid van metingen van de individuelen in de populatie. Een statistiek is
een (numerieke) waarde, die een sample beschrijft. Deze wordt vaak afgeleid van metingen van
de individuelen in de sample.
Er zijn twee soorten statistiek:
1. Beschrijvende statistiek: wordt gebruikt om een kwantitatieve (in cijfers) samenvatting,
organisatie of versimpeling te maken van informatie/data. Denk aan: summary statistics,
gemiddelde, mediaan, modus, variantie, etc.
1
, Inleiding Statistiek MTO-B TiU
Statistics for the Behavioral Sciences - Gravetter
MechteldC
2. Inferentiële statistiek: statistiek die je gebruikt om op basis van
data (een steekproef) inferenties (conclusies) te maken over een
meer algemene situatie (de populatie). Denk aan: sampling error,
standaard fout, schatten, confidence intervals, etc. Dit is de
statistiek waar dit vak het meest over zal gaan.
Sampling error is een natuurlijke discrepantie of fout die bestaat tussen
een sample statistiek en de corresponderende populatie parameter. Ook
moeten we rekening houden met de onzekerheid dat je bij iedere nieuwe
random steekproef een nieuw resultaat kunt krijgen (steekproeffluctuaties).
Er zijn 2 onderzoeksmethoden:
1. Correlationele methode: twee verschillende variabelen worden geobserveerd om te
bepalen of er een relatie is tussen de twee.
2. Experimentele methode: één variabele wordt gemanipuleerd, de andere wordt
geobserveerd en gemeten. Om een oorzaak-gevolg relatie vast te stellen, probeert het
experiment alle andere variabelen gelijk te houden, om te voorkomen dat ze de
resultaten beïnvloeden. Er zijn twee categorieën van variabelen die de onderzoeker in
de gaten moet houden:
a. Participantvariabelen: eigenschappen zoals leeftijd, gender en intelligentie.
Deze moeten ongeveer gelijk zijn voor beide groepen.
b. Omgevingsvariabelen: de eigenschappen van de omgeving zoals belichting,
tijdstip en weersomstandigheden. De omgeving moet voor beide condities gelijk
zijn.
Om te controleren voor andere variabelen zijn er 3 technieken:
a. Random assignment: iedere deelnemer heeft gelijke kans om toegewezen te
worden aan elk van de condities, hierdoor worden de groepen redelijk gelijk.
b. Matching: bijvoorbeeld door ervoor te zorgen dat iedere conditie 60% man heeft
en 40% vrouw.
c. Holding them constant: bijvoorbeeld door alleen 18-jarige vrouwen te
gebruiken (leeftijd en gender constant).
Individuelen in de controleconditie krijgen geen behandeling; ze krijgen niks of een
placebo behandeling. Hierdoor ontstaat een baseline om te vergelijken met de
experimentele conditie. Deze groep krijgt wel een experimentele behandeling.
Een non-equivalent study is een studie waarin de verschillende groepen worden
gevormd zonder dat de onderzoeker daar iets aan kan doen, waardoor de toewijzing niet
equivalent is. Dit is daardoor geen écht experiment. Een pre-post study is een
quasi-experimentele studie die bestaat uit een serie observaties over de tijd. Het doel is
om het effect van een behandeling te meten door voor en na deze behandeling te
meten. In een non experimental study wordt de onafhankelijke variabele vaak de
quasi-afhankelijke variabele genoemd.
2
, Inleiding Statistiek MTO-B TiU
Statistics for the Behavioral Sciences - Gravetter
MechteldC
Constructen zijn interne attributies of eigenschappen die niet direct geobserveerd kunnen
worden maar nuttig zijn voor het beschrijven en uitleggen van gedrag. Een operationele
definitie identificeert een meetprocedure (een set van operaties) voor het meten van extern
gedrag en gebruikt de resulterende metingen als een definitie en meting voor een hypothetisch
construct.
Het meetniveau van een variabele bepaalt wat voor betekenis de nummers die we toewijzen
hebben. De niveaus zijn cumulatief; elk niveau heeft de eigenschappen van de vorige niveaus.
Het meetniveau van een random variabele bepaalt wat voor analyses je er beter wel/niet op kan
uitvoeren. Er zijn 4 niveaus:
1. Nominale variabelen:
a. Toewijzen van mutueel exclusieve getallen aan de mutueel exclusieve
uitkomsten. Bijv, geslacht: man, vrouw (0, 1) , nationaliteit: Nederlands, Duits,
Grieks, Pools, etc. (0, 1, 2, 3, etc.).
2. Ordinale variabelen
a. Toewijzen van mutueel exclusieve getallen aan de mutueel exclusieve
uitkomsten.
b. Er is een betekenisvolle ordening in de mogelijke uitkomsten.
i. Bijv. dosering: laag, medium, hoog, (0, 1, 2)
ii. Likert schalen: zeer oneens, oneens, neutraal, mee eens, zeer eens (0, 1,
2, 3, 4). Dit is geen interval, omdat je niet zeker weet dat de afstand
tussen de antwoorden precies gelijk is. Toch wordt het in de praktijk vaak
als interval gezien.
3. Interval variabelen
a. Toewijzen van mutueel exclusieve getallen aan de mutueel exclusieve
uitkomsten.
b. Er is een betekenisvolle ordening in de mogelijke uitkomsten.
c. De intervallen tussen elk van de geordende uitkomsten is betekenisvol en
dezelfde grootte.
i. Bijv temperatuur in graden Celsius
4. Ratio variabelen
a. Toewijzen van mutueel exclusieve getallen aan de mutueel exclusieve
uitkomsten.
b. Er is een betekenisvolle ordening in de mogelijke uitkomsten.
c. De intervallen tussen elk van de geordende uitkomsten is betekenisvol en
dezelfde grootte.
d. “Absoluut nulpunt”: Een nul betekent dat de gemeten eigenschap afwezig is
i. Bijv lengte in cm (0 cm → geen lengte).
Er zijn twee soorten variabelen:
- Discrete random variabelen: bestaan uit aparte, ondeelbare en
telbare categorieën. Er kunnen geen waarden zijn tussen twee nabije
3
, Inleiding Statistiek MTO-B TiU
Statistics for the Behavioral Sciences - Gravetter
MechteldC
categorieën. Nominale/ordinale variabelen zijn over het algemeen discreet. Discrete
variabelen zijn niet per sé nominaal/ordinaal. Bijvoorbeeld aantal kinderen per gezin,
sekse categorieen, categorieen voor haarkleur.
- Continue random variabelen: de mogelijke uitkomsten van de
variabele kunnen elke waarde aannemen binnen een bepaald
interval. Het is zeer onwaarschijnlijk dat je twee identieke
metingen doet voor verschillende individuelen. Ook moet je eraan
denken om intervallen te zetten. Iemand die zegt 150 kilo te
wegen, kan ergens tussen de 149.6 en 150.4 kilo wegen, dit zijn
de real limits. De upper real limit is aan de bovenkant, de lower
real limit aan de onderkant. 149.5 is in dit geval de boundary en
het hangt af van je afrondingsregels in welke categorie deze valt.
Continue variabelen hebben over het algemeen interval/ratio niveaus. Interval/ratio
variabelen zijn niet per sé continu. Bijv leeftijd (geen categorieën), lengte, sekse schalen
(van vrouwelijk tot mannelijk).
Voor statistische analyses is het essentieel dat je minstens weet wat het type is van jouw
metingen/data. Dit gebruik je om de juiste analyse te kiezen.
Random variabelen zijn variabelen waarvan de mogelijke uitkomsten het resultaat zijn van een
random fenomeen. De statistische notatie is meestal X of Y, specifieke uitkomsten en specifieke
observaties worden opgeschreven met een kleine x of y. De N wordt gebruikt voor het
identificeren van de hoeveelheid scores in een populatie en een n voor
de hoeveelheid scores in een sample. De letter sigma Σ staat voor “de
som van”.
-Hoofdstuk 2 - Frequentieverdelingen-
De frequentie is hoe vaak een bepaalde uitkomst is geobserveerd. Een
frequentieverdeling is een tabel of grafiek die weergeeft hoe vaak een
bepaalde uitkomst is geobserveerd, voor elke mogelijke uitkomst voor die
variabele. Bijvoorbeeld voor 11 grote auto’s, de frequentie = 11.
Soms moet de som van een frequentieverdeling worden berekend. Dan
moet je alle data meenemen, een handige manier is die zoals in de
afbeelding rechts. Percentages worden als volgt uit een
frequentieverdeling opgemaakt:
4