Inleiding statistiek
HOOFDSTUK 1
Statistiek = een set van mathematische procedures voor het organiseren, samenvatten en
interpreteren van informatie.
Populatie = de set van alle individuen waar je in geïnteresseerd ben in een specifieke studie.
Sample / steekproef = een set van individuen die zijn geselecteerd van een populatie, met de
bedoeling dat ze de populatie van de specifieke studie vertegenwoordigen.
Variabele = een kenmerk of conditie die verandert of verschillende waardes heeft voor verschillende
individuen. Bijv. lengte, gewicht, personaliteit, temperatuur, tijd van de dag etc.
Data (meervoud) = metingen of observaties.
Data set = collectie van metingen of observaties.
Datum (enkelvoud) = score, ruwe score
Parameter = een waarde, meestal een numerieke waarde, die een populatie beschrijft. Deze komt
meestal van de metingen van de individuen in de populatie.
Statistiek = een waarde, meestal een numerieke waarde, die een steekproef beschrijft. Deze komt
meestal van de metingen van de individuen in de populatie.
Beschrijvende statistiek = statistische procedures die worden gebruikt om te samenvatten,
organiseren en data makkelijker te maken.
Meestal worden de scores georganiseerd in een tabel of grafiek zodat de hele set zichtbaar is.
Inferentiële statistiek = bestaat uit technieken die steekproeven bestuderen en dan kunnen
generaliseren naar de geselecteerde populatie.
Hoewel steekproeven meestal representatief zijn voor de populatie, wordt er niet verwacht dat ze
een perfect accuraat beeld geven van de gehele populatie.
Bemonsteringfout / sampling error = het natuurlijk optreden van een verschil, or fout, die bestaat
tussen een steekproef statistiek en de bijbehorende populatie parameter.
Correlationele studie = één groep met twee (of meer) variabelen voor elk individu. De variabelen
voor ieder individu worden dan simpelweg gemeten. De twee (of meer) verschillende variabelen
worden hier geobserveerd om te bepalen of er een relatie is tussen die twee. Een nadeel is wel dat er
geen verklaring voor de relatie wordt gegeven, er kan dus geen oorzaak-gevolg worden vastgesteld.
Experimentele methode = onderzoeksmethode die oorzaak-gevolg kan vaststellen door het
vergelijken van twee (of meer) groepen. Twee kenmerken hiervan die zich onderscheidt van andere
onderzoeksmethoden:
1. Manipulatie = één variabele wordt gemanipuleerd door de waardes te veranderen.
2. Controle = er moet controle zijn over de onderzoekssituatie zodat er geen andere variabele
kan zijn die de relatie beïnvloed.
Participerende variabelen = kenmerken zoals leeftijd, gender, intelligentie die variëren tussen
individuen. Als een experiment verschillende groepen wil vergelijken moeten ze er wel zeker van zijn
dat de participerende variabelen niet verschillend zijn in de verschillende groepen.
Omgevingsvariabelen = dit zijn kenmerken van de omgeving zoals belichting, tijd van de dag, en
weercondities. Een onderzoeker moet er zeker van zijn dat de individuen in behandeling A getest
worden in dezelfde omgeving als de individuen in behandeling B.
Random toewijzing = elke participant heeft een gelijke kans om in elke conditie terecht te komen.
Matching = variabelen controleren door de groepen gelijk te matchen.
1
,Individuen in een controle conditie krijgen geen experimentele behandeling. Ze krijgen dus geen
behandeling of ze krijgen een neutrale, placebo behandeling. Dit wordt gedaan om een basis te
hebben waarmee vergeleken kan worden.
Niet-gelijkwaardige groepen = groepen waar geen controle op uit te oefenen is waardoor we er niet
zeker van kunnen zijn dat beide groepen gelijkwaardig zijn, bijv. mannen in de mannengroep en
vrouwen in de vrouwengroep.
In een non-experimentele studie wordt de onafhankelijke variabele die wordt gebruikt om
verschillende groepen van scores te creëren vaak de quasi-onafhankelijke variabele genoemd.
Construct = interne attributen of kenmerken die niet direct kunnen worden geobserveerd, maar die
wel handig zijn om gedrag te beschrijven en uit te leggen.
Operationele definitie = het beschrijft een set van operationalisaties om een construct te meten en
het definieert de construct in termen van resulterende metingen.
Discrete variabele = aparte categorieën, er kunnen geen waardes bestaan tussen de categorieën
naast elkaar. Bijv. hoeveel kinderen je hebt, het antwoord hierop kan geen 3,2 zijn.
Continue variabele = hierbij zijn er ontelbaar mogelijkheden van waardes die tussen twee bepaalde
waardes zitten. Bijv. gewicht, het antwoord hiervan kan zijn dat je 91,2485395kg weegt.
Elke categorie is hierbij een interval die gedefinieerd moet worden aan de hand van grenzen. Deze
grenzen worden echte limieten genoemd.
Echte limieten = de grenzen of intervallen van scores die gerepresenteerd zijn op een continue lijn
met nummers. Het echte limiet die de twee scores van elkaar scheidt ligt precies tussen de twee
scores is, aan de bovenkant het bovenste echte limiet en aan de onderkant het lage echte limiet.
Bij X = 31.1 horen bijvoorbeeld limieten van 31.05 en 31.15 omdat je bij elk decimaal hoger of lager
dan deze getallen naar een ander interval gaat, dit heeft te maken met het afronden van getallen.
Nominale schaal = “heeft te maken met namen”. Het bevat een set van categorieën die verschillende
namen hebben. De metingen op een nominale schaal labelen en categoriseren observaties, maar er
worden geen kwantitatieve onderscheiden gemaakt tussen de observaties.
Ordinale schaal = bevat een set van categorieën die in een bepaalde orde zijn gerangschikt, hierbij
zijn er geen gelijke intervallen (bijv. 1e, 2e, 3e etc.).
Interval schaal = alle intervallen hebben een gelijke afstand. Maar, er is geen true zero, bijv.
temperatuur. Een temperatuur van 0 graden wil niet zeggen dat er geen temperatuur is.
Ratio schaal = alle intervallen hebben een gelijke afstand en er is een true zero.
De Griekse letter sigma, of ∑, wordt gebruikt om “de som van” aan te geven.
∑X = 3 + 1 + 7 + 4 = 15
∑X2 = 9 + 1 + 49 + 16 = 75
(∑X)2 = (15)2 = 225
Bij ∑XY
moeten kolom X en Y keer elkaar worden gedaan en vervolgens tel
je die bij elkaar op.
2
,HOOFDSTUK 2
Frequentie distributie = een georganiseerde tabel met nummers van individuen die per categorie
worden ingedeeld. Het zorgt ervoor dat een onderzoeker in één oogopslag de hele set met scores
kan zien.
Als je alle frequenties bij elkaar optelt, moet je op het totale aantal individuen komen, dit houdt in
dat dus ∑f = N.
Als bij een frequentieverdelingstabel dus wordt gevraagd om ∑X
of ∑X2 te berekenen dan moet je rekening houden met de
frequentie van de waarde van X. Als het getal wat bij X staat een
frequentie heeft van bijv. 3 dan moet je dit eerst nog keer 3
doen om de som te berekenen.
Proportie meet de fractie van de totale groep die geassocieerd is met iedere score. In het algemeen
wordt hier gezegd dat proportie = p = f/N. Omdat dit de frequentie in relatie tot het totale aantal
aangeeft wordt het vaak een relatieve frequentie genoemd.
Van deze proportie kan ook een percentage worden gemaakt, dit doe je door het keer 100% te doen.
Onthoud: het doel van een tabel maken is om een relatief simpel en georganiseerd beeld te krijgen
van alle data.
Om dit doel te bewaken worden vaak data samengevoegd in verschillende bereiken. Dit resulteert in
een gegroepeerde frequentieverdelingstabel. De groepen of intervallen worden hierbij klasse
intervallen genoemd. Richtlijnen:
1. De tabel moet ongeveer 10 klasse intervallen hebben, anders kan het doel van de tabel niet
meer worden behouden. Maar te weinig is dus ook niet goed, want dan gaat er waarschijnlijk
informatie van de data verloren.
2. De breedte van elk interval moet een relatief simpel nummer zijn, deze moeten makkelijk zijn
om te begrijpen en je moet snel kunnen zien hoe de bereiken zijn verdeeld.
3. De onderste score van elk klasse interval moet een veelvoud van de breedte zijn. Als je bijv.
een breedte van 10 punten gebruikt, dan moeten de intervallen beginnen met 10, 20, 30, 40.
4. Alle intervallen moeten dezelfde breedte hebben. Ze moeten de complete bereiken bevatten
en geen gaten overlaten.
Let op! Een frequentie van f = 3 bij een score van X = 8 wil niet zeggen dat alle drie deze individuen
exact dezelfde score hebben.
Bij een klasse interval van bijv. 40-49 zijn de echte limieten dus eigenlijk 39,5 en 49,5 omdat deze
decimalen nog bij het interval horen.
Bij een ratio of interval schaal kan de data in een ofwel
een histogram ofwel een polygoon worden gezet.
3
, Staafdiagram = bij een nominale schaal zorgt de ruimte tussen de staven ervoor dat de schaal
bestaat uit aparte categorieën. Bij een ordinale schaal is de ruimte gebruikt omdat je niet kan
aannemen dat alle categorieën dezelfde maat hebben. Dus voor een nominale of ordinale schaal
wordt een staafdiagram gebruikt.
Symmetrische distributie = hierbij is het mogelijk om een verticale lijn door het midden te trekken
waardoor een kant van de distributie een spiegel is van de andere kant.
Scheve distributie = hierbij stapelen de scores aan de ene kant op naar het einde en aan de andere
kant bouwen ze juist af. Een scheve distributie met de staart aan de rechterkant is een positieve
scheve omdat de staart naar de positieve kant van de x-as is. Als de staart de andere kant op is, dan is
het een negatieve scheve.
De rang / percentielrang van een specifieke score = de percentage van individuen in de distributie
met scores op of onder een specifieke waarde.
Als een score wordt geïdentificeerd door zijn percentielrang, dan heet de score een percentiel.
Als bijv. 60% van de klas een score van 43 of lager had, dan heeft de score X = 43 een percentielrang
van 60%, en je score is dus het 60 e percentiel. Percentielrang gaat dus over een percentage en
percentiel over een score.
Cumulatieve frequenties = het aantal individuen die op of onder elke score zitten.
Cumulatieve percentage = cf / N x 100%
Let op ! Als X = 2 bijv. een cumulatief percentage van 30% heeft dan wil dit dus zeggen dat 30% van
de participanten tussen de 1,5 en de 2,5 zit.
Als een antwoord over percentielen niet direct in een tabel staat, is het nog wel mogelijk om het uit
te rekenen door middel van interpolatie. Dit werkt als volgt:
4