Hoofdstuk 1 Inleiding tot statistiek
1.1 Statistieken, wetenschap en observaties
1. Statistieken worden gebruikt om de informatie te ordenen en samen te vatten, zodat de
onderzoeker kan zien wat er in het onderzoek is gebeurd en de resultaten aan anderen kan
communiceren.
2. Statistieken helpen de onderzoeker de vragen te beantwoorden die het onderzoek in gang hebben
gezet, door precies te bepalen welke algemene conclusies gerechtvaardigd zijn op basis van de
specifieke resultaten die zijn verkregen.
De term statistiek verwijst naar een reeks wiskundige procedures voor het organiseren, samenvatten
en interpreteren van informatie.
Een populatie is de verzameling van alle individuen die van belang zijn
voor een bepaald onderzoek.
Een steekproef is een verzameling individuen die uit een populatie
worden geselecteerd, meestal bedoeld om de populatie in een
onderzoek te vertegenwoordigen.
Een variabele is een kenmerk of aandoening die voor verschillende
individuen verandert of verschillende waarden heeft.
Gegevens (data; meervoud) zijn metingen of observaties. Een dataset is
een verzameling metingen of observaties. Een gegeven (datum; enkelvoud) is een enkele meting of
observatie en wordt gewoonlijk een score of ruwe score genoemd.
Een parameter is een waarde, meestal een numerieke waarde, die een populatie beschrijft. Een
parameter wordt doorgaans afgeleid uit metingen van de individuen in de populatie.
Een statistiek is een waarde, meestal een numerieke waarde, die een steekproef beschrijft. Een
statistiek wordt meestal afgeleid van metingen van de
individuen in de steekproef.
Beschrijvende statistieken zijn statistische procedures die
worden gebruikt om gegevens samen te vatten, te ordenen
en te vereenvoudigen.
Inferentiële statistiek bestaat uit technieken waarmee we
steekproeven kunnen bestuderen en vervolgens
generalisaties kunnen maken over de populaties waaruit ze
zijn geselecteerd.
Steekproeffout/sampling error is de natuurlijk
voorkomende discrepantie, of fout, die bestaat tussen een
steekproefstatistiek en de overeenkomstige
populatieparameter.
1.2 Datastructuren, onderzoeksmethoden en statistieken
Bij de correlatiemethode worden twee verschillende variabelen geobserveerd om te bepalen of er
een verband tussen deze variabelen bestaat.
Bij de experimentele methode wordt één variabele gemanipuleerd terwijl een andere variabele
wordt waargenomen en gemeten. Om een oorzaak-en-gevolg-relatie tussen de twee variabelen vast
te stellen, probeert een experiment alle andere variabelen te controleren om te voorkomen dat ze de
resultaten beïnvloeden.
1
,De onafhankelijke variabele is de variabele die door de onderzoeker wordt gemanipuleerd. In
gedragsonderzoek bestaat de onafhankelijke variabele doorgaans uit de twee (of meer)
behandelingscondities waaraan proefpersonen worden blootgesteld. De onafhankelijke variabele
bestaat uit de voorafgaande omstandigheden die werden gemanipuleerd voordat de afhankelijke
variabele werd waargenomen.
De afhankelijke variabele is de variabele die wordt waargenomen om het effect van de behandeling
te beoordelen.
Individuen in een controleconditie krijgen de experimentele behandeling niet. In plaats daarvan
krijgen ze ofwel geen behandeling, ofwel een neutrale placebobehandeling. Het doel van een
controleconditie is om een basislijn te bieden voor vergelijking met de experimentele conditie.
Individuen in de experimentele conditie krijgen wel de experimentele behandeling.
In een niet-experimenteel onderzoek wordt de ‘onafhankelijke variabele’ die wordt gebruikt om de
verschillende groepen scores te creëren vaak de quasi-onafhankelijke variabele genoemd.
1.3 Variabelen en metingen
Constructen zijn interne attributen of kenmerken die niet direct kunnen worden waargenomen, maar
die nuttig zijn voor het beschrijven en verklaren van gedrag.
Een operationele definitie identificeert een meetprocedure (een reeks handelingen) voor het meten
van extern gedrag en gebruikt de resulterende metingen als een definitie en een meting van een
hypothetisch construct. Merk op dat een operationele definitie twee componenten heeft. Ten eerste
beschrijft het een reeks bewerkingen voor het meten van een construct. Ten tweede definieert het
het construct in termen van de resulterende metingen.
Een discrete variabele bestaat uit afzonderlijke, ondeelbare categorieën. Er kunnen geen waarden
bestaan tussen twee aangrenzende categorieën.
Voor een continue variabele zijn er een oneindig aantal mogelijke waarden die tussen twee
waargenomen waarden liggen. Een continue variabele is deelbaar in een oneindig aantal fractionele
delen.
Real limits zijn de grenzen van intervallen voor scores die op een doorlopende getallenlijn worden
weergegeven. De werkelijke limiet die twee aangrenzende scores scheidt, ligt precies halverwege
tussen de scores. Elke score heeft twee reële limieten. De upper real limit bevindt zich bovenaan het
interval en de lower real limit bevindt zich onderaan.
Een nominale schaal bestaat uit een reeks categorieën met verschillende namen. Metingen op een
nominale schaal labelen en categoriseren waarnemingen, maar maken geen enkel kwantitatief
onderscheid tussen waarnemingen.
Een ordinale schaal bestaat uit een reeks categorieën die in een geordende volgorde zijn
georganiseerd. Metingen op een ordinale schaal rangschikken waarnemingen in termen van grootte
of magnitude.
Een intervalschaal bestaat uit geordende categorieën die allemaal intervallen zijn van exact dezelfde
grootte. Gelijke verschillen tussen getallen op schaal weerspiegelen gelijke verschillen in grootte. Het
nulpunt op een intervalschaal is echter willekeurig en geeft niet aan dat de gemeten variabele nul is.
Een ratioschaal is een intervalschaal met als extra kenmerk een absoluut nulpunt. Met een
verhoudingsschaal weerspiegelen de verhoudingen van getallen de verhoudingen van de grootte.
2
,1.4 Statistische notatie
1. Het sommatieteken, Σ, wordt altijd gevolgd door een symbool of wiskundige uitdrukking. Het
symbool of de uitdrukking geeft precies aan welke waarden moeten worden toegevoegd. Om
bijvoorbeeld ΣX te berekenen, is het symbool dat volgt op het sommatieteken X, en de taak is om de
som van de X-waarden te vinden. Aan de andere kant, om Σ(X – 1)2 te berekenen, wordt het
sommatieteken gevolgd door een relatief complexe wiskundige uitdrukking, dus je eerste taak is het
berekenen van alle (X – 1)2-waarden en het vervolgens optellen van de resultaten.
2. Het sommatieproces maakt vaak deel uit van verschillende andere wiskundige bewerkingen, zoals
vermenigvuldigen of kwadrateren. Om het juiste antwoord te verkrijgen, is het essentieel dat de
verschillende handelingen in de juiste volgorde worden uitgevoerd. Hieronder volgt een lijst met de
juiste volgorde van bewerkingen voor het uitvoeren van wiskundige bewerkingen. Het grootste deel
van deze lijst zal u bekend voorkomen, maar u moet er rekening mee houden dat we het
sommatieproces als vierde bewerking in de lijst hebben ingevoegd.
Orde van wiskundige bewerkingen
1. Elke berekening tussen haakjes wordt eerst uitgevoerd.
2. Kwadrateren (of verhogen naar andere exponenten) gebeurt als tweede.
3. Vermenigvuldigen en/of delen gebeurt als derde. Er moet een reeks vermenigvuldigings- en/of
delingsbewerkingen worden uitgevoerd, van links naar rechts.
4. Vervolgens wordt de sommatie uitgevoerd met behulp van de Σ-notatie.
5. Ten slotte wordt elke andere optelling en/of aftrekking uitgevoerd.
Hoofdstuk 2 Frequentieverdeling
2.1 Frequentieverdelingen en frequentieverdelingstabellen
Een frequentieverdeling is een georganiseerde tabel van het aantal individuen dat zich in elke
categorie op de meetschaal bevindt. Een frequentieverdeling neemt een ongeorganiseerde reeks
scores en plaatst deze in volgorde van hoog naar laag, waarbij individuen worden gegroepeerd die
allemaal dezelfde score hebben.
SX verkrijgen uit een frequentieverdelingstabel. Het kan voorkomen dat u de som van de scores, ΣX,
moet berekenen of andere berekeningen moet uitvoeren voor een reeks scores die zijn georganiseerd
in een frequentieverdelingstabel. Om deze berekeningen correct uit te voeren, moet u alle informatie
in de tabel gebruiken. Dat wil zeggen dat het essentieel is om de informatie in zowel de f-kolom als de
X-kolom te gebruiken om de volledige reeks scores te verkrijgen. Wanneer het nodig is om
berekeningen uit te voeren voor scores die zijn georganiseerd in een frequentieverdelingstabel, is de
veiligste procedure het gebruiken van de informatie in de tabel om de volledige lijst met individuele
scores op te halen voordat u met berekeningen begint.
Proportie: p = f/n
Percentages: p = f/n x 100
2.2 Gegroepeerde frequentieverdelingstabellen
Richtlijnen:
1. De gegroepeerde frequentieverdelingstabel moet ongeveer 10 klassenintervallen hebben.
2. De breedte van elk interval moet een relatief eenvoudig getal zijn.
3. De onderste score in elk klasseninterval moet een veelvoud van de breedte zijn.
4. Alle intervallen moeten dezelfde breedte hebben.
Echte limieten en frequentieverdelingen
Wanneer een continue variabele wordt gemeten, komen de resulterende metingen overeen met
intervallen op de getallenlijn in plaats van met afzonderlijke punten. Het concept van reële limieten is
ook van toepassing op de klassenintervallen van een gegroepeerde frequentieverdelingstabel.
3
, 2.3 Frequentieverdelingsgrafieken
Een frequentieverdelingsgrafiek is in feite een afbeelding van de informatie die beschikbaar is in een
frequentieverdelingstabel. We zullen verschillende soorten grafieken bekijken, maar ze beginnen
allemaal met twee loodrechte lijnen die assen worden genoemd. De horizontale lijn is de X-as, of de
abscis (ab-SIS-uh). De verticale lijn is de Y-as of de ordinaat. De meetschaal (set van X-waarden) wordt
weergegeven langs de X-as, waarbij de waarden oplopen van links naar rechts. De frequenties
worden weergegeven op de Y-as, waarbij de waarden oplopen van onder naar boven. Als algemene
regel geldt dat het punt waar de twee assen elkaar kruisen de waarde nul moet hebben voor zowel
de scores als de frequenties. Een laatste algemene regel is dat de grafiek zo moet worden
geconstrueerd dat de hoogte (Y-as) ongeveer twee derde tot driekwart van de lengte (X-as) bedraagt.
Het overtreden van deze richtlijnen kan resulteren in grafieken die een misleidend beeld geven van
de gegevens.
Grafieken voor interval- of verhoudingsgegevens
Wanneer de gegevens bestaan uit numerieke scores die zijn
gemeten op een interval- of ratioschaal, zijn er twee opties
voor het construeren van een frequentieverdelingsgrafiek.
Histogrammen
Om een histogram te construeren, vermeldt u eerst de
numerieke scores (de meetcategorieën) langs de X-as.
Vervolgens teken je een balk boven elke X-waarde, zodat
A. De hoogte van de balk komt overeen met de frequentie
voor die categorie.
B. Voor continue variabelen strekt de breedte van de balk
zich uit tot de werkelijke grenzen van de categorie. Voor
discrete variabelen strekt elke staaf zich precies de helft van
de afstand uit tot de aangrenzende categorie aan elke kant.
Een aangepast histogram. Een kleine wijziging aan het traditionele histogram levert een zeer
gemakkelijk te tekenen en eenvoudig te begrijpen schets van een frequentieverdeling op. In plaats
van een balk boven elke partituur te tekenen, bestaat de aanpassing uit het tekenen van een stapel
blokken. Elk blok vertegenwoordigt één individu, dus het aantal blokken boven elke score komt
overeen met de frequentie voor die score.
Polygonen
Om een polygoon te construeren, begint u met het opsommen van de numerieke scores (de
meetcategorieën) langs de X-as. Dan,
A. Boven elke score wordt een stip gecentreerd, zodat de verticale positie van de stip overeenkomt
met de frequentie voor de categorie.
B. Er wordt een ononderbroken lijn getrokken van punt naar punt om de reeks punten met elkaar te
verbinden.
C. De grafiek wordt voltooid door aan elk uiteinde van het
scorebereik een lijn naar beneden te trekken naar de X-as
(nulfrequentie). De laatste lijnen worden meestal zo
getekend dat ze de X-as bereiken op een punt dat één
categorie onder de laagste score aan de linkerkant en één
categorie boven de hoogste score aan de rechterkant ligt.
4