SAMENVATTING ALLE HOORCOLLEGES - STATISTIEK II/2 (PSBA2-07)
Samenvatting Statistiek 1 A (1e jaar psychologie RUG) - Introduction to the practice of Statistics (Moore & McCabe)
Samenvatting Statistiek 1B (1e jaar psychologie RUG) - Introduction to the practice of Statistics (Moore & McCabe)
Alles voor dit studieboek (90)
Geschreven voor
Erasmus Universiteit Rotterdam (EUR)
Pedagogische Wetenschappen
2.2 Statistiek: Verklaren En Voorspellen
Alle documenten voor dit vak (5)
1
beoordeling
Door: mikaylagovaerts53 • 2 jaar geleden
Verkoper
Volgen
LKS
Ontvangen beoordelingen
Voorbeeld van de inhoud
Samenvatting introduction to the practice
of statistics – Moore, McCabe & Craig
Inhoudsopgave
HOOFDSTUK 1 – DATA EN VERDELINGEN ......................................................................................................... 2
HOOFDSTUK 2 – BEKIJKEN VAN DATA (RELATIES) ............................................................................................. 9
HOOFDSTUK 3 – DATA PRODUCEREN ............................................................................................................. 15
HOOFDSTUK 4 – WAARSCHIJNLIJKHEID: DE STUDIE VAN WILLEKEUR ............................................................. 18
HOOFDSTUK 5 – STEEKPROEFVERDELINGEN .................................................................................................. 22
HOOFDSTUK 6 – INLEIDING TOT GEVOLGTREKKINGEN (CONCLUSIES) ............................................................ 25
HOOFDSTUK 7 - GEVOLGTREKKING VOOR GEMIDDELDEN ............................................................................. 29
HOOFDSTUK 8 – INFERENTIE VAN PROPORTIES.............................................................................................. 31
HOOFDSTUK 9 – GEVOLGTREKKINGEN VAN CATEGORISCHE DATA................................................................. 34
HOOFDSTUK 10 – GEVOLGTREKKINGEN VOOR REGRESSIE ............................................................................. 36
HOOFDSTUK 11 – MEERVOUDIGE REGRESSIE ................................................................................................. 41
HOOFDSTUK 12 – ONE WAY ANOVA .............................................................................................................. 44
HOOFDSTUK 13 – TWEEWEGS ANOVA ........................................................................................................... 48
1
,Hoofdstuk 1 – Data en verdelingen
Statistiek is de wetenschap van het leren uit gegevens. Gegevens zijn numerieke of
kwalitatieve beschrijvingen van de objecten die wij willen bestuderen.
Een statistische analyse begint met een reeks gegevens. Wij stellen een
gegevensverzameling samen door eerst te beslissen welke casussen wij willen bestuderen.
Voor elk geval leggen we informatie vast over kenmerken die we variabelen noemen.
Casussen zijn de objecten die door een reeks gegevens worden beschreven. Casussen
kunnen klanten, eenheden in een experiment, proefpersonen in een studie enz. zijn.
Een label is een speciale variabele die in sommige gegevensverzamelingen wordt gebruikt
om de verschillende gevallen te onderscheiden.
Een variabele is een kenmerk van een casus.
Verschillende casussen kunnen verschillende waarden van de variabelen hebben.
Een categorische variabele plaatst een casus in een van verschillende groepen van
categorieën.
Een kwantitatieve variabele neemt numerieke waarden aan waarvoor rekenkundige
bewerkingen, zoals optellen en middelen, zinvol zijn. Een belangrijk onderdeel van de
beschrijving van een kwantitatieve variabele is de meeteenheid.
Wees bij onderzoek alert op dat iedere variabele ook daadwerkelijk meet wat je wil meten.
Het berekenen van een percentage is slechts een van de vele manieren om een variabele
aan te passen om een andere variabele te creëren.
De kerneigenschappen van een gegevensset beantwoorden de volgende vragen: wie? Wat?
Waarom?
Statistische instrumenten en ideeën helpen ons gegevens te onderzoeken om de
belangrijkste kenmerken ervan te beschrijven. Dit onderzoek wordt verkennende
gegevensanalyse genoemd. We willen beschrijven wat we zien. Twee basisstrategieën die
ons helpen onze verkenning van een gegevensreeks te organiseren, zijn:
- begin met elke variabele afzonderlijk te onderzoeken. Daarna bestuderen we de relaties
tussen de variabelen.
- beginnen met een grafiek of grafieken. Voeg vervolgens numerieke samenvattingen van
specifieke aspecten van de gegevens toe.
De waarden van een categorische variabele zijn labels voor de categorieën, zoals "ja" en
"nee". De verdeling van een categorische variabele somt de categorieën op en geeft hetzij
het aantal, hetzij het percentage van de gevallen die in elke categorie vallen. Een alternatief
voor het percentage is de proportie.
Staafdiagrammen en cirkeldiagrammen worden gebruikt bij categorische variabelen.
2
,Categorieën in een staafdiagram kunnen in iedere volgorde worden neergezet. In een
staafdiagram kan zowel gebruik gemaakt worden van aantallen als van percentages. Een
cirkeldiagram maakt voornamelijk gebruik van percentages. In een cirkeldiagram moeten
alle categorieën die samen een geheel vormen worden opgenomen!
Stemplots en histogrammen worden voornamelijk gebruik bij kwantitatieve variabelen.
Een stemplot (ook wel stam-en-blad plot genoemd) geeft een snel beeld van de vorm van
een verdeling terwijl de werkelijke numerieke waarden in de grafiek zijn opgenomen.
Stemplots werken het best voor kleine aantallen waarnemingen die allemaal groter zijn dan
0. Wanneer je een stemplot maakt, maak je onderscheidt in de stamgetallen en bladgetallen.
De bladgetallen zijn vaak het laatste nummer van een getal. De stamgetallen zet je verticaal
onder elkaar, de bladgetallen komen aan de rechterkant van de stam te staan. Bij een rug-
aan-rug stemplot worden er ook bladgetallen aan de linkerkant van de stam geplaatst.
Vb. een stemplot van de volgende reeks ziet er als volgt uit: 31, 49, 64, 37, 56, 42, 31, 68, 54
3 1 1 7
4 2 9
5 4 6
6 4 8
Je kunt het aantal stengels in een plot verdubbelen door elke stengel in tweeën te splitsen:
één met de bladeren 0 tot en met 4 en de andere met de bladeren 5 tot en met 9. Met de
volgende gegevens, ziet dat er als volgt uit: 31, 49, 44, 37, 56, 42, 31, 48, 54, 33, 58, 48
3 1 1 3
3 7
4 4 2
4 8 8 9
5 4
5 6 8
Stemplots geven de werkelijke waarden van de waarnemingen weer. Dit kenmerk maakt
stemplots onhandig voor grote gegevensreeksen. Een histogram verdeelt het waardenbereik
van een variabele in klassen en geeft alleen het aantal of percentage van de waarnemingen
weer die in elke klasse vallen. Voor kleine gegevensverzamelingen verkiezen we een
stemplot.
Voor het maken van een histogram (handmatig) verdeel je eerst de spreiding van de data in
groepen met een gelijke spreidingswijdte. Vervolgens tel je het aantal individuen binnen een
bepaalde groep, dit worden frequenties genoemd. Het aantal frequenties van de groepen
kan worden weergegeven in een frequentietabel. Vervolgens kan het histogram getekend
worden. Op de x-as komt de schaal die gebruikt is voor de spreiding in de groepen, op de y-
as de schaal van de opgetelde aantallen binnen de groepen.
Gebruik histogrammen van procenten voor het vergelijken van verschillende verdelingen
met verschillende aantallen waarnemingen.
Een histogram kan van vorm veranderen wanneer de groepen veranderen.
3
, Een histogram en staafdiagram lijken veel op elkaar. Een belangrijk verschil is dat een
histogram een meting van één item laat zien, terwijl in een staafdiagrammen verschillende
itewithin worden weergegeven. Laat altijd wat ruimte tussen de staven in een staafdiagram.
Kijk in een grafiek van gegevens naar het algemene patroon en naar opvallende afwijkingen
van dat patroon. Je kunt het algemene patroon van een verdeling beschrijven aan de hand
van de vorm, het gemiddelde en de spreiding. Een belangrijk soort afwijking is een
uitschieter, een individuele waarde die buiten het algemene patroon valt.
Bij de vorm kan gelet worden op het aantal pieken? Eén piek wordt unimodaal genoemd,
meerdere pieken bimodaal. Een piek is een waarde die veel voorkomt, dit wordt ook wel
modi (mode) genoemd. Daarnaast kan er gekeken worden of de vorm symmetrisch is of juist
scheefbuigend en eventueel welke kant hij dan opbuigt.
Voor het kiezen van een analytische strategie is het van belang dat je bedenkt waarom je
een statistische analyse doet.
Wanneer gegevens in de tijd worden verzameld, is het een goed idee om de waarnemingen
in tijdsvolgorde uit te zetten. Weergaven van de verdeling van een variabele die de
tijdsvolgorde negeren, zoals stamplots en histogrammen, kunnen misleidend zijn wanneer er
systematische verandering in de tijd is.
Een tijdplot van een variabele zet elke waarneming uit tegen het tijdstip waarop ze werd
gemeten. Zet de tijd altijd op de horizontale schaal van je plot en de variabele die je meet op
de verticale schaal.
Wij kunnen onze gegevensverkenning beginnen met grafieken, maar numerieke
samenvattingen maken onze analyse specifieker. Voor categorische variabelen zijn
numerieke samenvattingen de tellingen of percentages die we gebruiken om
cirkeldiagrammen of staafdiagrammen te construeren. Een korte beschrijving van de
verdeling van een kwantitatieve variabele moet de vorm omvatten en getallen die het
gemiddelde en de spreiding beschrijven.
De numerieke beschrijving van een verdeling begint met een meting van het middelpunt of
het gemiddelde. De twee gebruikelijke middelpuntmaten zijn het gemiddelde en de
mediaan. Het gemiddelde (mean - 𝒙̅) is de "gemiddelde waarde" en de mediaan (M) is de
"middelste waarde".
∑ 𝑥𝑖
De formule voor de mean ziet er als volgt uit: 𝑥̅ = .
𝑛
Het gemiddelde 𝑥̅ is extreem gevoelig voor uitschieters of extreme waarden. Een mediaan is
meer resistent voor uitschieters. Bij een symmetrische verdeling liggen het gemiddelde en
de mediaan dicht bij elkaar.
Een meting van het gemiddelde alleen kan misleidend zijn. Wij zijn geïnteresseerd in de
spreiding of variabiliteit.
4
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper LKS. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €6,49. Je zit daarna nergens aan vast.