Extensive summary Craig, B: Introduction to the Practice of Statistics - Statistics
Summary Lectures and Readings: Statistics 1 - Introduction (FSWPE1-032)
Detailed Summary: Lectures and Readings STATISTICS 2.2 FSWPE2-022
All for this textbook (11)
Written for
Erasmus Universiteit Rotterdam (EUR)
Pedagogische Wetenschappen
2.2 Statistiek: Verklaren En Voorspellen
All documents for this subject (5)
1
review
By: mikaylagovaerts53 • 2 year ago
Seller
Follow
LKS
Reviews received
Content preview
Samenvatting introduction to the practice
of statistics – Moore, McCabe & Craig
Inhoudsopgave
HOOFDSTUK 1 – DATA EN VERDELINGEN ......................................................................................................... 2
HOOFDSTUK 2 – BEKIJKEN VAN DATA (RELATIES) ............................................................................................. 9
HOOFDSTUK 3 – DATA PRODUCEREN ............................................................................................................. 15
HOOFDSTUK 4 – WAARSCHIJNLIJKHEID: DE STUDIE VAN WILLEKEUR ............................................................. 18
HOOFDSTUK 5 – STEEKPROEFVERDELINGEN .................................................................................................. 22
HOOFDSTUK 6 – INLEIDING TOT GEVOLGTREKKINGEN (CONCLUSIES) ............................................................ 25
HOOFDSTUK 7 - GEVOLGTREKKING VOOR GEMIDDELDEN ............................................................................. 29
HOOFDSTUK 8 – INFERENTIE VAN PROPORTIES.............................................................................................. 31
HOOFDSTUK 9 – GEVOLGTREKKINGEN VAN CATEGORISCHE DATA................................................................. 34
HOOFDSTUK 10 – GEVOLGTREKKINGEN VOOR REGRESSIE ............................................................................. 36
HOOFDSTUK 11 – MEERVOUDIGE REGRESSIE ................................................................................................. 41
HOOFDSTUK 12 – ONE WAY ANOVA .............................................................................................................. 44
HOOFDSTUK 13 – TWEEWEGS ANOVA ........................................................................................................... 48
1
,Hoofdstuk 1 – Data en verdelingen
Statistiek is de wetenschap van het leren uit gegevens. Gegevens zijn numerieke of
kwalitatieve beschrijvingen van de objecten die wij willen bestuderen.
Een statistische analyse begint met een reeks gegevens. Wij stellen een
gegevensverzameling samen door eerst te beslissen welke casussen wij willen bestuderen.
Voor elk geval leggen we informatie vast over kenmerken die we variabelen noemen.
Casussen zijn de objecten die door een reeks gegevens worden beschreven. Casussen
kunnen klanten, eenheden in een experiment, proefpersonen in een studie enz. zijn.
Een label is een speciale variabele die in sommige gegevensverzamelingen wordt gebruikt
om de verschillende gevallen te onderscheiden.
Een variabele is een kenmerk van een casus.
Verschillende casussen kunnen verschillende waarden van de variabelen hebben.
Een categorische variabele plaatst een casus in een van verschillende groepen van
categorieën.
Een kwantitatieve variabele neemt numerieke waarden aan waarvoor rekenkundige
bewerkingen, zoals optellen en middelen, zinvol zijn. Een belangrijk onderdeel van de
beschrijving van een kwantitatieve variabele is de meeteenheid.
Wees bij onderzoek alert op dat iedere variabele ook daadwerkelijk meet wat je wil meten.
Het berekenen van een percentage is slechts een van de vele manieren om een variabele
aan te passen om een andere variabele te creëren.
De kerneigenschappen van een gegevensset beantwoorden de volgende vragen: wie? Wat?
Waarom?
Statistische instrumenten en ideeën helpen ons gegevens te onderzoeken om de
belangrijkste kenmerken ervan te beschrijven. Dit onderzoek wordt verkennende
gegevensanalyse genoemd. We willen beschrijven wat we zien. Twee basisstrategieën die
ons helpen onze verkenning van een gegevensreeks te organiseren, zijn:
- begin met elke variabele afzonderlijk te onderzoeken. Daarna bestuderen we de relaties
tussen de variabelen.
- beginnen met een grafiek of grafieken. Voeg vervolgens numerieke samenvattingen van
specifieke aspecten van de gegevens toe.
De waarden van een categorische variabele zijn labels voor de categorieën, zoals "ja" en
"nee". De verdeling van een categorische variabele somt de categorieën op en geeft hetzij
het aantal, hetzij het percentage van de gevallen die in elke categorie vallen. Een alternatief
voor het percentage is de proportie.
Staafdiagrammen en cirkeldiagrammen worden gebruikt bij categorische variabelen.
2
,Categorieën in een staafdiagram kunnen in iedere volgorde worden neergezet. In een
staafdiagram kan zowel gebruik gemaakt worden van aantallen als van percentages. Een
cirkeldiagram maakt voornamelijk gebruik van percentages. In een cirkeldiagram moeten
alle categorieën die samen een geheel vormen worden opgenomen!
Stemplots en histogrammen worden voornamelijk gebruik bij kwantitatieve variabelen.
Een stemplot (ook wel stam-en-blad plot genoemd) geeft een snel beeld van de vorm van
een verdeling terwijl de werkelijke numerieke waarden in de grafiek zijn opgenomen.
Stemplots werken het best voor kleine aantallen waarnemingen die allemaal groter zijn dan
0. Wanneer je een stemplot maakt, maak je onderscheidt in de stamgetallen en bladgetallen.
De bladgetallen zijn vaak het laatste nummer van een getal. De stamgetallen zet je verticaal
onder elkaar, de bladgetallen komen aan de rechterkant van de stam te staan. Bij een rug-
aan-rug stemplot worden er ook bladgetallen aan de linkerkant van de stam geplaatst.
Vb. een stemplot van de volgende reeks ziet er als volgt uit: 31, 49, 64, 37, 56, 42, 31, 68, 54
3 1 1 7
4 2 9
5 4 6
6 4 8
Je kunt het aantal stengels in een plot verdubbelen door elke stengel in tweeën te splitsen:
één met de bladeren 0 tot en met 4 en de andere met de bladeren 5 tot en met 9. Met de
volgende gegevens, ziet dat er als volgt uit: 31, 49, 44, 37, 56, 42, 31, 48, 54, 33, 58, 48
3 1 1 3
3 7
4 4 2
4 8 8 9
5 4
5 6 8
Stemplots geven de werkelijke waarden van de waarnemingen weer. Dit kenmerk maakt
stemplots onhandig voor grote gegevensreeksen. Een histogram verdeelt het waardenbereik
van een variabele in klassen en geeft alleen het aantal of percentage van de waarnemingen
weer die in elke klasse vallen. Voor kleine gegevensverzamelingen verkiezen we een
stemplot.
Voor het maken van een histogram (handmatig) verdeel je eerst de spreiding van de data in
groepen met een gelijke spreidingswijdte. Vervolgens tel je het aantal individuen binnen een
bepaalde groep, dit worden frequenties genoemd. Het aantal frequenties van de groepen
kan worden weergegeven in een frequentietabel. Vervolgens kan het histogram getekend
worden. Op de x-as komt de schaal die gebruikt is voor de spreiding in de groepen, op de y-
as de schaal van de opgetelde aantallen binnen de groepen.
Gebruik histogrammen van procenten voor het vergelijken van verschillende verdelingen
met verschillende aantallen waarnemingen.
Een histogram kan van vorm veranderen wanneer de groepen veranderen.
3
, Een histogram en staafdiagram lijken veel op elkaar. Een belangrijk verschil is dat een
histogram een meting van één item laat zien, terwijl in een staafdiagrammen verschillende
itewithin worden weergegeven. Laat altijd wat ruimte tussen de staven in een staafdiagram.
Kijk in een grafiek van gegevens naar het algemene patroon en naar opvallende afwijkingen
van dat patroon. Je kunt het algemene patroon van een verdeling beschrijven aan de hand
van de vorm, het gemiddelde en de spreiding. Een belangrijk soort afwijking is een
uitschieter, een individuele waarde die buiten het algemene patroon valt.
Bij de vorm kan gelet worden op het aantal pieken? Eén piek wordt unimodaal genoemd,
meerdere pieken bimodaal. Een piek is een waarde die veel voorkomt, dit wordt ook wel
modi (mode) genoemd. Daarnaast kan er gekeken worden of de vorm symmetrisch is of juist
scheefbuigend en eventueel welke kant hij dan opbuigt.
Voor het kiezen van een analytische strategie is het van belang dat je bedenkt waarom je
een statistische analyse doet.
Wanneer gegevens in de tijd worden verzameld, is het een goed idee om de waarnemingen
in tijdsvolgorde uit te zetten. Weergaven van de verdeling van een variabele die de
tijdsvolgorde negeren, zoals stamplots en histogrammen, kunnen misleidend zijn wanneer er
systematische verandering in de tijd is.
Een tijdplot van een variabele zet elke waarneming uit tegen het tijdstip waarop ze werd
gemeten. Zet de tijd altijd op de horizontale schaal van je plot en de variabele die je meet op
de verticale schaal.
Wij kunnen onze gegevensverkenning beginnen met grafieken, maar numerieke
samenvattingen maken onze analyse specifieker. Voor categorische variabelen zijn
numerieke samenvattingen de tellingen of percentages die we gebruiken om
cirkeldiagrammen of staafdiagrammen te construeren. Een korte beschrijving van de
verdeling van een kwantitatieve variabele moet de vorm omvatten en getallen die het
gemiddelde en de spreiding beschrijven.
De numerieke beschrijving van een verdeling begint met een meting van het middelpunt of
het gemiddelde. De twee gebruikelijke middelpuntmaten zijn het gemiddelde en de
mediaan. Het gemiddelde (mean - 𝒙̅) is de "gemiddelde waarde" en de mediaan (M) is de
"middelste waarde".
∑ 𝑥𝑖
De formule voor de mean ziet er als volgt uit: 𝑥̅ = .
𝑛
Het gemiddelde 𝑥̅ is extreem gevoelig voor uitschieters of extreme waarden. Een mediaan is
meer resistent voor uitschieters. Bij een symmetrische verdeling liggen het gemiddelde en
de mediaan dicht bij elkaar.
Een meting van het gemiddelde alleen kan misleidend zijn. Wij zijn geïnteresseerd in de
spreiding of variabiliteit.
4
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller LKS. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $6.96. You're not tied to anything after your purchase.