Uitgebreide samenvatting van de eerste 7 hoofdstukken uit Statistiek I: Een Introductie van Moore, Mccabe en Craig. Voor mensen/ studenten die het vak statistiek volgen in bijvoorbeeld blok 1.3.
Statistiek I: Een introductie
H1
Data wordt geconstrueerd in cases: objecten die beschreven worden door de data. Labels: een
variabele die cases onderscheid (zoals ID nummer). Variabelen: een karakteristiek van een case.
Verschillende cases kunnen verschillende waarden hebben in hun variabelen.
Categorische variabele plaatst een case in een groep of categorie
Kwantitatieve variabele neemt numerieke waarden waarvan het logisch is ze bijv. op te tellen of
een gemiddelde van te maken
Belangrijk in kwantitatieve variabelen is de unit of measurement: meetwaarde.
Exploratory data analysis: data beschrijven met behulp van statistische hulpmiddelen en ideeën.
Twee basis strategieën hiervoor zijn:
- De variabelen zelf bekijken/ onderzoeken. Dan de onderliggende verbanden tussen de variabelen.
- Beginnen met een of meerdere grafieken. Dan numerieke samenvattingen van specifieke aspecten
van de date toevoegen.
In een categorische variabele wordt een telling (count) van percentage gegeven. Een alternatief
voor het percentage is proportie. Dit is de telling gedeeld door de optelling van alle tellingen. Het
percentage is de proportie maal 100.
Voor categorische variabelen kan je staafgrafieken en pie charts gebruiken. Een staafgrafiek kan
zowel tellingen als percentages gebruiken. Een pie chart gebruikt gewoonlijk percentages. Een pie
chart moet 100% vormen, dit maakt een staafgrafiek flexibeler.
Voor kwantitatieve variabelen kun je stemplots en histogrammen gebruiken. Een stemplot laat snel
de vorm van een distributie zien en werkt het beste met een klein aantal observaties die groter zijn
dan 0. 1 .. 1 ..
Stemplot: 21 33 45 56 23 38 2 1 3 Back-to-back stemplot: .. 2 ..
3 38 .. 3 ..
4 5 4 ..
5 6 5
Stemplot met gespleten kern: 3 Bovenste ‘4’ geeft bijv. alleen waarden 0-4 en onderste ‘4’
4 van 5-9.
4
Een histogram kan gebruikt worden als er een grote dataset is. Deze verdeeld de variabelen in
klassen en laat alleen de telling of percentage zien van de observaties die in deze klassen vallen.
Histogrammen laten niet de echte geobserveerde waarden zien, daarom heeft een stemplot de
voorkeur voor kleine datasets. Gebruik histogrammen met percentages voor het vergelijken van een
aantal distributies die verschillende aantallen observaties hebben.
De klassen zijn even breed Het optellen van een aantal, wordt ook wel frequenties
genoemd.
De extreme waarden van een distributie zitten in de staarten (tails) van de distributie.
,Onderzoeken van een distributie:
- Kijk voor een algemeen patroon en voor opvallende verschillen in dat patroon.
- Je kan het algemene patroon van een distributie beschrijven door zijn vorm (shape), center en
spreiding.
- Een belangrijk verschil is een outliner: een individuele waarde die buiten het algemene patroon valt
Om de vorm te beschrijven kan je kijken of de distributie een of meerdere pieken heeft modes.
Heeft de distributie maar 1 grote piek, dan wordt dit unimodal genoemd. Is de distributie nagenoeg
symmetrisch of is het skewed in een richting?
Om een outliner te identificeren moet je kijken voor punten die duidelijk buiten de groep vallen, niet
alleen de meest extreme observaties in een distributie. Je zou een verklaring moeten zoeken voor
elke outliner. Soms wijzen outliners op fouten in het opnemen van de data. In andere gevallen kan
de outlining observatie veroorzaakt zijn door falen in gereedschap of andere ongewone
omstandigheden.
Als er data verzameld wordt over een bepaalde periode, is het een goed idee om de observaties te
rangschikken op tijd. Stemplots en histogrammen negeren tijdsvolgorde, dit kan misleidend zijn als
er sprake is van een systematische verandering met de tijd.
Een timeplot van een variabele, plots elke observatie tegen de tijd dat het werd gemeten. Plaats
altijd de tijd op de horizontale schaal van je plot en de variabele die je meet op de verticale schaal.
Het meten van de center en spreiding. Center meten: gemiddelde (mean). x́ = mean van alle x-en
(waarden/ variabelen etc.) x 1 + x 2 + x 3.. n = aantal observaties. x́ = x-bar.
x́ = n ∑ = Grieks voor alles bij elkaar optel.
1
In het kort: x́ = ∑xi i = individuele waarden
n
Het gemiddelde is gevoelig voor de invloed van een paar extreme observaties. Daarom zeggen we
dat een gemiddelde geen weerbare (resistente) meting van de kern is. Een meting van de kern die
wel weerbaar is, wordt ook wel een robuuste meting genoemd.
De mediaan M is het middelpunt van een distributie. Stappen om de mediaan te vinden:
1. Rangschik alle observaties van klein naar groot.
2. Als het aantal observaties oneven is, is de mediaan het middelste getal in de lijst.
3. Als het aantal observaties even is, is de mediaan het gemiddelde van de twee middelste getallen.
Als de distributie exact symmetrisch is, zijn de mediaan en het gemiddelde ook hetzelfde.
Spreiding
Quartiles verdelen de data in vier gelijke delen. 4 x 25%. De mediaan is de 50 e percentiel.
Quartiles berekenen:
1. Rangschik de observaties van groot naar klein en lokaliseer de mediaan.
2. De eerste quartile Q1 is de mediaan van de observaties aan de linkerkant.
3. De derde quartile Q3 is de mediaan van de observaties aan de rechterkant.
VB: 2 4 5 5 5 5 6 6 7 8 10 11 12 13 16 17 19 19 24 25 32 38 49 53
, Q1 = 5,5 Q3 = 21,5
Om een snelle samenvatting van de kern én spreiding te verkrijgen, kan je de vijf-cijferige
samenvatting gebruiken (five-number summary). Deze bestaat uit de kleinste observatie, Q1, de
mediaan, Q3 en de grootste observatie: minimum – Q1 – M – Q3 – maximum.
Een boxplot is een grafiek van de vijf-cijferige samenvatting:
- Een centrale box bevat de quartiles Q1 en Q3
- Een lijn in de box markeert de mediaan M
- Lijnen die uit de box lopen geven de grootste en kleinste observaties weer whiskers.
Een boxplot wordt ook wel box-and-whiskers genoemd.
Het gemiddelde in een boxplot wordt aangegeven met een +.
De afstand tussen de quartiles is een meer resistentere meting van de spreiding dan het gehele
bereik (range). Deze afstand wordt de interquartile range genoemd. IQR = Q3 – Q1.
Een observatie is mogelijk een outliner als deze meer dan 1.5 x IQR boven het derde quartile valt of
onder het eerste quartile. Min. Q1 M Q3 Max.
VB: five-number summary 1.0 54.5 103.5 200 2631
IQR = Q3 – Q1 = 200 – 54.5 = 145.5
1.5 x IQR = 1.5 x 145.5 = 218.25
Elke waarde onder: 54.5 – 218.25 = -163.75
Elke waarde boven: 200 + 218.25 = 418.25
Twee variaties op de boxplot kunnen erg handig zijn. De gemodificeerde boxplot (modified) gebruikt
de 1.5 x IQR regel. De lijnen die uit de box lopen zijn 1.5 x IQR in lengte. Punten die buiten deze
whiskers liggen zijn individueel aangegeven (plotted) en zijn geclassificeerd als outliners. Een andere
variatie is om twee of meer boxplots in dezelfde grafiek te gebruiken om groepen te vergelijken die
dezelfde variabele meten. Deze worden side-by-side boxplots genoemd.
De standaard deviatie is de meest gebruikte numerieke beschrijving van een distributie. Deze meet
de spreiding of variability door te kijken hoe ver de observaties liggen van hun gemiddelde. Door de
wortel te nemen van de deviaties worden negatieve deviaties positief gemaakt. Je hebt de variance
se en de standaard deviatie, s, dit is de wortel van s2.
s2=¿ ( x 1 - x́ ¿2 + ( x 2 - x́ ¿ 2 + .. of compact: s2 = 1 ∑ ( x i - x́ ¿ 2
n–1 n–1
Standaard deviatie:
1 ∑¿
s=
√ n−1
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper EeuwigStudent1. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €3,99. Je zit daarna nergens aan vast.