Craig, B: Introduction to the Practice of Statistics
Uitgebreide samenvatting van de eerste 7 hoofdstukken uit Statistiek I: Een Introductie van Moore, Mccabe en Craig. Voor mensen/ studenten die het vak statistiek volgen in bijvoorbeeld blok 1.3.
Statistiek I: Een introductie
H1
Data wordt geconstrueerd in cases: objecten die beschreven worden door de data. Labels: een
variabele die cases onderscheid (zoals ID nummer). Variabelen: een karakteristiek van een case.
Verschillende cases kunnen verschillende waarden hebben in hun variabelen.
Categorische variabele plaatst een case in een groep of categorie
Kwantitatieve variabele neemt numerieke waarden waarvan het logisch is ze bijv. op te tellen of
een gemiddelde van te maken
Belangrijk in kwantitatieve variabelen is de unit of measurement: meetwaarde.
Exploratory data analysis: data beschrijven met behulp van statistische hulpmiddelen en ideeën.
Twee basis strategieën hiervoor zijn:
- De variabelen zelf bekijken/ onderzoeken. Dan de onderliggende verbanden tussen de variabelen.
- Beginnen met een of meerdere grafieken. Dan numerieke samenvattingen van specifieke aspecten
van de date toevoegen.
In een categorische variabele wordt een telling (count) van percentage gegeven. Een alternatief
voor het percentage is proportie. Dit is de telling gedeeld door de optelling van alle tellingen. Het
percentage is de proportie maal 100.
Voor categorische variabelen kan je staafgrafieken en pie charts gebruiken. Een staafgrafiek kan
zowel tellingen als percentages gebruiken. Een pie chart gebruikt gewoonlijk percentages. Een pie
chart moet 100% vormen, dit maakt een staafgrafiek flexibeler.
Voor kwantitatieve variabelen kun je stemplots en histogrammen gebruiken. Een stemplot laat snel
de vorm van een distributie zien en werkt het beste met een klein aantal observaties die groter zijn
dan 0. 1 .. 1 ..
Stemplot: 21 33 45 56 23 38 2 1 3 Back-to-back stemplot: .. 2 ..
3 38 .. 3 ..
4 5 4 ..
5 6 5
Stemplot met gespleten kern: 3 Bovenste ‘4’ geeft bijv. alleen waarden 0-4 en onderste ‘4’
4 van 5-9.
4
Een histogram kan gebruikt worden als er een grote dataset is. Deze verdeeld de variabelen in
klassen en laat alleen de telling of percentage zien van de observaties die in deze klassen vallen.
Histogrammen laten niet de echte geobserveerde waarden zien, daarom heeft een stemplot de
voorkeur voor kleine datasets. Gebruik histogrammen met percentages voor het vergelijken van een
aantal distributies die verschillende aantallen observaties hebben.
De klassen zijn even breed Het optellen van een aantal, wordt ook wel frequenties
genoemd.
De extreme waarden van een distributie zitten in de staarten (tails) van de distributie.
,Onderzoeken van een distributie:
- Kijk voor een algemeen patroon en voor opvallende verschillen in dat patroon.
- Je kan het algemene patroon van een distributie beschrijven door zijn vorm (shape), center en
spreiding.
- Een belangrijk verschil is een outliner: een individuele waarde die buiten het algemene patroon valt
Om de vorm te beschrijven kan je kijken of de distributie een of meerdere pieken heeft modes.
Heeft de distributie maar 1 grote piek, dan wordt dit unimodal genoemd. Is de distributie nagenoeg
symmetrisch of is het skewed in een richting?
Om een outliner te identificeren moet je kijken voor punten die duidelijk buiten de groep vallen, niet
alleen de meest extreme observaties in een distributie. Je zou een verklaring moeten zoeken voor
elke outliner. Soms wijzen outliners op fouten in het opnemen van de data. In andere gevallen kan
de outlining observatie veroorzaakt zijn door falen in gereedschap of andere ongewone
omstandigheden.
Als er data verzameld wordt over een bepaalde periode, is het een goed idee om de observaties te
rangschikken op tijd. Stemplots en histogrammen negeren tijdsvolgorde, dit kan misleidend zijn als
er sprake is van een systematische verandering met de tijd.
Een timeplot van een variabele, plots elke observatie tegen de tijd dat het werd gemeten. Plaats
altijd de tijd op de horizontale schaal van je plot en de variabele die je meet op de verticale schaal.
Het meten van de center en spreiding. Center meten: gemiddelde (mean). x́ = mean van alle x-en
(waarden/ variabelen etc.) x 1 + x 2 + x 3.. n = aantal observaties. x́ = x-bar.
x́ = n ∑ = Grieks voor alles bij elkaar optel.
1
In het kort: x́ = ∑xi i = individuele waarden
n
Het gemiddelde is gevoelig voor de invloed van een paar extreme observaties. Daarom zeggen we
dat een gemiddelde geen weerbare (resistente) meting van de kern is. Een meting van de kern die
wel weerbaar is, wordt ook wel een robuuste meting genoemd.
De mediaan M is het middelpunt van een distributie. Stappen om de mediaan te vinden:
1. Rangschik alle observaties van klein naar groot.
2. Als het aantal observaties oneven is, is de mediaan het middelste getal in de lijst.
3. Als het aantal observaties even is, is de mediaan het gemiddelde van de twee middelste getallen.
Als de distributie exact symmetrisch is, zijn de mediaan en het gemiddelde ook hetzelfde.
Spreiding
Quartiles verdelen de data in vier gelijke delen. 4 x 25%. De mediaan is de 50 e percentiel.
Quartiles berekenen:
1. Rangschik de observaties van groot naar klein en lokaliseer de mediaan.
2. De eerste quartile Q1 is de mediaan van de observaties aan de linkerkant.
3. De derde quartile Q3 is de mediaan van de observaties aan de rechterkant.
VB: 2 4 5 5 5 5 6 6 7 8 10 11 12 13 16 17 19 19 24 25 32 38 49 53
, Q1 = 5,5 Q3 = 21,5
Om een snelle samenvatting van de kern én spreiding te verkrijgen, kan je de vijf-cijferige
samenvatting gebruiken (five-number summary). Deze bestaat uit de kleinste observatie, Q1, de
mediaan, Q3 en de grootste observatie: minimum – Q1 – M – Q3 – maximum.
Een boxplot is een grafiek van de vijf-cijferige samenvatting:
- Een centrale box bevat de quartiles Q1 en Q3
- Een lijn in de box markeert de mediaan M
- Lijnen die uit de box lopen geven de grootste en kleinste observaties weer whiskers.
Een boxplot wordt ook wel box-and-whiskers genoemd.
Het gemiddelde in een boxplot wordt aangegeven met een +.
De afstand tussen de quartiles is een meer resistentere meting van de spreiding dan het gehele
bereik (range). Deze afstand wordt de interquartile range genoemd. IQR = Q3 – Q1.
Een observatie is mogelijk een outliner als deze meer dan 1.5 x IQR boven het derde quartile valt of
onder het eerste quartile. Min. Q1 M Q3 Max.
VB: five-number summary 1.0 54.5 103.5 200 2631
IQR = Q3 – Q1 = 200 – 54.5 = 145.5
1.5 x IQR = 1.5 x 145.5 = 218.25
Elke waarde onder: 54.5 – 218.25 = -163.75
Elke waarde boven: 200 + 218.25 = 418.25
Twee variaties op de boxplot kunnen erg handig zijn. De gemodificeerde boxplot (modified) gebruikt
de 1.5 x IQR regel. De lijnen die uit de box lopen zijn 1.5 x IQR in lengte. Punten die buiten deze
whiskers liggen zijn individueel aangegeven (plotted) en zijn geclassificeerd als outliners. Een andere
variatie is om twee of meer boxplots in dezelfde grafiek te gebruiken om groepen te vergelijken die
dezelfde variabele meten. Deze worden side-by-side boxplots genoemd.
De standaard deviatie is de meest gebruikte numerieke beschrijving van een distributie. Deze meet
de spreiding of variability door te kijken hoe ver de observaties liggen van hun gemiddelde. Door de
wortel te nemen van de deviaties worden negatieve deviaties positief gemaakt. Je hebt de variance
se en de standaard deviatie, s, dit is de wortel van s2.
s2=¿ ( x 1 - x́ ¿2 + ( x 2 - x́ ¿ 2 + .. of compact: s2 = 1 ∑ ( x i - x́ ¿ 2
n–1 n–1
Standaard deviatie:
1 ∑¿
s=
√ n−1
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller EeuwigStudent1. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $4.31. You're not tied to anything after your purchase.