Samenvatting Moore
H1
1.1
Een dataset bevat informatie over een aantal cases. Deze cases kunnen klanten, bedrijven
of onderwerpen in een studie, experimenten, enz. zijn.
Voor elke case geeft de data waarden voor 1 of meer variabelen. Een variabele beschrijft
een karakteristiek van een case, zoals iemands lengte, salaris of gender. Variabelen kunnen
verschillende waarden hebben in verschillende cases.
Een label is een speciale variabele die worden gebruikt om een case in een dataset te
identificeren.
Sommige variabelen kunnen categoriaal/kwalitatief zijn en andere zijn kwantitatief. Een
categoriale variabele zet elk individu in een bepaalde categorie, zoals man of vrouw. Een
kwantitatieve variabele heeft numerieke waarden die bepaalde karakteristieken van een case
meten, zoals lengte in cm en jaarlijks salaris in euro’s.
De key characteristics van de dataset beantwoorden de vraag Wie? Wat? Wanneer?
1.2
Exploratory data sets gebruiken grafieken en numerieke samenvattingen om variabelen in
de data set te beschrijven en hun relatie weer te geven.
de distribution van de variabele verteld ons wat voor waarden er zijn en hoe vaak die
waarden voorkomen (?).
Bar graphs en pie charts laten de distributies van kwalitatieve/categoriale variabelen zien.
Deze grafieken gebruiken de tellingen of de percentages van de categorieën.
Stemplots en histogrammen laten de distributies zien van kwantitatieve variabelen.
Stemplots scheiden elke observatie in een stem en in een getal van 1 nummer op de leaf.
Histogrammen plotten de frequenties of de percentages van equal-width klassen van
variabelen.
Wanneer je gaat kijken naar een distributie, kijk je naar de vorm, het midden en de
verspreiding en voor een duidelijke deviation van de algemene vorm.
Sommige distributies hebben simpele vormen zoals symmetrisch of skewed. Het aantal van
de modes (major peaks) is een ander aspect van de algemene vorm. Niet alle distributies
hebben een simpele algemene vorm, zeker wanneer er maar weinig observaties zijn.
Outliers zijn de observaties die buiten het algemene patroon van de distributie vallen. Je
moet altijd kijken naar de outliers en ze proberen uit te leggen.
Wanneer observaties van een variabele uitgevoerd zijn over de tijd heen, dan maar je een
time plot dat de tijd horizontaal op de grafiek heeft en de waarden van de variabele
verticaal. Een time plot kan veranderingen door de tijd heen laten zien.
1.3
Een numerieke samenvatting van een distributie moet de center met zijn spread of
variabele laten zien.
De mean en de mediaan zijn beide het midden van de distributie, maar op verschillende
manieren. De mean is het gemiddelde van alle resultaten en de mediaan is echt het midden
van de resultaten.
Wanneer de je mediaan gebruikt om het midden van de metingen te beschrijven, kan je de
spread beschrijven door het geven van de kwartielen. Q1 zit op ¼ deel van de metingen en
Q3 zit op ¾ deel van de metingen.
, Samenvatting Moore
De interquartile range is het verschil tissen de kwartielen. Het is de verspreiding van de
middelste helft van de data. De 1,5xIQR rule laat zien dat observaties die meer dan 1,5 keer
zo groot zijn dan de IQR mogelijk outliers zijn.
The five-number summary die bestaat uit de mediaan, de kwartielen en de max en min,
geeft een snelle algemene beschrijving van de distributie. De mediaan beschrijft het midden
en de kwartielen en extreme laten de verspreiding zien.
De boxplot is gebaseerd op de five-number summary en is nuttig voor het vergelijken van
de distributies. In een modified boxplot worden de punten die geïdentificeerd zijn door de
1,5xIQR regel individueel geplot. Side-by-side bloxplots kunnen gebruikt worden om
boxplots voor meer dan 1 groep in dezelfde grafiek te laten zien.
De variance, s2, en zeker het kwadraat, de standard deviation s, zijn beide algemene
metingen van de verspreiding over het gemiddelde. De standaarddeviatie is zero wanneer er
geen verspreiding is en wordt groter naarmate de verspreiding vergroot.
Een resistant measure van elk aspect van een distributie is relatief onaangeraakt door
veranderingen in de numerieke waarde van een kleine proportie van het totaal aantal
observaties, het maakt dan ook niet uit hoe groot die veranderingen zijn. De Q1, mediaan en
Q3 zijn resistant en de mean en standaarddeviatie zijn niet resistant.
De mean en standaarddeviatie zijn goede beschrijvingen voor een symmetrische distributie
zonder outliers. Ze zijn het meest nuttig voor de normal distributions. De five-number
summary is een betere uitbreidende beschrijving voor skewed distributions.
Linear transformations hebben de formule: xnew = a + bx. Een lineaire transformatie
veranderd de oorsprong als a ≠ 0 en veranderd de grootte van de unit van metingen
wanneer b > 0. Lineaire transformaties veranderen niet de algemene vorm van de distributie.
Het vermenigvuldigd de verdeling van b en veranderd het percentage of metingen van het
midden m naar a + bm.
Numerieke metingen van specifieke aspecten van een distributie, zoals het midden en de
verspreiding, geven niet de volledige vorm aan van de meeste distributies. In sommige
gevallen, specifieke distributies met meerdere pieken en dalen, kunnen die metingen niet erg
informatief zijn.
1.4
Het algemene patroon van een distributie kan vaak worden compact worden beschreven
door een density curve. Dit heeft 1 compleet gebied onder de lijn leggen. De gebieden
onder de density curve geeft proporties van observaties voor de distributie.
De mean (balance point), de mediaan (equal-areas point) en de kwartielen kunnen
ongeveer door het blote oog worden neergezet in een density curve. De standaarddeviatie
kan niet door het blote oog worden neergezet in een density curve. De mean en de mediaan
zijn gelijk voor de symmetrische density curves, maar de man van een skewed curve zit veel
verder weg van de staart dan de mediaan.
De normal distributions worden beschreven door een bell-shaped, symmetrisch of
unimodal density curve. De mean en de standaarddeviatie specificeren de normal
distribution compleet. Alle normale distributies voldoen aan de 68-95-99.7 rule.
Om een waarneming te standaardiseren, het gemiddelde van de verdeling af te trekken en
vervolgens te delen door de standaardafwijking. De resulterende z-score geeft aan hoeveel