Samenvatting van het boek Moore - McCabe en Criag 9th edition H1 t/m 7
Hieronder een beschrijving wat er in de samenvatting staat:
Hoofdstuk 1 (zonder Beyond the Basics: Density estimation)
Hoofdstuk 2 (zonder 2.4 en 2.5)
Hoofdstuk 3 (zonder Beyond the Basics: Capture-recapture)
Hoofdstuk 4 (zonde...
Hoofdstuk 1
1.1. Cases zijn de objecten beschreven als data (klanten, bedrijven, aantal deelnemers)
Label is een speciale variabele om de verschillende cases te onderscheiden
Een variabel is een karakterkenmerk van een case (hoogte, geslacht, salaris):
➔ Categorie variabel: plaats een case in een groep of categorie (man of vrouw)
➔ Kwantitatieve variabel: neemt numerieke waarderingen waar bewerkingen zoals optellen of
middeling zinvol zijn (hoogte in cm, salaris in dollars)
- Unit of measurement: beschrijving van welke kwantitatieve variabele (dollars, inches,
centimeters).
Variabelen kunnen verschillende waarden hebben voor verschillende cases of units.
Data beschrijven:
1. Wie? Welke objecten en hoeveel?
2. Wat? Hoeveel variabelen heeft het en wat zijn de exacte definities hiervan? (unit of
measurements)
3. Waarom? Wat is het doel van de data?
Instrumenten zijn nodig voor het meten van variabelen. Het is van belang dat je bij elk variabele echt
meet wat je wilt weten. Een slechte keuze van variabelen kan leiden tot misleidende conclusies.
1.2. Exploratory date analysis: data beschrijven
- Begin met onderzoeken van elke variabele op zichzelf. Dan naar de relaties tussen de
variabelen
- Begin met graph(s). Voeg dan numerieke samenvattingen van specifieke data toe
Categorie variabelen:
- Distribution of categorical variable: aantal, procent of proportion
- Staafdiagram: aantal of procenten
- Cirkeldiagram: procenten
Kwantitatieve variabelen:
1. Stemplot: geeft de verdeling van de numerieke waarden weer
➔ Back to back stemplot: om dingen te vergelijken, zie afbeelding >
2. Histogram: geeft alleen het aantal of procent weer dat binnen een klasse valt
- Scores verdelen in klasse van evenwichtige spreiding
- Frequentie van aantallen binnen de klasse
- Verschillende soorten: scheef naar links/recht of symmetrisch
- Unimodal: een grote piek binnen de histogram
- Outlier: een individuele waarde die buiten het patroon valt, uitleggen!
Timeplot: plot elke variabele die op een tijdstip werd gemeten. Altijd op de horizontale as
1.3. Zie afbeelding blz. 2. Modus: meest voorkomende cijfer
Mean x̄: gemiddelde waarde. Alles bij elkaar ∑ / n
Median: middelste waarde. n+ = de plaats van de mediaan. Die 2 cijfers bij elkaar / 2 = mediaan
Quartiles: Q1: 25%, Q3: 75%. Om kwartielen te berekenen:
1. M: vind de mediaan
2. Q1: mediaan van het stuk onder/links M
3. Q3: mediaan van het stuk boven/rechts M Five-number summary
4. Whiskers: lijnen tot het kleinste en grootste getal
5. Minimum en maximum getallen
1
,Interquartile range (IQR) = Q3 – Q1
Outlier: een sterke afwijking.
Zijn alleen als deze 1.5 x IQR onder of boven Q3 of Q1 ligt:
- Q1 – (1.5 x IQR)
- Q3 + (1.5 x IQR)
Modified boxplot: lijnen gaan naar de kleinste of grootste waarde vanuit de box,
die niet horen tot de IQR regel
Side-by-side boxplot: twee of meer boxplots om groepen te vergelijken op het
gebied van dezelfde variabelen
Standaarddeviatie (s): de mate van spreiding van getallen rondom het gemiddelde, √s2
Variantie (s2): mate waarin de waarden onderling verschillen
Een lineaire transformatie verandert de originele variabele x in een nieuwe variabele xnew:
xnew = a + bx.
1.4.
Density curves: een patroon die het algemene patroon van gegevens weergeeft maar onregelmatig
heden weglaat
➔ Is altijd op of boven de horizontale as
➔ Heeft een gebied precies onder zich
1. De median is het punt dat de curve verdeeld in 2 gelijke gebieden
2. De mean is het balans punt
* voor een symmetrische curve zijn de mean en median gelijk, de mean wordt weggetrokken als de
curve een ‘staart’ heeft.
68-95-99.7 rule:
- 68% van de waarden valt binnen σ van µ
- 95% van de waarden valt binnen 2σ van µ
- 99.7% van de waarden valt binnen 3σ van µ
2
,z-score vertelt hoeveel standaarddeviaties afwijken van het gemiddelde en in welke richting. Zie
tabel A in het boek.
De volgende formules worden nu gebruikt:
Soms worden gegevens voor de z-score gegeven (Tabel A)
➔ X = µ +zσ
Voorbeeld
Je haalt voor de toelatingstoets een 6.7. Het gemiddelde is een 5.5 en de SD is 1.481. Wat is de
proportie studenten die een 6.7 of lager heeft gehaald?
Z-score = (6.7 – 5.5)/1.481 = 0.81
Zie Tabel A voor P(z < 0.81)
P(z < 0.81)= 0.7910
Dus 0.791 (of 79.1%) van de studenten heeft een 6.7 of lager gehaald.
Cummulative proportions: verhoudingen van waarden in een verdeling die ligt op of beneden een
gegeven waarde.
Hoofdstuk 2
2.1.
Twee gemeten variabelen in hetzelfde geval zijn geassocieerd als een van de waarde van een
variabele iets zegt over de waarde van de andere variabele.
Belangrijke eigenschappen voor relaties tussen data:
1. Object: bepaal de objecten en hoeveel zijn er?
2. Categorie of kwantitatief: classificeer elke variabele als categorie of kwantitatief
3. Waarde: bepaal de waarde van elke variabele
4. Classificeer elke variabele als
- Respons/afhankelijke variabele: meet een uitkomst van een studie
- Explanatory/onafhankelijke variabele: verklaart of veroorzaakt veranderingen in de
respons variabele
5. Label: bepaal welke labels de variabelen hebben
2.2. Scatterplots
De meest gebruikte manier om de relatie tussen twee kwantitatieve variabelen weer te geven is
door middel van een scatterplot > spreidingsdiagram.
- De waarden van de ene variabelen komt op de horizontale as > explanatory variabele
- De waarden van de andere variabelen komt op de verticale as
- Elk object van data verschijnt als een ‘punt’
- Outlier: sterke afwijking
catterplot: puntjes geven de intersectie van X en Y waarden weer
Interpreteren van een scatterplot:
- Bekijk het algehele patroon en de afwijkingen
3
, 1. Vorm:
- Lineair: in een rechte lijn
- Curve: met een boog (non-lineair)
2. Richting:
- Positieve correlatie: hoge scores van de ene variabele hangen samen met hoge scores
van de andere variabele
- Negatieve correlatie: hoge scores van de ene variabele hangen samen met lage scores
van de andere variabele
3. Sterkte: hoe dichter de punten bij de lijn liggen, hoe sterker de relatie ertussen
Om een curve lineair te maken, kan er een transformatie plaats vinden. Dan worden originele
waarden vervangen door getransformeerde waarden en deze worden gebruikt voor de analyse.
➔ Meest belangrijke is de log transformatie: log(y)
Wanneer een variabele toe wordt gevoegd aan een scatterplot, gebruik je een andere kleur of
symbool of elke categorie.
Scatterplot smoothers: een methode om de relatie tussen twee kwantitatieve variabelen de
onderzoeken door een vloeiende curve in te brengen in data
2.3. Correlatie
De correlatie r meet de richting en sterkte van de lineaire relatie tussen twee kwantitatieve
variabelen. De correlatie tussen x en y is:
4
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper IlseGeers. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €5,99. Je zit daarna nergens aan vast.