Craig, B: Introduction to the Practice of Statistics
dit is een samenvatting van het vak statistiek 2.2 op de Erasmus Universiteit (Erasmus School of Social and behavioural Science). Het is een samenvatting van het boek Moore, McCabe en Craig aangevuld met de gegeven college's in dit blok. Het bevat voorbeelden en formules.
Het is een samenvatting ...
SAMENVATTING ALLE HOORCOLLEGES - STATISTIEK II/2 (PSBA2-07)
Samenvatting Statistiek 1 A (1e jaar psychologie RUG) - Introduction to the practice of Statistics (Moore & McCabe)
Samenvatting Statistiek 1B (1e jaar psychologie RUG) - Introduction to the practice of Statistics (Moore & McCabe)
Alles voor dit studieboek (89)
Geschreven voor
Erasmus Universiteit Rotterdam (EUR)
Pedagogische wetenschappen
Statistiek 2.2
Alle documenten voor dit vak (2)
6
beoordelingen
Door: orthopedagooginopleiding • 5 jaar geleden
Door: Danielle196 • 4 jaar geleden
Door: nikkivandekooij • 5 jaar geleden
Door: julianoorlander • 4 jaar geleden
Door: ashleydekaper28 • 5 jaar geleden
Door: larissaalbazi • 5 jaar geleden
Verkoper
Volgen
jollabot
Ontvangen beoordelingen
Voorbeeld van de inhoud
Samenvatting Moore, McCabe en Craig
Hoofdstuk 1 – looking at data
Casussen zijn objecten (subjects) die je omschrijft met data. Deze kun je labelen. Een variabele is een
karaktertrek van een casus die een bepaalde waarde (value) kan aannemen.
Soorten variabelen:
- Categorische variabele: kwalitatieve variabele, verdeelt de casussen in groepen (een
eigenschap, leeftijdscategorie)
- Kwantitatief: een aantal, een hoeveelheid (denk hierbij aan leeftijd, IQ, aantal kinderen of een
percentage)
Meetniveau’s:
Categorische variabelen:
- Ordinaal: categorieën die je kan rangschikken
- Nominaal: categorieën die je niet kan rangschikken
Kwantitatieve variabelen:
- Interval: afstanden tussen waardes zijn interpreteer baar, maar geen absoluut nulpunt.
- Ratio: afstanden tussen waardes met een absoluut nulpunt, denk hierbij aan leeftijd, lengte en
inkomen
Exploratory data analysis: is het onderzoeken en in kaart brengen van de data. Dit gebeurt op 2
verschillende manieren:
- Onderzoek elke variabele apart en daarna onderzoek je de relatie tussen deze 2
- Maak een grafische weergave van de data
Distributie (verdeling) van een variabele, geeft weer welke waardes de variabele aanneemt en hoe
vaak. Een kwantitatieve variabele kun je weergeven door middel van:
- Stemplot (steel blad diagram)
- Histogram: veel kwantitatieve data in 1 keer kwijt. Waardes worden opgedeeld in klassen en
dan wordt weergegeven hoe vaak deze klasse zich voordoet. Er zijn geen ruimtes tussen de
staven en alle klassen (staven) moeten even breed zijn.
Een kwantitatieve variabele kun je weergeven door middel van:
- Staafdiagrammen: categorieën kunnen in een willekeurige volgorde staan, geeft aan hoeveel
waarnemingen in elke categorie vallen.
- Cirkeldiagram: geeft aan hoeveel % een categorie inneemt in het totaal.
Je beschrijft hierbij de verdeling door vorm, centrum en spreiding. Belangrijk deel hierbij is een outlier.
Het gemiddelde is gevoelig voor outliers, de mediaan niet.
Een normale verdeling kan je beschrijven op verschillende manieren:
- Symmetrisch
- Meertoppig: in de toppen zit de modus, de waarde die het meeste voorkomt.
- Scheefheid
o De staart geeft hierbij aan naar welke kant de verdeling scheef is.
Centrummaten
Gemiddelde (mean): wordt sterk beinvloedt door extreme waardes. Het is daarom dus
geen resistente meting. Wordt berekend aan de hand van de volgende formule:
Mediaan (median): is eeen meer resistente metingswaarde dan het gemiddelde. De mediaan is de
middelste waarneming in de data. De helft (50%) van de waardes is groter en 50% is kleiner dan dit
getal. Hiervoor moet je de data eerst sorteren op volgorde, dan het middelste getal nemen.
-1-
,Modus is het getal wat het meeste voorkomt in de meting
Standaarddeviatie is de gemiddelde afwijking van het
gemiddelde, ook deze waarde is niet resistent. Je
berekent deze aan de hand van deze formule:
In stappen is dit:
o Bereken het gemiddelde
o Bereeken voor elke waarde wat het afwijkt van het gemiddelde
o Kwadrateer al deze afwijkingen
o Tel dit bij elkaar op
o Deel dit door n-1 (aantal waardes – 1, dit heet degrees of freedom)
▪ Je hebt nu de variantie berekend (𝑺𝟐 )
o Trek hiervan de wortel en je hebt de standaarddeviatie (S)
De spreiding beschrijf je aan de hand van kwartielen, welke je kan samenvatten in de five-number-
summary:
1 (laagste getal), 2 (1e Quartiel), 3 (2e Quartiel, mediaan), 4 (3e quartiel), 5 (hoogste getal)
Deze kun je vinden door de volgende stappen uit te voeren:
- Bereken de mediaan
- Q1 is de mediaan van alle waardes kleiner dan de gevonden mediaan bij stap 1
- Q3 is de mediaan van alle waardes groter dan de gevonden mediaan bij stap 1
Een boxplot heeft de five-number-summary grafisch weer. De box zijn de verschillende waardes van de
kwartielen en de streepjes zijn de laagste/hoogste waarde in de meting. De boxplot kan gemodificeerd
worden, dit betekent dat de outliers de boxplot niet zodanig beïnvloeden. Dit kan door middel van de
inter quartile range (IQR). Deze wordt berekend door Q3-Q1 x 1.5 te doen. Deze afstand opgeteld bij
Q3 en afgetrokken bij Q1 zijn de uiterste waardes van de streepjes (whiskers) van de boxplots. De
waardes daarbuiten worden beschouwd als outliers.
Lineaire transformatie
Verandert de originele variabele in een nieuwe variabele door er een constante bij op te tellen.
Constante overal bij optellen of aftrekken zorgt ervoor dat de mediaan, het gemiddelde, de
kwartielen en percentielen toenemen/afnemen met . De Variantie en standaarddeviatie blijven wel
gelijk
Density curves and normal distributions
Een normaal verdeling is een wiskundige benadering van een histogram. Een normale verdeling door
een histogram heen getekend, heet een density curve. Het beschrijft het globale patroon van een
distributie. Er zijn 2 regels:
- Altijd boven of op de horizontale as
- De oppervlakte onder de curve is altijd
opgeteld 1
Het oppervlakte onder de curve is de proportie van een
waarde dat valt in de spreiding.
De mediaan van de density curve verdeelt het
oppervlakte in 2 delen, het gemiddelde is het punt
waar de curve in balans zou kunnen zijn.
Steekproeven over de populatie: S (standaarddeviatie) en 𝑥̅ voor het gemiddelde
In de populatie zelf: (standaarddeviatie) en voor het gemiddelde, dit is zo bij de density curve
Steekproef van populatiegemiddelde: is het gemiddelde en is de standaardafwijking
-2-
,De density curve van een normaal verdeling is symmetrisch, unimodaal en klokvormig. De top zit bij
en zit bij het buigpunt. De notatie is N(, ).
Er geldt een 68-95-99.7 regel bij een normaalverdeling. Dit houdt in dat 68% zich bevindt in 1*,
95% bevindt zich in 2* en 99.7% bevindt zich in 3*.
Normaal verdelingen worden gestandaardiseerd, zodat ze met elkaar kunnen
worden vergeleken. Dit gebeurt aan de hand
van Z-scores. De formule voor Z-scores is:
Hiermee bereken je hoeveel
standaarddeviaties de gevonden waarde X, van het gemiddelde afwijkt. De
gevonden Z-waarde is altijd de linkerkant proportie bij het gebruik van tabel A.
Als X normaal verdeeld is en gestandaardiseerd wordt, wordt de notatie: N (0,1)
Als de lijn van gebeurtenis X in een normaal kwartielplot op een rechte lijn liggen, is gebeurtenis X
normaal verdeeld. Dit doe je alleen via een statistiekprogramma.
Hoofdstuk 2 – Data - relationships
Soorten variabelen:
- Onafhankelijke variabelen: explanatory variabele (verklarende variabele), zij verklaren de
veranderingen in de afhankelijke variabelen
- Afhankelijke variabelen: response variabele (uitkomst variabele) , zij reageren op de
veranderingen in de onafhankelijke variabelen
Variabelen zijn aan elkaar gerelateerd als de waarde van de ene variabele je informatie geeft over dew
aarde van de andere variabele die je anders niet zou hebben.
Scatterplot laat de relatie tussen twee kwantitatieve variabelen gemeten bij dezelfde personen.
Waarden van de ene variabele op de horizontale (x-as, de verklarende variabele) en waarde van de
andere variabele op de verticale (y-as, uitkomst variabele). Ieder individu is een puntje op het
scatterplot.
- Zoek hierbij naar het globale patroon, kijk ook naar afwijkingen van dit patroon. Beschrijf dit
aan de hand van de richting, vorm en sterkte van de gevonden relatie.
- Beschrijf dit patroon aan de hand van de vorm, richting en kracht
- Wees alert voor outliers
Interpretatie:
- Variabelen kunnen positief geassocieerd zijn. Beide variabelen nemen toe of beide variabelen
nemen af. Het is hierbij van belang dat beide variabele dezelfde verandering doorgaan.
- Variabelen kunnen negatief geassocieerd zijn. De variabelen veranderen in tegengestelde
richting, als de een toeneemt, neemt de ander af en andersom.
-3-
, Correlatie:
Een getal wat voor de kracht en de richting van
de relatie tussen de twee variabelen staat. Let
wel, dit gaat om kwantitatieve variabelen. Dit kan
alleen bij een lineair verband. Als beide
variabelen evenredig toenemen. Correlatie heeft
als symbool: r. De formule om correlatie te
berekenen is:
- Geeft alleen lineaire relatie weer en
weet niet wat de oorzaak of het gevolg is.
- Beide variabelen zijn kwantitatief
- Heeft geen eenheid, is gewoon een nummer
- Positief betekent een positieve relatie, negatief betekent een negatieve relatie
- Altijd een getal tussen -1 en 1, het is niet een resistent getal. Gevoelig voor outliers.
Als je wel een categorische variabele wil bekijken, dan moet er gewerkt worden met verschillende
kleuren en/of symbolen.
De variabiliteit van de verschillende variabelen kan berekend
worden met de som of squares. Deze kan je apart berekenen voor x
en y door deze formule:
De covariabiliteit (hoe variëren X en Y samen) kun je berekenen met
de Som of products. Hiervoor gebruik je deze formule:
Deze formules kun je dan ook gebruiken om de correlatie uit te rekenen:
Een regressie lijn is een rechte lijn die laat zien hoe de response variabele reageert op een explanatory
variabele. Aan de hand hiervan kan je waardes gaan voorspellen: 𝑦̂. Hiervoor zijn die twee variabelen
nodig, voor correlatie hoeven ze niet response/explanatory te zijn.
Correlatie behandelt beide variabele als het ware ‘gelijk’, regressie doet dat niet. Regressie is er een
onafhankelijke (predictor) variabele (x) en een afhankelijke (uitkomst) variabele (y).
Als scatterplot een lineair patroon laat zien, kunnen we het algemene patroon beschrijven door hier
een rechte lijn door te trekken. Het fitten van een lijn bij de data betekent dat we een lijn tekenen die
zo dicht mogelijk door de punten loopt.
Regressie vergelijking is:
̂ = 𝒃𝟎 + 𝒃𝟏 𝑿
𝒚
- X is de waarde van de verklarende variabele
- 𝒚 ̂ is de verwachte waarde van de uitkomst variabele voor een gegeven
waarde voor x
- 𝒃𝟏 is de helling, de hoeveelheid waarmee y verandert per 1 stap in de
verandering van X.
- 𝒃𝟎 is de intercept, de waarde van y als x=0
-4-
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper jollabot. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €7,49. Je zit daarna nergens aan vast.