Craig, B: Introduction to the Practice of Statistics
dit is een samenvatting van het vak statistiek 2.2 op de Erasmus Universiteit (Erasmus School of Social and behavioural Science). Het is een samenvatting van het boek Moore, McCabe en Craig aangevuld met de gegeven college's in dit blok. Het bevat voorbeelden en formules.
Het is een samenvatting ...
Extensive summary Craig, B: Introduction to the Practice of Statistics - Statistics
Summary Lectures and Readings: Statistics 1 - Introduction (FSWPE1-032)
Detailed Summary: Lectures and Readings STATISTICS 2.2 FSWPE2-022
All for this textbook (11)
Written for
Erasmus Universiteit Rotterdam (EUR)
Pedagogische wetenschappen
Statistiek 2.2
All documents for this subject (2)
6
reviews
By: orthopedagooginopleiding • 5 year ago
By: Danielle196 • 4 year ago
By: nikkivandekooij • 5 year ago
By: julianoorlander • 4 year ago
By: ashleydekaper28 • 5 year ago
By: larissaalbazi • 5 year ago
Seller
Follow
jollabot
Reviews received
Content preview
Samenvatting Moore, McCabe en Craig
Hoofdstuk 1 – looking at data
Casussen zijn objecten (subjects) die je omschrijft met data. Deze kun je labelen. Een variabele is een
karaktertrek van een casus die een bepaalde waarde (value) kan aannemen.
Soorten variabelen:
- Categorische variabele: kwalitatieve variabele, verdeelt de casussen in groepen (een
eigenschap, leeftijdscategorie)
- Kwantitatief: een aantal, een hoeveelheid (denk hierbij aan leeftijd, IQ, aantal kinderen of een
percentage)
Meetniveau’s:
Categorische variabelen:
- Ordinaal: categorieën die je kan rangschikken
- Nominaal: categorieën die je niet kan rangschikken
Kwantitatieve variabelen:
- Interval: afstanden tussen waardes zijn interpreteer baar, maar geen absoluut nulpunt.
- Ratio: afstanden tussen waardes met een absoluut nulpunt, denk hierbij aan leeftijd, lengte en
inkomen
Exploratory data analysis: is het onderzoeken en in kaart brengen van de data. Dit gebeurt op 2
verschillende manieren:
- Onderzoek elke variabele apart en daarna onderzoek je de relatie tussen deze 2
- Maak een grafische weergave van de data
Distributie (verdeling) van een variabele, geeft weer welke waardes de variabele aanneemt en hoe
vaak. Een kwantitatieve variabele kun je weergeven door middel van:
- Stemplot (steel blad diagram)
- Histogram: veel kwantitatieve data in 1 keer kwijt. Waardes worden opgedeeld in klassen en
dan wordt weergegeven hoe vaak deze klasse zich voordoet. Er zijn geen ruimtes tussen de
staven en alle klassen (staven) moeten even breed zijn.
Een kwantitatieve variabele kun je weergeven door middel van:
- Staafdiagrammen: categorieën kunnen in een willekeurige volgorde staan, geeft aan hoeveel
waarnemingen in elke categorie vallen.
- Cirkeldiagram: geeft aan hoeveel % een categorie inneemt in het totaal.
Je beschrijft hierbij de verdeling door vorm, centrum en spreiding. Belangrijk deel hierbij is een outlier.
Het gemiddelde is gevoelig voor outliers, de mediaan niet.
Een normale verdeling kan je beschrijven op verschillende manieren:
- Symmetrisch
- Meertoppig: in de toppen zit de modus, de waarde die het meeste voorkomt.
- Scheefheid
o De staart geeft hierbij aan naar welke kant de verdeling scheef is.
Centrummaten
Gemiddelde (mean): wordt sterk beinvloedt door extreme waardes. Het is daarom dus
geen resistente meting. Wordt berekend aan de hand van de volgende formule:
Mediaan (median): is eeen meer resistente metingswaarde dan het gemiddelde. De mediaan is de
middelste waarneming in de data. De helft (50%) van de waardes is groter en 50% is kleiner dan dit
getal. Hiervoor moet je de data eerst sorteren op volgorde, dan het middelste getal nemen.
-1-
,Modus is het getal wat het meeste voorkomt in de meting
Standaarddeviatie is de gemiddelde afwijking van het
gemiddelde, ook deze waarde is niet resistent. Je
berekent deze aan de hand van deze formule:
In stappen is dit:
o Bereken het gemiddelde
o Bereeken voor elke waarde wat het afwijkt van het gemiddelde
o Kwadrateer al deze afwijkingen
o Tel dit bij elkaar op
o Deel dit door n-1 (aantal waardes – 1, dit heet degrees of freedom)
▪ Je hebt nu de variantie berekend (𝑺𝟐 )
o Trek hiervan de wortel en je hebt de standaarddeviatie (S)
De spreiding beschrijf je aan de hand van kwartielen, welke je kan samenvatten in de five-number-
summary:
1 (laagste getal), 2 (1e Quartiel), 3 (2e Quartiel, mediaan), 4 (3e quartiel), 5 (hoogste getal)
Deze kun je vinden door de volgende stappen uit te voeren:
- Bereken de mediaan
- Q1 is de mediaan van alle waardes kleiner dan de gevonden mediaan bij stap 1
- Q3 is de mediaan van alle waardes groter dan de gevonden mediaan bij stap 1
Een boxplot heeft de five-number-summary grafisch weer. De box zijn de verschillende waardes van de
kwartielen en de streepjes zijn de laagste/hoogste waarde in de meting. De boxplot kan gemodificeerd
worden, dit betekent dat de outliers de boxplot niet zodanig beïnvloeden. Dit kan door middel van de
inter quartile range (IQR). Deze wordt berekend door Q3-Q1 x 1.5 te doen. Deze afstand opgeteld bij
Q3 en afgetrokken bij Q1 zijn de uiterste waardes van de streepjes (whiskers) van de boxplots. De
waardes daarbuiten worden beschouwd als outliers.
Lineaire transformatie
Verandert de originele variabele in een nieuwe variabele door er een constante bij op te tellen.
Constante overal bij optellen of aftrekken zorgt ervoor dat de mediaan, het gemiddelde, de
kwartielen en percentielen toenemen/afnemen met . De Variantie en standaarddeviatie blijven wel
gelijk
Density curves and normal distributions
Een normaal verdeling is een wiskundige benadering van een histogram. Een normale verdeling door
een histogram heen getekend, heet een density curve. Het beschrijft het globale patroon van een
distributie. Er zijn 2 regels:
- Altijd boven of op de horizontale as
- De oppervlakte onder de curve is altijd
opgeteld 1
Het oppervlakte onder de curve is de proportie van een
waarde dat valt in de spreiding.
De mediaan van de density curve verdeelt het
oppervlakte in 2 delen, het gemiddelde is het punt
waar de curve in balans zou kunnen zijn.
Steekproeven over de populatie: S (standaarddeviatie) en 𝑥̅ voor het gemiddelde
In de populatie zelf: (standaarddeviatie) en voor het gemiddelde, dit is zo bij de density curve
Steekproef van populatiegemiddelde: is het gemiddelde en is de standaardafwijking
-2-
,De density curve van een normaal verdeling is symmetrisch, unimodaal en klokvormig. De top zit bij
en zit bij het buigpunt. De notatie is N(, ).
Er geldt een 68-95-99.7 regel bij een normaalverdeling. Dit houdt in dat 68% zich bevindt in 1*,
95% bevindt zich in 2* en 99.7% bevindt zich in 3*.
Normaal verdelingen worden gestandaardiseerd, zodat ze met elkaar kunnen
worden vergeleken. Dit gebeurt aan de hand
van Z-scores. De formule voor Z-scores is:
Hiermee bereken je hoeveel
standaarddeviaties de gevonden waarde X, van het gemiddelde afwijkt. De
gevonden Z-waarde is altijd de linkerkant proportie bij het gebruik van tabel A.
Als X normaal verdeeld is en gestandaardiseerd wordt, wordt de notatie: N (0,1)
Als de lijn van gebeurtenis X in een normaal kwartielplot op een rechte lijn liggen, is gebeurtenis X
normaal verdeeld. Dit doe je alleen via een statistiekprogramma.
Hoofdstuk 2 – Data - relationships
Soorten variabelen:
- Onafhankelijke variabelen: explanatory variabele (verklarende variabele), zij verklaren de
veranderingen in de afhankelijke variabelen
- Afhankelijke variabelen: response variabele (uitkomst variabele) , zij reageren op de
veranderingen in de onafhankelijke variabelen
Variabelen zijn aan elkaar gerelateerd als de waarde van de ene variabele je informatie geeft over dew
aarde van de andere variabele die je anders niet zou hebben.
Scatterplot laat de relatie tussen twee kwantitatieve variabelen gemeten bij dezelfde personen.
Waarden van de ene variabele op de horizontale (x-as, de verklarende variabele) en waarde van de
andere variabele op de verticale (y-as, uitkomst variabele). Ieder individu is een puntje op het
scatterplot.
- Zoek hierbij naar het globale patroon, kijk ook naar afwijkingen van dit patroon. Beschrijf dit
aan de hand van de richting, vorm en sterkte van de gevonden relatie.
- Beschrijf dit patroon aan de hand van de vorm, richting en kracht
- Wees alert voor outliers
Interpretatie:
- Variabelen kunnen positief geassocieerd zijn. Beide variabelen nemen toe of beide variabelen
nemen af. Het is hierbij van belang dat beide variabele dezelfde verandering doorgaan.
- Variabelen kunnen negatief geassocieerd zijn. De variabelen veranderen in tegengestelde
richting, als de een toeneemt, neemt de ander af en andersom.
-3-
, Correlatie:
Een getal wat voor de kracht en de richting van
de relatie tussen de twee variabelen staat. Let
wel, dit gaat om kwantitatieve variabelen. Dit kan
alleen bij een lineair verband. Als beide
variabelen evenredig toenemen. Correlatie heeft
als symbool: r. De formule om correlatie te
berekenen is:
- Geeft alleen lineaire relatie weer en
weet niet wat de oorzaak of het gevolg is.
- Beide variabelen zijn kwantitatief
- Heeft geen eenheid, is gewoon een nummer
- Positief betekent een positieve relatie, negatief betekent een negatieve relatie
- Altijd een getal tussen -1 en 1, het is niet een resistent getal. Gevoelig voor outliers.
Als je wel een categorische variabele wil bekijken, dan moet er gewerkt worden met verschillende
kleuren en/of symbolen.
De variabiliteit van de verschillende variabelen kan berekend
worden met de som of squares. Deze kan je apart berekenen voor x
en y door deze formule:
De covariabiliteit (hoe variëren X en Y samen) kun je berekenen met
de Som of products. Hiervoor gebruik je deze formule:
Deze formules kun je dan ook gebruiken om de correlatie uit te rekenen:
Een regressie lijn is een rechte lijn die laat zien hoe de response variabele reageert op een explanatory
variabele. Aan de hand hiervan kan je waardes gaan voorspellen: 𝑦̂. Hiervoor zijn die twee variabelen
nodig, voor correlatie hoeven ze niet response/explanatory te zijn.
Correlatie behandelt beide variabele als het ware ‘gelijk’, regressie doet dat niet. Regressie is er een
onafhankelijke (predictor) variabele (x) en een afhankelijke (uitkomst) variabele (y).
Als scatterplot een lineair patroon laat zien, kunnen we het algemene patroon beschrijven door hier
een rechte lijn door te trekken. Het fitten van een lijn bij de data betekent dat we een lijn tekenen die
zo dicht mogelijk door de punten loopt.
Regressie vergelijking is:
̂ = 𝒃𝟎 + 𝒃𝟏 𝑿
𝒚
- X is de waarde van de verklarende variabele
- 𝒚 ̂ is de verwachte waarde van de uitkomst variabele voor een gegeven
waarde voor x
- 𝒃𝟏 is de helling, de hoeveelheid waarmee y verandert per 1 stap in de
verandering van X.
- 𝒃𝟎 is de intercept, de waarde van y als x=0
-4-
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller jollabot. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $8.14. You're not tied to anything after your purchase.