Samenvatting Introduction to the practice of Statistics
60 views 0 purchase
Course
Toelatingstentamen
Institution
Erasmus Universiteit Rotterdam (EUR)
Book
Craig, B: Introduction to the Practice of Statistics
Samenvatting van hoofdstuk 1 t/m 7 IN HET NEDERLANDS van het boek introduction to the practice of statistics van Moor McCabe & Craig. Alle hoofdstukken die je moet leren voor het toelatingstentamen van de pre-master pedagogische wetenschappen op de Erasmus universiteit. Inclusief voorbeelden
Hoofdstuk 1,2,3,4,5,6 en 7
May 5, 2020
63
2019/2020
Summary
Subjects
statistiek
orthopedagogiek
pre master
moor mccabe craig
toelatingstentamen
spss
data
ver
kansverdeling
kansberekening
introduction to the practice of statistics
pre master pedagogische wetenschappen
r
Connected book
Book Title:
Author(s):
Edition:
ISBN:
Edition:
More summaries for
Extensive summary Craig, B: Introduction to the Practice of Statistics - Statistics
Summary Lectures and Readings: Statistics 1 - Introduction (FSWPE1-032)
Detailed Summary: Lectures and Readings STATISTICS 2.2 FSWPE2-022
All for this textbook (11)
Written for
Erasmus Universiteit Rotterdam (EUR)
Pedagogische wetenschappen
Toelatingstentamen
All documents for this subject (1)
Seller
Follow
anneeeltink
Reviews received
Content preview
Inhoudsopgave
Hoofdstuk 1 Looking at Data – Distributions ................................................................ 2
1.1 Data ......................................................................................................................... 2
1.2 Displaying Distributions with Graphs ........................................................................ 2
1.3 Describing Distributions with number ....................................................................... 4
1.4 Density curves and normal distributions ................................................................... 7
Hoofdstuk 2 Relationships ........................................................................................... 11
2.1 Relationships ......................................................................................................... 11
2.2 Scatterplots ............................................................................................................ 11
2.3 Correlation ............................................................................................................. 13
2.6 Data analysis for two way tables ............................................................................ 14
2.7 The question of causation ...................................................................................... 16
Hoofdstuk 3 producing data ......................................................................................... 17
3.1 Sources of Data ..................................................................................................... 17
3.2 Design of experiments ........................................................................................... 17
3.3 sampling designs ................................................................................................... 19
3.4 Ethics ..................................................................................................................... 20
Chapter 4 Probability: The study of Randomness ...................................................... 21
4.1 Randomness .......................................................................................................... 21
4.2 Probability models .................................................................................................. 21
4.3 Random Variables.................................................................................................. 23
4.4 Means and variances of Random variables ............................................................ 25
4.5 General probability rules ............................................................................................ 27
Chapter 5 Sampling Distrubtions ................................................................................. 29
5.1 Toward Statistical inference ................................................................................... 29
5.2 The sampling distribution of a sample mean .......................................................... 32
5.3 Sampling Distributions for Counts .......................................................................... 34
Hoofdstuk 6 Introduction to inference ......................................................................... 37
6.1 Estimating with confidence ..................................................................................... 37
6.2 Tests of Significance .............................................................................................. 40
6.3 Use and Abuse of tests .......................................................................................... 43
6.4 Power and Inference as a Decision. ....................................................................... 44
Chapter 7 Inference for Means ..................................................................................... 48
7.1 Inference for the mean of a population ................................................................... 48
7.2 Comparing two means ........................................................................................... 55
,Samenvatting Introduction to the practice of Statistics
Hoofdstuk 1 Looking at Data – Distributions
1.1 Data
Een verzameling data beschrijft een aantal zaken (cases). Bijv. klanten, bedrijven, of
scholen. Voor ieder onderwerp verzamelt men kenmerken in een kolom. Dit zijn variabelen.
Een label is een speciale variabel wat de verschillende cases van elkaar onderscheidt.
Een categoriale variabel (categorical variable) plaatst een case in een of meer groepen/
categorieën. Kwantitatieve variabelen (quantitative variable) hebben numerieke waarde
waarbij optellen of delen zinvol is. Bij kwantitatieve variabelen is de meeteenheid (unit of
measurment) van belang.
Een spreadsheet zoals je ziet in het voorbeeld kan gemaakt worden in excel. In sommige
software programma’s zijn er geen spaties toegestaan in namen van variabelen. Je kunt er
dan __ tussen plaatsen.
Wanneer je aan een statistieke studie begint stel je jezelf de volgende vragen (key
characteristics):
1. Who? Welke cases worden door de data omschreven? Hoeveel cases heeft een data set.
2. What? Hoeveel variabelen zijn er? Wat zijn de exacte definities van deze variabelen? En
wat zijn de meeteenheden?
3. Why? Met welk doel wil je dit onderzoeken?
Je moet zeker weten dat iedere variabel echt meet wat je wilt dat ie meet. Een slechte keuze
van variabelen kan zorgen voor misleidende conclusie. Een voorbeeld daarvan is dat de
mate waarin iets gebeurd (rate) betekenisvoller is dan alleen een telling van wat er gebeurd.
Bijvoorbeeld: De website verkoopt coupons waarmee je korting krijgt bij een restaurant. De
figuur geeft informatie over zeven soorten coupons. De coupons zijn de cases. Het type
restaurant, de naam en het item zijn categorische variabelen. De reguliere prijs en de
kortingsprijs zijn kwantitatieve variabele.
1.2 Displaying Distributions with Graphs
Exploratieve data analyse (Exploratory data analysis) helpt ons om gegevens te
onderzoeken en de belangrijkste kenmerken te weergeven. Twee belangrijke punten om
data te organiseren:
• Begin met het onderzoeken van iedere variabel opzich en onderzoek daarna pas de
onderlinge relaties.
• Begin met een of meerdere grafieken. Voeg daarna de numerieke overzichten van
specifieke aspecten van de data toe.
,Samenvatting Introduction to the practice of Statistics
Bij categoriale variabelen: staafdiagrammen en cirkeldiagrammen
De waarden voor categoriale variabelen zijn labels van de categorieën bijvoorbeeld ja of
nee. De verdeling van een categoriale variabel (distribution of a categorial variable) geeft
een aantal of een percentage van cases die in een bepaalde categorie vallen. Een
alternatief voor procent is de proportie (proportion). De telling (binnen een waarde) gedeeld
door de som van tellingen. (deel : geheel) = proportie. Als je de uitkomst daarvan
vermenigvuldigd krijg je het percentage.
Hou bij het maken van een staafdiagram (bar graph) logische volgorde aan bij het noteren
van variabelen. Van hoge naar lage percentages of op alfabet. Bij een cirkeldiagram (pie
chart) moeten alle categorieën 100% worden, daarom is een staaf diagram flexibeler.
Bij kwantitatieve variabelen: boomdiagrammen (stemplot) en histogrammen
Een boomdiagram (stemplot) geeft een snel beeld van de vorm van de verdeling.
Boomdiagrammen zijn het beste voor kleine waarnemingen met waarden groter dan 0. Als je
twee gerelateerde verdelingen wilt vergelijken kan je een rug tegen rug boomdiagram maken
(back to back stemplot). De stappen van het maken van een boomdiagram:
1. Maak de stam van de boomdiagram met het eerste cijfer van het getal (7 als je
waarneming 72 is) en de bladeren zet je rechts van de streep (2 als je waarneming
72 is)
2. Boven in de stam zet je het kleinste getal en onderaan het grootste getal.
3. Schrijf elk blad in de rij bij het getal waar deze bij hoort, wederom van klein naar
groot.
Een back-to-back stemplot ziet er zo uit.
Rechts in dan bijvoorbeeld de controle groep
en links de onderzoeksgroep.
Een histogram breekt de range van waarden van variabelen in klassen en weergeeft de
telling/percentage van observaties die binnen een klasse vallen. Dat is een verschil met een
staafdiagram deze maakt namelijk staven op basis van de cases.
Bijvoorbeeld deze histogram over IQ van het aantal
studenten:
• Vorm → verdeling is ruwweg symmetrisch
• Centrum → het middelpunt is niet ver van 110. Als
je naar de echte gegevens kijkt zie je dat het
middelpunt 114 is.
• Spreiding → van 75 tot 155
Als je een histogram maakt verdeel je eerst de gegevens in
diverse klassen met gelijke verdeling. Bij het voorbeeld 75
tot 85, 85 tot 95 etc. tel dan het aantal gevallen dat binnen
deze klasse vallen. Dit zijn de frequenties een tabel met de
frequenties noem je een frequentietabel. Teken vervolgens de histogram hierbij zit geen
ruimte tussen de staven zoals bij een staafdiagram. Het uiterlijk van een histogram kan
veranderen als je de klassen veranderd.
, Samenvatting Introduction to the practice of Statistics
Wanneer je de achtergrond van je data begrijpt moet je de data plotten. Als je naar een plot
kijkt zoek dan naar een algemeen patroon en opvallende uitschieters. Het algemene patroon
van verdeling kan je beschrijven door de shape, center en spread.
Bij het beschrijven van een vorm van dataset moet je letten op:
• Is het symmetrisch of scheef in een richting( een scheef naar rechts, dus meer
waarden in de rechter staart, skewed to the right)
• Bevat de verdeling een of meer belangrijke pieken (modes) één piek is unimodal,
twee pieken bimodal, drie pieken trimodal
Als observaties over een bepaalde tijdsspanne zijn genomen maak dan een tijdsplot (time
plot) deze heeft de tijd op de horizontale as en de waarde van de variabel op de verticale
as. Een tijdsplot kan veranderingen in een bepaalde tijd weergeven.
1.3 Describing Distributions with number
Numerieke samenvattingen maken data analyses specifieker. We focussen ons op
numerieke samenvattingen voor kwantitatieve variabelen. Een goede verdeling van een
kwantitatieve variabel bevat zijn vorm, center en spread. Een numerieke omschrijving van
een variabel begint met het middelpunt. Dit kan het gemiddelde zijn (the mean) dit is de
gemiddelde waarde of de mediaan (Median). Dat is de middelste waarde.
Om het gemiddelde te berekenen tel je alles bij elkaar op en deelt dit door het aantal
observaties wat je gedaan hebt. Het gemiddelde is gevoelig voor extreme observaties. Je
kunt die invloeden niet tegenhouden. Het gemiddelde een niet resistente maatstaf (not
resistant measure). Een maatregel die wel resistent is wordt een robust measure
genoemd.
De formule voor het gemiddelde:
𝒙𝟏+𝒙𝟐+𝒙𝟑…..+𝒙𝒏 𝟏
̅=
𝒙 ̅=
korter geschreven als: 𝒙 𝜮 xi
𝒏 𝒏
De 𝛴 (Griekse hoofdletter sigma) staat voor tel ze allemaal bij elkaar op. Het streepje boven
de X geeft het gemiddelde van alle x-waarden aan en je zegt x-balk.
Het meten van het centrum:
Het middelpunt van een verdeling is de mediaan (median). De helft van de observaties zijn
groter en de helft is kleiner dan de mediaan. Je vindt de mediaan als volgt:
1. Zet de observaties op volgorde van groot naar klein
2. Als je een n aantal observaties hebt dat oneven is, is de mediaan M het centrum van
de geordende lijst. Je vindt de locatie door ( n + 1) / 2 te doen. Vervolgens zoek je de
mediaan door die plek op te zoeken.
3. Als het aantal observaties even is doe je hetzelfde alleen valt de mediaan dan tussen
twee observaties in, deze twee observaties tel je bij elkaar op en deel je door 2
𝒏+𝟏
Dus locatie van de mediaan M =
𝟐
Het meten van de spreiding
De beste numerieke omschrijving bestaat uit een middenmaat (center) en een
spreidingsmaat (spread). De vijf cijferige weergave (five number summary) is een
verzameling observaties die bestaat uit de kleinste observatie, de eerste kwartiel, de
mediaan, het derde kwartiel en de grootste observatie:
Minimum Q1 Mediaan Q3 maximum
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller anneeeltink. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $8.13. You're not tied to anything after your purchase.