Samenvatting Beschrijvende Statistiek. Alan Agresti, Christine Franklin. Statistics:
The Art and Science of Learning from Data
&
Met bijbehorende les/leerdoelen
&
Aanvullende aantekeningen uit de hoorcolleges
Inhoudsopgave
Chapter 1.1: Using data to answer statistical questions......................................................................................2
Chapter 1.2: Sample versus Population................................................................................................................3
Chapter 2.0: Statistics: Exploring data with graphs and numerical summaries.................................................3
Chapter 2.1: Statistics: Different types of data....................................................................................................3
Chapter 2.2: Grafische samenvatting van Data...................................................................................................4
Chapter 2.3: Het midden meten van kwantitatieve data.....................................................................................5
College 2 formules berekenen uitleg:...................................................................................................................7
Chapter 3.0: Association: Contingency, Correlation, and Regression...............................................................8
Chapter 3.1: The Association Between Two Categorical Variables......................................................................8
Chapter 3.2: The Association Between Two Quantitative Variables....................................................................9
College 3 formules berekenen uitleg:.................................................................................................................10
Chapter 3.4: Cautions in Analyzing Associations................................................................................................14
College 4 formules berekenen uitleg + oefensommen:......................................................................................15
Chapter 5.0: Probality in our daily lives....................................................................................................... 16
Chapter 5.1: How Probability Quantifies Randomness......................................................................................16
College 5 formules berekenen uitleg:.................................................................................................................20
Chapter 5.3: Conditional Probability; The Probability of A Given B...................................................................21
Chapter 5.4: Applying the Probability Rules.......................................................................................................23
College 6 formules berekenen uitleg + oefensommen:......................................................................................24
Chapter 6.0: Probality distribution (ook extra theorie uit college 7)..............................................................26
Chapter 6.1: Summarizing Possible Outcomes and Their Probabillities.............................................................26
Chapter 6.2: Probabillities for Bell-Shaped Distributions...................................................................................27
College 7: voorbeeldsommen.............................................................................................................................28
Chapter 6.3: Probabillities when Each Observation Has Two Possible Outcome...............................................29
Chapter 7.0: Sampling distribution............................................................................................................... 30
Chapter 7.1: How Sample Proportions Vary Around the Population Proportion...............................................30
College 8: Uitleg formules + voorbeeldsommen.................................................................................................31
1
, Chapter 7.2: How Sample Means Vary Around the Population Means.............................................................32
Chapter 7.3: The Binomal Distrubition is a Sampling Distribution.....................................................................33
College 9: Uitleg formules + voorbeeldsommen.................................................................................................34
Chapter 8.0: Statistical Inference: Confidence Intervals................................................................................35
Chapter 8.1: Point and Interval Estimates of Population Parameters...............................................................35
Chapter 8.2: Constructing a Confidence Interval to Estimate a Population Proportion.....................................36
College 10: Uitleg formules + voorbeeldsommen...............................................................................................37
Chapter 8.3: Construchting a Confidence Interval to Estimate a Population Mean..........................................38
Chapter 8.4: Choosing the Sample Size for a Study............................................................................................40
College 11: Uitleg formules + voorbeeldsommen...............................................................................................41
Chapter 9.0: Statistical Inference: Significance Tests About Hypotheses........................................................42
Chapter 9.1: Steps for Performing a Significant Test.........................................................................................42
Chapter 9.2: Significance Tests about Proportions.............................................................................................43
Chapter 9.3: Significance Tests about Means....................................................................................................44
College 12: Uitleg formules + voorbeeldsommen...............................................................................................45
Chapter 9.4: Decisions and Types of Error in Significance Test..........................................................................47
Chapter 9.5: Limitations of Significance Tests....................................................................................................47
Chapter 9.6: The Likelihood of a Type II Error (Not Rejecting H0, even Though it’s False)................................49
College 13: Uitleg formules + voorbeeldsommen...............................................................................................49
Chapter 1.0: Statistics: The art and Science of Learning from Data.
Hoe helpen statistieken ons om wereldkennis te vergaren?
Een van de doelen van het boek is om te laten zien hoe het begrijpen van statistieken
essentieel is voor het maken van goede beslissingen!
Statistiek is de kunst en wetenschap van het ontwikkelen van studies en het analyzeren van data
dat deze studies produceren.
Doel: data vertalen naar kennis en begrip van de wereld om ons heen.
Weten wanneer je sceptisch moet zijn en wanneer je moet geloven.
Leert je om kritisch na te denken over onderwerpen.
Logische redenering is belangrijker dan een groot wiskunde brein!
Chapter 1.1: Using data to answer statistical questions
Data de informatie die we verzamelen met experimenten en vragenlijsten.
Statistical methods:
1. Formuleer een statistieke vraag
2. Verzamel data
3. Analyseer deze data
4. Interpreteer de resultaten.
Verschillende scenario’s om statistieken te gebruiken:
1) Het voorspellen van verkiezing door middel van een exit poll
2) Conclusies maken in medische research studies
o Zorgt het innemen van Aspirine ervoor dat de kans op een hartaanval lager wordt?
o In een studie had 0,9% van de mensen die een aspirine innam een hartaanval, van de
mensen die een placebo innamen was dit 1,7%.
o Kan er dan geconcludeerd worden dat het beter is om regelmatig aspirine in te nemen?
2
, o Nee, want er zullen ook andere verklaringen mogelijk zijn waardoor de mensen met
Aspirine geen hartaanval kregen (dieet, beweging, enz).
3) Surveys gebruiken om mensen hun bevindingen te onderzoeken
o Hoe gelijk is jouw leefstijl aan die van anderen?
Redenen om statisical methods te gebruiken
Design plannen hoe je data gaat verzamelen
Beschrijving Samenvatten en analyseren van verzamelde data
Toetsen (inference) Beslissingen maken en voorspellingen die gebaseerd zijn op de data
om de vraag te beantwoorden.
o Op basis van waarschijnlijkheid hoe waarschijnlijk zijn de uitkomsten?
Chapter 1.2: Sample versus Population
Subjects de personen/dingen die worden gemeten in een studie.
Populatie een verzameling van allerlei subjecten die geïnteresseerd zijn.
Steekproef (Sample) een paar van deze subjecten die in de populatie behoren.
Een hele populatie onderzoeken is duur, terwijl monsters nemen ook een goede representatie van de
werkelijkheid geeft!
Leerdoel: Het verschil tussen toetsende en beschrijvende statistiek uitleggen;
Beschrijvende en voorspellende statistieken
Beschrijvende statistieken methode om verzamelde data samen te vatten. De
samenvattingen bestaan voornamelijk uit nummers, gemiddelden en percentages.
o Gemiddelden zijn beter te begrijpen dan een hele set aan data.
o Helpt wanneer data beschikbaar is voor de gehele populatie.
Toetsende statistieken methode om beslissingen te maken of voorspellingen te doen over
een populatie, gebaseerd op data die verkregen is uit een steekproef van een populatie.
o Ook erbij vermelden wat de precisie is van een voorspelling.
Steekproef statistieken en populatie parameters
Steekproef statistiek Voorbeeld: 834 van de inwoners van florida geven de voorkeur aan
het bezitten van een handwapen.
Parameter Samenvatting van een populatie.
o Dit weet je bijna nooit, omdat je de hele populatie niet kunt meten. Maar je gebruikt de
statistics om iets te kunnen zeggen over de parameter.
Statistiek een samenvatting van een steekproef die getrokken is uit een populatie.
Gerandomiseerde steekproef
Wordt gebruikt om krachtige voorspellingen te doen over populaties
Cruciaal voor het goed uitvoeren van een experiment.
Verhoogt ook interne validiteit (OM).
Mensen verschillen, dus steekproeven ook.
Chapter 2.0: Statistics: Exploring data with graphs and numerical summaries
Scenario: Luchtvervuiling is een ding in de hele wereld. Wetenschappers gebruiken beschrijvende
statistieken om het energieverbruik te ontdekken. Zo kunnen zij concluderen of luchtvervuiling een
effect heeft op het klimaat. Zo vergelijken zij andere landen in hoe zij bijdragen aan de wereldwijde
problemen van luchtvervuiling en klimaatverandering.
Vragen om te ontdekken:
Hoe kan er worden onderzocht in welke landen de hoogste mate van koolstofmonoxide
vrijkomt en in welk land is het gebruik van uitputtende energie het hoogst?
Is klimaatverandering zorgwekkend? En hoe serieus moeten we het nemen?
Chapter 2.1: Statistics: Different types of data
Niemand is hetzelfde! Iedereen is variabel op zijn eigen manier. Daarom zijn er ook verschillende
variabelen om te onderzoeken binnen een persoon/onderwerp.
Variabele is een kenmerk dat geobserveerd/onderzocht wordt in een studie.
3
, Categorische en kwantitatieve variabelen
Categorische variabelen wanneer iedere observatie zijn eigen set met categorieën heeft.
o Gender, religie, woonsituatie.
o Belangrijk om een nummer te geven binnen de verschillende categorieën. Bijvoorbeeld:
welk percentage van de studenten is Deens?
Kwantitatieve variabelen Wanneer observaties een numerologische waarde hebben dat
verschillende variabelen in hun sterkte weergeven.
o Leeftijd, temperatuur, hoeveel zusjes je hebt.
o Hierbij is het belangrijk om de kern en de diversiteit te beschrijven (spreiding).
Bijvoorbeeld: wat is een typische jaarlijkse hoeveelheid aan neerslag? Is daar veel variatie
in ieder jaar?
o Discreet of continue
Discreet een variabele is discreet wanneer de mogelijke waarde ervan kan worden
uitgezet in cijfers als (0,1,2,3). hoeveel huisdieren heb je? Een vast getal!
Continue wanneer de waardes voorkomen in een interval met getallen achter de
komma lengte, gewicht, leeftijd, en hoeveel tijd het kost om een opdracht te
maken.
Frequentietabellen is een lijst met mogelijke waarden voor een variabelen, samen met het aantal
observaties voor elke waarde.
Modale categorie de categorie met de hoogste frequentie (het hoogste aantal). in
categoriale variabelen.
Modus het cijfer dat het vaakst voorkomt (kwantitatieve variabele).
Relatieve frequentie
De proportie van de observaties in een bepaalde categorie is de frequentie (aantal) gedeeld door het
totaal aantal observaties. Het percentage is de proportie x 100.
Bijvoorbeeld: Er zijn 268 haaienaanvallen in Florida van allen 715 in Amerika. 268/715 is
0,375 x 100 = 37,5 procent. Er zijn dus 37,5 procent van de totale aanvallen in
Florida.
Chapter 2.2: Grafische samenvatting van Data
Grafieken voor categorische variabelen
Taart diagram ‘slice of pie’ voor iedere categorie. De grootte van een stuk
komt overeen met het percentage observaties uit die categorie.
Staafdiagram verticale staven (bars) voor iedere categorie. De hoogte van
iedere staaf is het percentage in iedere categorie. De verticale staven staan los
van elkaar, niet aan elkaar vast.
o Makkelijker af te lezen, wanneer een slice in de taart ongeveer even groot
is, is dit moeilijker te zien dan in een staafdiagram.
Plaatje just for fun (How I Met Your Mother, Marshall).
Pareto diagram is een staafdiagram met categorieën gesorteerd op hoeveelheid, van de
grootste naar de kleinste staaf. wordt vaak gebruikt in het zakenleven om het meest
verkochte product weer te geven.
o Pareto principe Een kleine subset van categorieën bevat meestal de meeste
observaties.
Grafieken voor kwantitatieve variabelen
Dot Plots Dit geeft een punt weer voor iedere observatie. De
punt is geplaatst boven de waarde op de lijn. Afbeelding 1.1
Steelbladdiagram is gelijk aan de Dot Plot, want weergeeft
iedere individuele observatie Afbeelding 1.2
Histogram een grafiek dat staven gebruikt om de frequenties
van de relatieve frequentie weer te geven. (Zelfde als
staafdiagram, maar dan staan ze wel naast elkaar ipv los van
elkaar).
o Histogram en discrete variabelen een eigen staaf voor iedere mogelijke
variabele.
4