Statistics: The Art and Science of Learning from Data
Korte samenvatting van hoofdstukken 1 t/m 10 voor mensen die graag snel de hoofdlijnen willen van het boek Statistics: The Art and Science of Learning from Data.
statistics the art and science of learning from data
isbn 9781292164779
Connected book
Book Title:
Author(s):
Edition:
ISBN:
Edition:
More summaries for
Samenvatting Beschrijvende en Inferentiele statistiek (BIS)
All for this textbook (1)
Written for
Universiteit van Amsterdam (UvA)
Pedagogische Wetenschappen
Toetsende Statistiek
All documents for this subject (14)
1
review
By: melaniederoode • 3 year ago
Seller
Follow
collectief_samenvattingen
Reviews received
Content preview
lOMoARcPSD|2697772
Samenvatting AMLS Agresti & Franklin - 2010-2011
AMLS samenvatting Agresti &Franklin
Statistics: the art and science of learning from data
1. Statistics: the art and science of learning from data
1.1 How can you investigate using data?
Statistics = is de handigheid en wetenschap die studies ontwerpen en gegevens analyseert die deze
studies produceren. Het doel is om gegevens te vertalen van de wereld om ons heen naar kennis en
begrip. Statistieke methodes helpen ons te onderzoeken op een objectieve manier.
Drie hoofdaspecten van statistiek:
1. Design; plannen hoe gegevens moeten worden verzameld.
2. Description; (beschrijving) samenvatten van de verkregen gegevens. Ik heb…
3. Inference; (gevolgtrekking) beslissingen en voorspellingen maken gebaseerd op de gegevens.
Ik verwacht…
Fasen in onderzoek (uit college 1)
1. Probleemstelling;
2. Ontwerp van het onderzoek – design;
3. Dataverzameling;
4. Data-analyse – description & Inference;
5. Rapportage;
1.2 We learn about populations using samples
Subjects = datgene wat we onderzoeken
Steekproef = de groep elementen die getrokken wordt uit de populatie
Populatie = de verzameling van alle potentieel waarneembare waarden waarop een
onderzoeksprobleemstelling (of hypothese) betrekking heeft
Sample statistic = numerieke samenvatting van een deel uit de populatie, steekproef.
Populatie parameter = getal dat een eigenschap van een populatie weergeeft.
Statistic = getal dat een eigenschap van een steekproef weergeeft
Random sampling = een toevallige keuze van een deel van de populatie, iedereen heeft evenveel
kans. Dit om een krachtige gevolgtrekking te kunnen maken en om het onderzoek te kunnen
presenteren (externe validiteit)
1.3 What role do computers play in statistics
Om statistische analyse makkelijker te maken worden deze georganiseerd in een datafile, vaak in een
spreadsheet. Twee basisregels:
1. Een rij bevat een meting voor een particulier subject
2. Een kolom bevat een meting voor een particulier kenmerk
Een bestaande database kan worden geraadpleegd bij een onderzoek, deze zijn bijvoorbeeld te
vinden op internet. Controleer wel de bron van de database.
Applets = is een kort toepassingsprogramma om bepaalde taken te oefenen.
2. Exploring data with graphs and numerical summaries
2.1 What are the types of data?
Variabelen = elk kenmerk dat wordt geobserveerd in de studie.
Kwantitatief:
• Aantallen, hoeveel er van iets zijn.
• Kwantitatieve gegevens beschrijven het middelpunt en de spreiding van gegevens.
1
Gedownload door Dit is niet echt een samenvatting (rlm.pijnenburg@gmail.com)
, lOMoARcPSD|2697772
Samenvatting AMLS Agresti & Franklin - 2010-2011
• De kwantitatieve gegevens kunnen worden verdeeld in:
1. Discrete gegevens; mogelijke waarde in een set van verschillende nummers met eindigende
waarde.
2. Continue gegevens; mogelijke waarde die een onbeperkte waarde heeft, interval.
Categorisch:
• Ja of nee, gelijkwaardige variabelen.
• De categorische gegevens beschrijven de relatieve getallen van de observaties in
verschillende categorieën.
• Beschrijven de relatieve getallen.
Modus = de categorie met de hoogste frequentie, deze is beperkt omdat het maar één aspect laat
zien.
Proportie = één bepaalde meting delen door de totale meting.
Percentage = de proportie x 100.
Relative frequencies = proporties en percentages.
Statistische methodes meten en begrijpen variaties.
De eerste stap in een numerieke samenvatting van data is te kijken naar mogelijke waarden en
hoeveel deze voorkomen, we kijken naar de centrummaten: modus, gemiddelde en mediaan.
De proportie (dosering) van observaties die binnen een bepaalde categorie valt is de frequentie
(telling) van observaties in die categorie verdeeld bij het aantal observaties. Een frequentie tabel is
een lijst van mogelijke waarden voor een variabele, samen met het aantal observaties van elke
waarde.
2.2 How can we describe data using graphical summaries?
Twee primaire grafische samenvattingen voor categorieabele variabelen:
1. Taartdiagram.
2. Staafdiagram; flexibeler en preciezer. De staven kunnen naar percentage of categorie
worden geordend.
• Het Paretoprincipe, in de volksmond ook wel de 80-20-regel genoemd, is een
economische regel die opgesteld werd door Vilfredo Pareto in 1906. Hij stelde dat 80%
van de economie beheerst werd door 20% van de mensen. Door staven te rangschikken
van groot naar klein kan deze rekensom worden gemaakt.
Dot plot (geeft vorm aan individuele observaties);
• Zet een lijn en noem deze naar de variabelen. Nummer de lijn met reguliere
waarden.
• Voor elke observatie zet je een stip bij de juiste waarde.
Stem-and-leaf-plots (geeft vorm aan individuele observaties);
• Gewoonlijk bestaat de stam uit alle cijfers behalve definitieve, die het blad is.
• Sorteer de gegevens van klein naar groot, plaats deze in een kolom. Zet een
verticale lijn, aan de rechterkant komen de definitieve cijfers met aan de
linkerkant de stam.
• Het laatste cijfer van een getal komt in het blad en de rest in de steel.
Histograms (voor veel gegevens);
• Dit is een grafiek die staven gebruikt om de frequenties, de relatieve frequenties of andere
mogelijkheden te laten zien bij een kwantitatieve variabele.
• Bij een discrete variabele kun je per waarde een staaf gebruiken (tenzij er veel verschillende
waarden wordt gemeten), bij continue variabelen gebruik je intervallen.
• Dit diagram is flexibeler met het verdelen van intervallen. Gebruik ongeveer 10 intervallen.
2
Gedownload door Dit is niet echt een samenvatting (rlm.pijnenburg@gmail.com)
, lOMoARcPSD|2697772
Samenvatting AMLS Agresti & Franklin - 2010-2011
Distribution (verdeling van gegevens);
• Overall pattern = totaal patroon (of zijn er gaten in de grafiek?).
• Unimodal = is er een piek in de gegevens? Hierbij is het hoogste punt de mode. Bimodale
grafieken hebben twee hoogste punten. Deze kunnen voorkomen als er controversiële
observaties zijn gedaan waarbij een antwoord ja of nee kan zijn. Bijvoorbeeld inkomens van
volwassenen, de meeste mensen verdienen modaal, een enkeling verdient meer, de grafiek
is scheef naar rechts.
De vorm van een grafiek noemen we symmetrisch of skewed, schreef naar links of rechts.
Time series = gegevens verzameld over een langere periode. Vast gelegd in een time-plot. Hierbij
wordt gezocht naar een trend.
2.3 How can we describe the center of quantities data?
Het gemiddelde x beschrijft de center van de distributie.
Formule = x = Σx / n
De steekproef grote met n.
Variabelen zijn vaak gesymboliseerd met de laatste letter van het alfabet, zoals x en y.
Mediaan = de middelste observatie als de observaties gerangschikt zijn naar grootte.
Het gemiddelde:
1. Het gemiddelde is het balanspunt van de gegevens.
2. Bij een scheve verspreiding ligt het gemiddelde in de richting van de lange staart, gerelateerd
aan de mediaan.
3. Het gemiddelde kan flink worden beïnvloed door een outlier (uitschieter), een onnatuurlijk
kleine of grote observatie.
4. Bij categorische variabelen is het gemiddelde zinloos, tenzij je maar 2 observaties hebt.
Gemiddelde en mediaan:
1. Bij een symmetrische grafiek zijn het gemiddelde, modus en de mediaan gelijk.
2. Scheef naar rechts, zie je eerst modus, mediaan en dan gemiddelde in langste staart, die aan
de rechterkant is.
3. Scheef naar links, eerst gemiddelde, mediaan dan modus.
De mediaan wordt niet beïnvloed door een outlier, omdat je op zoek gaat naar het middelste getal
en niet naar hoeveel dat getal is. De mediaan is resistent.
Het gemiddelde gebruikt alle waarden en wordt dus wel beïnvloed. Bij een grote verspreiding wordt
de mediaan meer gebruikt, omdat het beter representeert wat typisch is.
Bij discrete gegevens met een paar waarden kunnen verschillende patronen toch dezelfde resultaten
geven, dan is het te resistent. Bijvoorbeeld bij binaire gegevens (twee soorten antwoorden 0 of 1). Bij
een kleinere verspreiding of binaire gegevens wordt er eerder gebruikt gemaakt van het gemiddelde
omdat deze alle waarden van de observaties gebruikt.
De modus hoeft niet dicht bij het centrum van de spreiding te liggen, dus je kunt niet zeggen dat de
modus accuraat de meting van het centrum weergeeft.
2.4 How can we describe the spread of quantitative data?
De range (bereik) is het verschil tussen de grootste en de kleinste observatie. De range is niet
resistent en het negeert de numerieke waarde.
Deviatie:
1. De deviatie (afwijking) van een observatie vind je door observatie x af te trekken van het
gemiddelde.
2. De deviatie is positief als de observatie boven het gemiddelde valt. En negatief als hij eronder
valt.
3
Gedownload door Dit is niet echt een samenvatting (rlm.pijnenburg@gmail.com)
, lOMoARcPSD|2697772
Samenvatting AMLS Agresti & Franklin - 2010-2011
3. De interpretatie van het gemiddelde als het balanspunt zorgt ervoor dat de positieve en
negatieve observatie elkaar opheffen. De som van de deviaties geeft altijd 0.
4. Het gemiddelde van de deviatie noem je variantie. Omdat de variantie gebruikt maakt van de
wortel van de metingen voor de oorspronkelijke gegevens is het makkelijker te
interpreteren. Dit noem je de standaard deviatie – wij beschouwen de standaarddeviatie als
de typische afstand van observatie van het gemiddelde. Hoe groter de standaarddeviatie s,
hoe groter de spreiding van gegevens.
5. De standaarddeviatie wordt aangegeven als n – 1 omdat de deviatie n – 1 alleen informatie
geeft over variabiliteit (veranderlijkheid).
6. Hoe groter de spreiding van de gegevens hoe groter de waarde van de deviatie is.
7. S kan worden beïnvloed door outliers; het gebruikt het gemiddelde. En daarbij hebben
outliers lage deviaties en zo extreem lage deviaties2.
Empirische (ervarings)regel; als de spreiding van de gegevens een klokvorm heeft, dan bij
benadering:
1. 68% van de observaties valt binnen 1 standaarddeviatie van het gemiddelde dat is tussen x -
s en x + s (genoteerd als x ± s; deze formule berekend het gebied van 68% waarbinnen
deze eerste standaarddeviatie valt).
2. 95% van de observaties valt binnen 2 standaarddeviaties van het gemiddelde
( x ± 2s).
3. 99% van de observaties valt binnen 3 standaarddeviaties van het gemiddelde
( x ± 3s).
De formules die x (gemiddelde) uitrekenen en s (standaarddeviatie) worden het meest gebruikt en
refereren naar steekproef gegevens. Deze noemen we sample statistics – steekproefparameter;
numerieke samenvatting uit een deel van de populatie. Deze verschillen van de parameters van de
steekproef.
Het gemiddelde van een populatie is het gemiddelde van alle observaties. De populatie
standaarddeviatie beschrijft de spreiding van de populatie observaties over het gemiddelde van de
populatie. Deze zijn vaak onbekend.
Gevolgtrekkende steekproefparameter-methodes helpen ons keuzes en conclusies te trekken over
de populatie parameter gebaseerd op steekproeven.
2.5 How can we measure of position describe spread?
Centrum van distributie: gemiddelde en mediaan.
Spreiding van gegevens: range en standaarddeviatie.
De pth percentiel is de waarde van p percentage van de observaties beneden of binnen de waarde.
Waarde waarvoor p % van de observaties kleiner of gelijk zijn. De 50th percentiel is meestal de
mediaan. Drie nuttige percentielen zijn kwartielen. De kwartielen deelt de distributie in vier delen,
elk een kwart van de observaties.
Eerste kwartiel (Q1) = getalswaarde die de laagste 25% van de getalswaarden onderscheidt van de
hogere waarden = 25ste percentiel
Tweede kwartiel (Q2) = mediaan = getalswaarde die het midden van de set aangeeft = 50ste percentiel
Derde kwartiel (Q3) = getalswaarde die de hoogste 25% van de getalswaarden onderscheidt van de
lagere waarden = 75ste percentiel
Het verschil tussen het eerste en het derde kwartiel (Q3 - Q1) wordt de interkwartielafstand
genoemd.
De kwartielen worden ook gebruikt om de spreiding te meten die meer resistent is dan range en
standaarddeviatie. De range tussen Q1 en Q3 noem je interkwartielafstand –IKA of IQR. De outliers
die buiten de Q1 en Q3 vallen hebben zo geen effect.
4
Gedownload door Dit is niet echt een samenvatting (rlm.pijnenburg@gmail.com)
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller collectief_samenvattingen. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $3.16. You're not tied to anything after your purchase.