100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
Samenvatting Statistics: The Art and Science of Learning from Data €2,99   In winkelwagen

Samenvatting

Samenvatting Statistics: The Art and Science of Learning from Data

1 beoordeling
 136 keer bekeken  12 keer verkocht

Korte samenvatting van hoofdstukken 1 t/m 10 voor mensen die graag snel de hoofdlijnen willen van het boek Statistics: The Art and Science of Learning from Data.

Voorbeeld 4 van de 33  pagina's

  • Nee
  • Hoofdstuk 1 t/m 10
  • 4 juni 2021
  • 33
  • 2020/2021
  • Samenvatting
book image

Titel boek:

Auteur(s):

  • Uitgave:
  • ISBN:
  • Druk:
Alle documenten voor dit vak (14)

1  beoordeling

review-writer-avatar

Door: melaniederoode • 2 jaar geleden

avatar-seller
collectief_samenvattingen
lOMoARcPSD|2697772




Samenvatting AMLS Agresti & Franklin - 2010-2011

AMLS samenvatting Agresti &Franklin
Statistics: the art and science of learning from data


1. Statistics: the art and science of learning from data

1.1 How can you investigate using data?
Statistics = is de handigheid en wetenschap die studies ontwerpen en gegevens analyseert die deze
studies produceren. Het doel is om gegevens te vertalen van de wereld om ons heen naar kennis en
begrip. Statistieke methodes helpen ons te onderzoeken op een objectieve manier.
Drie hoofdaspecten van statistiek:
1. Design; plannen hoe gegevens moeten worden verzameld.
2. Description; (beschrijving) samenvatten van de verkregen gegevens. Ik heb…
3. Inference; (gevolgtrekking) beslissingen en voorspellingen maken gebaseerd op de gegevens.
Ik verwacht…
Fasen in onderzoek (uit college 1)
1. Probleemstelling;
2. Ontwerp van het onderzoek – design;
3. Dataverzameling;
4. Data-analyse – description & Inference;
5. Rapportage;

1.2 We learn about populations using samples
Subjects = datgene wat we onderzoeken
Steekproef = de groep elementen die getrokken wordt uit de populatie
Populatie = de verzameling van alle potentieel waarneembare waarden waarop een
onderzoeksprobleemstelling (of hypothese) betrekking heeft
Sample statistic = numerieke samenvatting van een deel uit de populatie, steekproef.
Populatie parameter = getal dat een eigenschap van een populatie weergeeft.
Statistic = getal dat een eigenschap van een steekproef weergeeft
Random sampling = een toevallige keuze van een deel van de populatie, iedereen heeft evenveel
kans. Dit om een krachtige gevolgtrekking te kunnen maken en om het onderzoek te kunnen
presenteren (externe validiteit)

1.3 What role do computers play in statistics
Om statistische analyse makkelijker te maken worden deze georganiseerd in een datafile, vaak in een
spreadsheet. Twee basisregels:
1. Een rij bevat een meting voor een particulier subject
2. Een kolom bevat een meting voor een particulier kenmerk
Een bestaande database kan worden geraadpleegd bij een onderzoek, deze zijn bijvoorbeeld te
vinden op internet. Controleer wel de bron van de database.
Applets = is een kort toepassingsprogramma om bepaalde taken te oefenen.


2. Exploring data with graphs and numerical summaries

2.1 What are the types of data?
Variabelen = elk kenmerk dat wordt geobserveerd in de studie.
Kwantitatief:
• Aantallen, hoeveel er van iets zijn.
• Kwantitatieve gegevens beschrijven het middelpunt en de spreiding van gegevens.

1


Gedownload door Dit is niet echt een samenvatting (rlm.pijnenburg@gmail.com)

, lOMoARcPSD|2697772




Samenvatting AMLS Agresti & Franklin - 2010-2011

• De kwantitatieve gegevens kunnen worden verdeeld in:
1. Discrete gegevens; mogelijke waarde in een set van verschillende nummers met eindigende
waarde.
2. Continue gegevens; mogelijke waarde die een onbeperkte waarde heeft, interval.
Categorisch:
• Ja of nee, gelijkwaardige variabelen.
• De categorische gegevens beschrijven de relatieve getallen van de observaties in
verschillende categorieën.
• Beschrijven de relatieve getallen.

Modus = de categorie met de hoogste frequentie, deze is beperkt omdat het maar één aspect laat
zien.
Proportie = één bepaalde meting delen door de totale meting.
Percentage = de proportie x 100.
Relative frequencies = proporties en percentages.
Statistische methodes meten en begrijpen variaties.

De eerste stap in een numerieke samenvatting van data is te kijken naar mogelijke waarden en
hoeveel deze voorkomen, we kijken naar de centrummaten: modus, gemiddelde en mediaan.
De proportie (dosering) van observaties die binnen een bepaalde categorie valt is de frequentie
(telling) van observaties in die categorie verdeeld bij het aantal observaties. Een frequentie tabel is
een lijst van mogelijke waarden voor een variabele, samen met het aantal observaties van elke
waarde.

2.2 How can we describe data using graphical summaries?
Twee primaire grafische samenvattingen voor categorieabele variabelen:
1. Taartdiagram.
2. Staafdiagram; flexibeler en preciezer. De staven kunnen naar percentage of categorie
worden geordend.
• Het Paretoprincipe, in de volksmond ook wel de 80-20-regel genoemd, is een
economische regel die opgesteld werd door Vilfredo Pareto in 1906. Hij stelde dat 80%
van de economie beheerst werd door 20% van de mensen. Door staven te rangschikken
van groot naar klein kan deze rekensom worden gemaakt.

Dot plot (geeft vorm aan individuele observaties);
• Zet een lijn en noem deze naar de variabelen. Nummer de lijn met reguliere
waarden.
• Voor elke observatie zet je een stip bij de juiste waarde.
Stem-and-leaf-plots (geeft vorm aan individuele observaties);
• Gewoonlijk bestaat de stam uit alle cijfers behalve definitieve, die het blad is.
• Sorteer de gegevens van klein naar groot, plaats deze in een kolom. Zet een
verticale lijn, aan de rechterkant komen de definitieve cijfers met aan de
linkerkant de stam.
• Het laatste cijfer van een getal komt in het blad en de rest in de steel.
Histograms (voor veel gegevens);
• Dit is een grafiek die staven gebruikt om de frequenties, de relatieve frequenties of andere
mogelijkheden te laten zien bij een kwantitatieve variabele.
• Bij een discrete variabele kun je per waarde een staaf gebruiken (tenzij er veel verschillende
waarden wordt gemeten), bij continue variabelen gebruik je intervallen.
• Dit diagram is flexibeler met het verdelen van intervallen. Gebruik ongeveer 10 intervallen.

2


Gedownload door Dit is niet echt een samenvatting (rlm.pijnenburg@gmail.com)

, lOMoARcPSD|2697772




Samenvatting AMLS Agresti & Franklin - 2010-2011

Distribution (verdeling van gegevens);
• Overall pattern = totaal patroon (of zijn er gaten in de grafiek?).
• Unimodal = is er een piek in de gegevens? Hierbij is het hoogste punt de mode. Bimodale
grafieken hebben twee hoogste punten. Deze kunnen voorkomen als er controversiële
observaties zijn gedaan waarbij een antwoord ja of nee kan zijn. Bijvoorbeeld inkomens van
volwassenen, de meeste mensen verdienen modaal, een enkeling verdient meer, de grafiek
is scheef naar rechts.

De vorm van een grafiek noemen we symmetrisch of skewed, schreef naar links of rechts.
Time series = gegevens verzameld over een langere periode. Vast gelegd in een time-plot. Hierbij
wordt gezocht naar een trend.

2.3 How can we describe the center of quantities data?
Het gemiddelde x beschrijft de center van de distributie.
Formule = x = Σx / n
De steekproef grote met n.
Variabelen zijn vaak gesymboliseerd met de laatste letter van het alfabet, zoals x en y.
Mediaan = de middelste observatie als de observaties gerangschikt zijn naar grootte.

Het gemiddelde:
1. Het gemiddelde is het balanspunt van de gegevens.
2. Bij een scheve verspreiding ligt het gemiddelde in de richting van de lange staart, gerelateerd
aan de mediaan.
3. Het gemiddelde kan flink worden beïnvloed door een outlier (uitschieter), een onnatuurlijk
kleine of grote observatie.
4. Bij categorische variabelen is het gemiddelde zinloos, tenzij je maar 2 observaties hebt.
Gemiddelde en mediaan:
1. Bij een symmetrische grafiek zijn het gemiddelde, modus en de mediaan gelijk.
2. Scheef naar rechts, zie je eerst modus, mediaan en dan gemiddelde in langste staart, die aan
de rechterkant is.
3. Scheef naar links, eerst gemiddelde, mediaan dan modus.
De mediaan wordt niet beïnvloed door een outlier, omdat je op zoek gaat naar het middelste getal
en niet naar hoeveel dat getal is. De mediaan is resistent.
Het gemiddelde gebruikt alle waarden en wordt dus wel beïnvloed. Bij een grote verspreiding wordt
de mediaan meer gebruikt, omdat het beter representeert wat typisch is.
Bij discrete gegevens met een paar waarden kunnen verschillende patronen toch dezelfde resultaten
geven, dan is het te resistent. Bijvoorbeeld bij binaire gegevens (twee soorten antwoorden 0 of 1). Bij
een kleinere verspreiding of binaire gegevens wordt er eerder gebruikt gemaakt van het gemiddelde
omdat deze alle waarden van de observaties gebruikt.
De modus hoeft niet dicht bij het centrum van de spreiding te liggen, dus je kunt niet zeggen dat de
modus accuraat de meting van het centrum weergeeft.

2.4 How can we describe the spread of quantitative data?
De range (bereik) is het verschil tussen de grootste en de kleinste observatie. De range is niet
resistent en het negeert de numerieke waarde.

Deviatie:
1. De deviatie (afwijking) van een observatie vind je door observatie x af te trekken van het
gemiddelde.
2. De deviatie is positief als de observatie boven het gemiddelde valt. En negatief als hij eronder
valt.

3


Gedownload door Dit is niet echt een samenvatting (rlm.pijnenburg@gmail.com)

, lOMoARcPSD|2697772




Samenvatting AMLS Agresti & Franklin - 2010-2011

3. De interpretatie van het gemiddelde als het balanspunt zorgt ervoor dat de positieve en
negatieve observatie elkaar opheffen. De som van de deviaties geeft altijd 0.
4. Het gemiddelde van de deviatie noem je variantie. Omdat de variantie gebruikt maakt van de
wortel van de metingen voor de oorspronkelijke gegevens is het makkelijker te
interpreteren. Dit noem je de standaard deviatie – wij beschouwen de standaarddeviatie als
de typische afstand van observatie van het gemiddelde. Hoe groter de standaarddeviatie s,
hoe groter de spreiding van gegevens.
5. De standaarddeviatie wordt aangegeven als n – 1 omdat de deviatie n – 1 alleen informatie
geeft over variabiliteit (veranderlijkheid).
6. Hoe groter de spreiding van de gegevens hoe groter de waarde van de deviatie is.
7. S kan worden beïnvloed door outliers; het gebruikt het gemiddelde. En daarbij hebben
outliers lage deviaties en zo extreem lage deviaties2.

Empirische (ervarings)regel; als de spreiding van de gegevens een klokvorm heeft, dan bij
benadering:
1. 68% van de observaties valt binnen 1 standaarddeviatie van het gemiddelde dat is tussen x -
s en x + s (genoteerd als x ± s; deze formule berekend het gebied van 68% waarbinnen
deze eerste standaarddeviatie valt).
2. 95% van de observaties valt binnen 2 standaarddeviaties van het gemiddelde
( x ± 2s).
3. 99% van de observaties valt binnen 3 standaarddeviaties van het gemiddelde
( x ± 3s).

De formules die x (gemiddelde) uitrekenen en s (standaarddeviatie) worden het meest gebruikt en
refereren naar steekproef gegevens. Deze noemen we sample statistics – steekproefparameter;
numerieke samenvatting uit een deel van de populatie. Deze verschillen van de parameters van de
steekproef.
Het gemiddelde van een populatie is het gemiddelde van alle observaties. De populatie
standaarddeviatie beschrijft de spreiding van de populatie observaties over het gemiddelde van de
populatie. Deze zijn vaak onbekend.
Gevolgtrekkende steekproefparameter-methodes helpen ons keuzes en conclusies te trekken over
de populatie parameter gebaseerd op steekproeven.

2.5 How can we measure of position describe spread?
Centrum van distributie: gemiddelde en mediaan.
Spreiding van gegevens: range en standaarddeviatie.

De pth percentiel is de waarde van p percentage van de observaties beneden of binnen de waarde.
Waarde waarvoor p % van de observaties kleiner of gelijk zijn. De 50th percentiel is meestal de
mediaan. Drie nuttige percentielen zijn kwartielen. De kwartielen deelt de distributie in vier delen,
elk een kwart van de observaties.
Eerste kwartiel (Q1) = getalswaarde die de laagste 25% van de getalswaarden onderscheidt van de
hogere waarden = 25ste percentiel
Tweede kwartiel (Q2) = mediaan = getalswaarde die het midden van de set aangeeft = 50ste percentiel
Derde kwartiel (Q3) = getalswaarde die de hoogste 25% van de getalswaarden onderscheidt van de
lagere waarden = 75ste percentiel
Het verschil tussen het eerste en het derde kwartiel (Q3 - Q1) wordt de interkwartielafstand
genoemd.
De kwartielen worden ook gebruikt om de spreiding te meten die meer resistent is dan range en
standaarddeviatie. De range tussen Q1 en Q3 noem je interkwartielafstand –IKA of IQR. De outliers
die buiten de Q1 en Q3 vallen hebben zo geen effect.

4


Gedownload door Dit is niet echt een samenvatting (rlm.pijnenburg@gmail.com)

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper collectief_samenvattingen. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €2,99. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 73216 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen
€2,99  12x  verkocht
  • (1)
  Kopen