100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
Samenvatting Beschrijvende Statistiek (UvA Premaster) () €6,49   In winkelwagen

Samenvatting

Samenvatting Beschrijvende Statistiek (UvA Premaster) ()

5 beoordelingen
 168 keer bekeken  8 keer verkocht

Complete samenvatting van alle literatuur (boek: Agresti & Franklin) van het vak Beschrijvende Statistiek (premaster/bachelor UvA) . Hoofdstuk 2 t/m 9, inclusief een aantal aanvullingen uit de hoorcolleges. De formules die je nodig hebt uit het formuleboek worden erbij beschreven en uitgelegd....

[Meer zien]
Laatste update van het document: 3 jaar geleden

Voorbeeld 6 van de 33  pagina's

  • Nee
  • Hoofdstuk 2 t/m 9
  • 12 december 2020
  • 12 december 2020
  • 33
  • 2020/2021
  • Samenvatting
book image

Titel boek:

Auteur(s):

  • Uitgave:
  • ISBN:
  • Druk:
Alle documenten voor dit vak (39)

5  beoordelingen

review-writer-avatar

Door: clvdbovenkamp • 1 jaar geleden

review-writer-avatar

Door: angelavmiddendorp • 1 jaar geleden

review-writer-avatar

Door: romaisae2000 • 2 jaar geleden

review-writer-avatar

Door: Doortje19s • 2 jaar geleden

review-writer-avatar

Door: seme • 2 jaar geleden

avatar-seller
sennameul
Samenvatting Beschrijvende Statistiek
College 1
1.1, 1.2, 1.3, 2.1, 2.2, 2.3

1.1 Using Data to Answer Statistical Questions

Drie onderdelen van statistics (voor beantwoorden van een statistische vraag):
1. Design: plannen hoe de data te verzamelen om de vraag te beantwoorden.
2. Beschrijving: samenvatten en analyseren van de verzamelde data (patronen).
3. Inferentie (toetsen): keuzes en voorspellingen maken gebaseerd op de data voor beantwoorden vraag.

Kans
Fundamenteel voor toetsende statistiek, de basis voor bepalen hoe waarschijnlijk verschillende mogelijke
uitkomsten zijn.

1.2 Sample Versus Population

Kernbegrippen:
• Subjecten: de entiteiten die we meten in een onderzoek (meestal mensen, maar kan ook scholen,
landen, dagen).
• Populatie: de set van alle subjecten waarin je geïnteresseerd bent in je onderzoek.
• Sample: meestal gebruik je alleen data van enkele subjecten uit de populatie, vaak random
geselecteerd.
• Census: als wel alle data van de hele populatie beschikbaar is.

Beschrijvende statistiek
Verwijst naar de methoden voor het samenvatten van de verzamelde data (kan zowel van een sample als van
een populatie zijn). Bestaat vaak uit grafieken en nummers (zoals gemiddelde en percentages).

Toetsende statistiek
Verwijst naar de methoden voor het maken van beslissingen of voorspellingen over een populatie, gebaseerd op
de verzamelde data vanuit een sample.

Parameter
Een numerieke samenvatting van de populatie. Vaak is deze echter onbekend.

Statistic
Een numerieke samenvatting van een steekproef (uit de populatie). Gebruiken om de parameterwaarden te
schatten.

Aselecte steekproef
Een sample is een goede afspiegeling van de populatie wanneer elk subject in de populatie dezelfde kans heeft
om mee te doen in die sample. Wordt gebruikt om de sample representatief te maken van de populatie.

Iedere sample zal weer iets van elkaar verschillen. Maar met een aselecte steekproef kan de hoeveelheid
variabiliteit wel voorspelt worden tussen de verschillende steekproeven.

,1.3 Using Calculators and Computers

Databestanden
Gebruiken om statistische analyses makkelijker te maken. Hierbij twee basisregels (voor opzetten van een
databestand):
1. Rijen: bevatten de metingen van een bepaald subject.
2. Kolommen: bevatten de metingen voor een bepaald kenmerk.

Databases
Als je in je onderzoek gebruik maakt van bestaande archieven van databestanden.

2.1 Different Types of Data

Variabiliteit
Alles en iedereen is anders. Statistische methoden geven een manier om de variabiliteit te meten en begrijpen.

Variabelen
Een kenmerk/eigenschap die geobserveerd is in een onderzoek.

Observatie
De datawaarden die we observeren voor een variabelen, elke observatie kan een nummer zijn of een categorie.

Grafieken en numerieke samenvattingen beschrijven de belangrijkste functies van een variabele.

Categorische variabele
Wanneer elke observatie hoort bij een van een set van categorieën.

Belangrijkste functie: beschrijven van het relatieve aantal observaties in de verschillende categorieën.

Kwantitatieve variabele
Als observaties een numerieke hoeveelheid aannemen, die verschillende magnitudes representeren op
die variabele.

Belangrijkste functies: beschrijven centrum en de variabiliteit (spreiding) van de data.

Discrete kwantitatieve variabele
Als de mogelijke waarden een set van losstaande nummers vormen. Meestal een telling ergens
van.

Continue kwantitatieve variabele
Als de mogelijke waarden een interval vormen. Meestal oneindig veel mogelijke waarden.

Frequentietabel
Eerste stap in numeriek samenvatten van de data is door te kijken naar de mogelijke waarden en tellen hoe vaak
elke zich voordoet.

Voor een categorische variabele:
- De categorie met hoogste frequentie is de modale categorie.
- De proportie van de observaties die vallen in een bepaalde categorie is de frequentie (telling) van
observaties in die categorie, gedeeld door het totaal aantal observaties.
- Het percentage is de proportie keer 100.
➢ Proporties en percentages worden relatieve frequenties genoemd, dienen als manier om de
metingen in categorieën samen te vatten.

, Voor een kwantitatieve variabele:
- De numerieke waarde met de hoogste frequentie is de modus.
- Een frequentietabel hierbij vaak de mogelijke waarden gedeeld in een set van intervallen, en
weergegeven van het aantal observaties in een bepaalde interval.

2.2 Graphical Summaries of Data

Grafieken voor categorische variabelen
1. Pie chart: een taartpunt voor elke categorie, de grootte van de punt correspondeert met het
percentage observaties in de categorie.
2. Staafgrafiek: een verticale staaf voor elke categorie, de hoogte van de staaf is het percentage
observaties in de categorie. Vaak zijn de staven los van elkaar (niet tegen elkaar aan).
3. Pareto chart: een staafgrafiek waarbij de categorieën worden geordend door hun frequentie,
beginnend met de hoogste staaf.
- Pareto principe: een kleine subset aan categorieën bevatten meestal de meeste observaties.

Grafieken voor kwantitatieve variabelen
1. Dot plot: geeft een stip voor elke observatie, geplaatst boven de waarde op de getallenlijn. Geeft dus de
individuele observaties weer. Aantal stippen boven een waarde representeert de frequentie van die
waarde.
2. Stam en blad plot: geeft ook alle individuele observaties weer. Iedere observatie is gerepresenteerd
door een stam en een blad. De data wordt geordend van klein naar groot, alle stammen komen in een
kolom, beginnend met de kleinste. In de andere kolom komen de bladen, noteren in oplopende
volgorde.
- Stam: bevat vaak alle getallen behalve de laatste.
- Blad: het laatste getal.
➢ Lijkt op dot plot, maar dan gedraaid. Met een stam en blad plot is het vaak makkelijker om de
exacte waarden van een observatie af te lezen. Maar over het algemeen krijg je bij beide dezelfde
informatie.
➢ Met beide is het makkelijk om de originele data te reconstrueren (omdat het individuele
observaties weergeeft). Dit wordt echter te veel werk bij grote datasets.
3. Histogram: een grafiek die staven gebruikt om de frequenties (of de relatieve frequenties) van de
mogelijke uitkomsten weer te geven. De waarden van individuele observaties gaan vaak verloren.
- Voor een discrete variabele: de histogram gebruikt dan vaak losstaande staven voor elke mogelijke
waarde.
- Voor een continue variabele: daarvoor de mogelijke waarden opdelen in intervallen. Dan wel de
staven tegen elkaar aan gezet.

Verdeling
Een grafiek voor een dataset beschrijft de verdeling van de data, de waarden die de variabele aanneemt en de
frequentie waarin elke waarde zich voordoet. De dataverdeling kan ook beschreven worden door een
frequentietabel.

Dingen om te bekijken in een dataverdeling:
• Algemene patroon: clustert de data samen, of is er een gat (uitschieters)?
• Is er een heuvel (unimodaal), waarbij de hoogste punt de modus is? Of zijn er twee heuvels (bimodaal)?




• De vorm: is de verdeling symmetrisch of is hij scheef?

,2.3 Measuring the Center of Quantitative Data

Centrum van de verdeling bij kwantitatieve variabelen
• Gemiddelde: de som van de observaties gedeeld door het aantal observaties.
- Het is het balanspunt van de data.
- Bij een scheve verdeling: het gemiddelde wordt getrokken in de richting van de langere staart
(relatief aan de mediaan).
- Het gemiddelde kan sterk beïnvloedt worden door uitschieters.




• Mediaan: de middelste waarde van de observaties, wanneer de observaties van klein naar groot
worden geordend (of andersom). De helft van de observaties zitten onder de mediaan, de andere helft
erboven.
➢ Het gemiddelde neemt alle exacte numerieke waarden mee van alle observaties, dat doet de
mediaan niet. De mediaan is dus resistent voor uitschieters.
• Modus: de waarde die het meest frequent voorkomt, maar bij kwantitatieve variabelen is dit vaak niet
waardevol (zou ook de waarde kunnen zijn die kleinste of grootste is, zou dan geen centrummaat
moeten zijn).



College 2
2.4, 2.5, 2.6

2.4 Measuring the Variability of Quantitative Data

Spreiding van de verdeling bij kwantitatieve variabelen
• Bereik: het verschil tussen de grootste en de kleinste observaties. Gebruikt dus alleen de extreme
waarden, en negeert alles wat er tussenin zit (dus sterk beïnvloedt door uitschieters).
➢ Heeft zowel de slechte eigenschappen van het gemiddelde (niet resistent zijn tegen uitschieters),
en van de mediaan (negeren van alle numerieke waarden van bijna alle data).
• Standaarddeviatie: gebruiken van alle data, beschrijven van de typische afstand van hoeveel de data
valt van het gemiddelde. Doet dit door het samenvatten van de deviaties van het gemiddelde.
- Deviatie van een observatie (x – 𝑥̅ ): verschil tussen een observatie en het steekproefgemiddelde.
o Elke observatie heeft een deviatie van het gemiddelde.
o Een deviatie is positief wanneer hij boven het gemiddelde valt, negatief andersom.
o De interpretatie van het gemiddelde als balanspunt impliceert dat de positieve deviaties
de negatieve deviaties uitmiddelen. De som van de deviaties is daarom altijd 0.
o Samenvattende maten van spreiding van het gemiddelde gebruiken daarom kwadraten of
de absolute waarden.
- Variantie: het gemiddelde van de kwadraten van de eenheden van de meting van de originele data.
Daarom de wortel gebruiken om makkelijker te interpreteren (dit is de standaarddeviatie).




i x x - 𝑥̅ x - 𝑥̅ 2
Deviaties Som

, - Hoe groter de standaarddeviatie, hoe groter de spreiding van de data.
- De standaarddeviaties kan worden beïnvloedt door uitschieters, omdat hij het gemiddelde gebruikt.

Empirische regel (interpreteren magnitude van standaarddeviatie)
Door gebruiken van het gemiddelde en de standaarddeviatie, we kunnen daarmee intervallen vormen die een
bepaald percentage van de data bevatten. Dit kan alleen als de dataverdeling bell shaped is.
• 68% van de observaties vallen binnen 1 s van het gemiddelde (beide kanten).
• 95% van de observaties vallen binnen 2 s van het gemiddelde (beide kanten).
• Alle (of bijna alle) observaties vallen binnen 3 s van het gemiddelde (beide kanten).




2.5 Using Measures of Position to Describe Variability

Recap
Het gemiddelde en de mediaan beschrijven het centrum van de verdeling. Het bereik en de standaarddeviatie
beschrijven de spreiding van de verdeling.

Een andere manier om de verdeling te beschrijven is door het gebruik van posities, voorbeelden:
- De mediaan: geeft aan dat een bepaald deel van de data boven dat punt valt en een deel eronder.
- Het bereik: de minimale en maximale waarde.
- Hoever een observatie valt van een bepaald punt (zoals aantal standaarddeviaties een observatie
van het gemiddelde valt).

Maatstaven van posities
• Percentielen: het 𝑝𝑒 percentiel is een waarde waarbij p procent van de observaties vallen op die waarde
(of lager).
• Kwartielen:
- Eerste kwartiel: p = 25 (dus 25e percentiel), de laagste 25% van de data valt hieronder.
- Tweede kwartiel: p = 50 (dus 50e percentiel), de mediaan.
- Derde kwartiel: p = 75 (dus 75e percentiel), de hoogste 25% van de data valt hierboven.
➢ De kwartielen splitsen de verdeling in vier delen, elke bevat een kwart van de observaties (25%).




Vinden van de kwartielen:
1. Data in volgorde zetten.
2. De mediaan bepalen (Q2).
3. Kijken naar de onderste helft van de observaties (exclusief de mediaan zelf wanneer n oneven is).
De mediaan bepalen van deze observaties (Q1).
4. Kijken naar de bovenste helft van de observaties (exclusief de mediaan zelf wanneer n oneven is).
De mediaan bepalen van deze observaties (Q3).

De kwartielen worden ook gebruikt om te spreiding te bepalen, die meer resistent is dan het bereik en de
standaarddeviatie.

, Meten van variabiliteit
• Interkwartielafstand: deze maat vat het bereik samen voor de middelste helft van de data (middelste
50% van de observaties vallen tussen Q1 en Q3).
- De afstand tussen Q1 en Q3 is de interkwartielafstand (IKA).




➢ Hoe meer de data varieert, hoe groter de IKA is.
➢ Echter, de IKA wordt niet beïnvloed door observaties onder Q1 of boven Q3, dus is resistent tegen
uitschieters. Het is daarom vaak beter om IKA te gebruiken in plaats van het bereik of de
standaarddeviatie om de spreiding van verdelingen te vergelijken die scheef verdeelt zijn of die
extreme uitschieters hebben.

Opsporen van mogelijke uitschieters
Daarvoor kun je de IKA gebruiken. Een observatie is een mogelijke uitschieters als het meer dan ‘1.5 x IKA’ onder
Q1 valt, of boven Q3.
• Q1 – 1.5 x IKA
• Q3 + 1.5 x IKA

Box plot
Grafiek van vijf nummers, samenvatting van de posities. Helpen om het centrum en de spreiding van een
verdeling te beschrijven.
• De vijf nummers: Q1, Q2, Q3, minimale waarde, maximale waarde.
• Construeren van een box plot:
1. Een box tekenen van Q1 tot Q3.
2. Een lijn tekenen in de box op de plek van de mediaan.
3. Een lijn van de laagste kant van de box naar de kleinste observatie (die geen mogelijke uitschieter
is). Hetzelfde aan de bovenkant. Deze lijnen zijn de snorharen.
➢ De uitschieters worden los weergegeven. Deze geven niet veel informatie over de vorm van de
verdeling, zeker bij grote datasets niet.




Vergelijking box plot en histogram
• Een box plot geeft bepaalde eigenschappen van een verdeling niet weer, zoals losse heuvels en
mogelijke gaten (dit doet een histogram wel).
• Een box plot is wel handiger voor het opsporen van mogelijke uitschieters.
• De histogram werkt beter voor grote datasets.

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper sennameul. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €6,49. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 73216 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen
€6,49  8x  verkocht
  • (5)
  Kopen