Beschrijvende Statistiek
Samenvattingen Semester 1 Blok 2
,Week 1 – HC 1
1.1 Using Data to Answer Statistical Questions
Data= De informatie die we verzamelen met experimenten en vragenlijsten.
Statistieken= Een nummer gecalculeerd uit data, maar in het veld een manier van denken over data en
onzekerheden kwantificeren. Het is de kunst en wetenschap van het leren van data.
Er zijn drie hoofdcomponenten van de statistiek om statistische vragen te beantwoorden.
1. Design: Een doel en/of statische vraag waar we benieuwd naar zijn stellen en uitstippelen hoe
we data verzamelen om dit te beantwoorden.
2. Beschrijving: Samenvatten en analyseren van de data die er is verkregen.
3. Inferentie: Het maken van keuzes en voorspellingen gebaseerd op de verkregen dat om de
statische vraag te beantwoorden.
Beschrijving en inferentie zijn complementair aan elkaar: Beschrijving is nodig om voorspelling te doen
over het vraagstuk.
Waarschijnlijkheid= Het kwantificeren van hoe waarschijnlijk meerdere mogelijke uitkomsten zijn.
De General Social Survey (GSS) is een site waarop veel data te vinden is over onderwerpen waar al
vragenlijsten over gemaakt zijn.
1.2 Sample Versus Population
Subjecten= De entiteiten die we meten in een studie. Deze hoeven niet per se mensen te zijn, het kan
bijvoorbeeld ook een land of school zijn.
Populatie= Een set van alle subjecten waar we benieuwd naar zijn.
Steekproef= Een deel van de populatie waar we benieuwd naar zijn die waarbij we een meting gana
uitvoeren.
Beschrijvende statistiek is handig bij het verwerken van data van een gehele populatie, terwijl
inferentiële statistiek gebruikt wordt bij data van alleen een steekproef, om daar dan een keuze of
voorspelling over te maken.
Er is vaak data beschikbaar van een hele populatie, maar het verkrijgen en verwerken daarvan kost
veel tijd en moeite. Zo een grote hoeveelheid data wordt vaak weergegeven in grafieken, om het
directer afleesbaar te maken.
De precisie van een voorspelling (in percentages) in een steekproef is vaak groter dan gedacht, omdat
er een marge van error gebruikt wordt.
Marge van error= Een meting van de verwachte variatie van een steekproef tot een andere
steekproef. ((1/wortel aantal subjecten in de steekproef)x100%)
Parameter= numerieke (percentage) samenvatting van de populatie (met marge van error erbij).
Statistiek= numerieke samenvatting van de steekproef (uitkomst meting onder een hoeveelheid
subjecten).
Willekeurige steekproeftrekken= Aselect kiezen van de steekproef om hem zo representatief mogelijk
te maken voor de gehele populatie.
Steekproeven variëren, net als ieder mens dus aselecte steekproeven zorgen voor sterkere inferenties
(voorspellingen).
Hoe meer subjecten in de steekproef onderzocht worden, hoe specifieker de conclusie.
,Statisch significant= Wanneer het verschil tussen de resultaten van de twee groepen met
verschillende behandelingen zo groot is dat het zeldzaam zou zijn om dat verschil te zien bij
gewoonlijke variatie.
1.3 Using Calculators and Computers
Bij statistiek wordt veel gebruik gemaakt van (grafische) rekenmachines. Toch kunnen we niet
helemaal afhangen van computers, want er is een achtergrond van kennis vereist om goed te kunnen
kiezen wat en hoe er gemeten wordt.
Data file= een groot bestand waarin grote sets van data zijn georganiseerd, waardoor statische
analyse makkelijker gemaakt worden. Hierin bevat elke rij een bepaald subject en elke rij verticaal een
karakteristiek voor de subjecten. Deze kunnen
• Numeriek zijn: Er wordt geteld;
• Een categorie zijn: Er wordt geplaatst in een categorie of label.
Database= Gearchiveerde collecties van databestanden staan in databases (bv Google). Check wel
altijd of je database vertrouwd kan worden!
Er kan bij de statistiek gebruik gemaakt worden van web apps: Deze maken simulaties, een computer
wordt gebruikt om na te doen wat er zou kunnen gebeuren als je een steekproef zou doen in het
echte leven met bepaalde metingen.
2.1 Different Types of Data
De omstandigheden die een variabele meten worden gemeten door middel van observaties. Deze kan
• Een getal zijn: een kwantitatieve factor (discreet= telbaar of continu= in een interval).
• Een categorie zijn
Distributie= Hoe observaties verdeeld worden over of de categorieën, of de kwantitatieve factor.
Vorm= zijn observaties geclusterd in bepaalde intervallen of zijn ze verdeeld?
Gecentreerd= waar vallen de bepaalde observaties in?
Variabiliteit= Hoe dicht zijn de observaties geclusterd om een bepaald gecentreerd punt?
Modale categorie= De categorie met de grootste frequentie.
Frequentietabel= Een lijst van mogelijke waarden van een variabele, samen met de hoeveelheid
observaties voor elk van die waarden.
Proportie= aantal observaties in een bepaalde categorie/totaal aantal observaties.
Percentage= proportie x 100
2.2 Graphical Summaries of Data
Er zijn twee soorten grafieken voor categoriale variabelen.
1. Cirkeldiagram: Elke punt laat de grootte zien van het percentage van een bepaalde observatie.
2. Staafdiagram: De hoogte van een staaf ‘’.
Pareto diagram..? hoorcollege
Ook heb je dot plots, stam-en-blad plots en histogrammen. (Zie boek)
Histogram= een grafiek die gebruik maakt van staven om te portretteren de frequenties of de
relatieve frequenties van de mogelijke uitkomsten voor een kwantitatieve variabele.
Bij te veel variabelen kan er gebruikt gemaakt worden van intervallen. (Niet te veel, 5 tot 10
intervallen)
, Modus= Meest voorkomende kwantitatieve variabele.
Om te kiezen voor welke kwantitatieve grafiek je gebruikt, is het altijd handig om sowieso een
histogram te plotten.
Unimodale verdeling= Wanneer er 1 duidelijke piek is in de distributie. (Modus)
Bimodale verdeling= Wanneer er twee pieken zijn. Dit kan bij verdeelde meningen zo zijn of wanneer
de observaties van twee groepen komen.
De distributie kan een vorm aannemen, namelijk symmetrisch of scheef. Wanneer hij symmetrisch is,
is de verdeling tussen de centrale waarde gelijk. Bij een scheve distributie is de ene kant van de
distributie langer dan de andere kant. (kiezen tussen gemiddelde en mediaan, zie hc)
Tijdseries= Een dataset bij elkaar geraapt gedurende een langere tijd
Tijdplot= Tijdseries uitgezet in grafieken, met vaak verticaal de observaties en horizontaal de tijd.
Je zoekt in een tijdplot naar een trend, daar waar de data een groei of daling doormaakt.
2.3 Measuring the Center of Quantitative Data
Mediaan= het midden van de verdeling die op volgorde is gezet (50% kan er onder en 50% kan er
boven). De mediaan kan niet beïnvloed worden door een uitschieter (= resistent)
Gemiddelde= De som van observaties gedeeld door het aantal observaties. Het is een balanspunt.
Voor de formule, zie formuleboek. Het gemiddelde kan sterk beïnvloed worden door een uitschieter,
waardoor hij meer naar rechts of links getrokken wordt.
Er gelden drie regels voor een symmetrische of scheve ‘parabool’:
1. Als hij symmetrisch is, is de mediaan gelijk aan het gemiddelde.
2. Als hij scheef naar links is, is het gemiddelde kleiner dan de mediaan.
3. Als hij scheef naar rechts is, is het gemiddelde groter dan de mediaan.
Beide vinden voordat er gekozen wordt tussen de twee is de beste optie.
HC 2
2.4 Measuring the Variability of Quantitative Data
Een meting van het centrum van een kwantitatieve variabele is niet genoeg, want het bereik kan
verschillen.
Bereik= het verschil tussen de grootste en de kleinste observatie. Deze kan heel erg afhangen van
uitschieters: als 1 observatie heel groot is wordt het bereik ook gelijk heel groot.
Het bereik is niet de beste manier om de variabiliteit van de observaties te meten, omdat niet alle
data wordt gebruikt.
Afwijking= een observatie – het gemiddelde van de observaties. Wanneer observatie kwantitatief
hoger is dan het gemiddelde is de afwijking positief, anders om is hij negatief. De som van de
negatieve en positieve afwijkingen is altijd nul.
Variantie= het gemiddelde van de kwadratische afwijkingen (Afwijking^2).
Standaarddeviatie= De wortel van de variantie. Hoe groter, hoe beter de variabiliteit van de
observaties. Het is een typische afstand van een observatie tot het gemiddelde.
Empirische regel= Als een verdeling van variabelen symmetrisch en unimodaal is (dus een belvormige
grafiek), dan:
• Valt 68% van de observaties waarschijnlijk in 1 standaardafwijking van het gemiddelde.
(Gemiddelde ± standaardafwijking)