Statistiek
1 INTRODUCTION AND GRAPHICAL DESCRIPTIVE TECHNIQUES
CLIP 3- INTRO CHAPTER 1
Statistiek = een manier om informatie uit gegevens te halen collecting, analyzing and interpreting data om
inzicht in een bepaald verschijnsel te krijgen, dit wil je ondersteunen om beslissingen maken.
Begrippen:
- Population = set of all items of interest in a statistical problem bijv. Alle stemgerechtigden in
Nederland
- Parameter = descriptive measure of population beschrijvende maatstaf van een bepaalde
populatie, bijv. gemiddelde lengte van een bepaalde groep
- Sample = set of data drawn from population een deel van de populatie waar je je in je onderzoek
op richt om over het grotere geheel iets te zeggen. Tegenhanger van populatie.
- Statistic = descriptive measure of sample tegenhanger van parameter, bijv. Het percentage
voorstanders van een kandidaat van een steekgroep
Onderscheid tussen:
1. Beschrijvende statistiek = descriptive statistics
Kan je toepassen op populatie en steekproef, als eerste stap voor de 2 e soort statistiek. Presenteren
en samenvatten van gegevens op een effectieve manier. Contact, inzichtelijk, conclusies op een juiste
manier getrokken worden. Bijv. frequentietabellen (grapical tools) of samenvattende maatstaven
(gemiddelden, standaard deviatie, mediaan)
2. Inferentiele/ gevolgtrekkende statistiek = inferential statistics
Doorgaans verzamel je niet de hele populatie, richten op een handig gekozen deelverzameling van de
populatie = steekproef. De kenmerken van de populatie (de parameters) dat we die kunnen schatten/
voorspellen/ benadrukken informatie over het kleine geheel (sample) een conclusie trekken voor de
hele populatie. In dat proces: onzekerheid! Je weet de volledige populatie niet. Altijd een verschil in de
afspiegelingen van de steekproef op de populatie. Hoe oplossing? kansrekening
CLIP 4 – MEASUREMENT LEVEL OF VARIABLES
Meetniveaus van vairabelen kiezen van passende statistical techniques door naar measurement level (of
type) of variables analyzed
- Variable = kenmerk van de populatie
- Kwalitatief = uitkomst van variable is in een categorie in te delen. 2 meetniveaus mogelijk:
o Nominaal meetniveau, je kan alleen categoriseren, bijv. iemand komt uit Nederland/
Duitsland/ Spanje etc. Je kan alleen beoordelen of iemand wel/ of niet in die categorie
thuishoort.
o Ordinaal meetniveau: natuurlijke rangordening net zoals nominaal meetniveau, het drukt de
preference uit, je kunt ze op volgorde zetten (verschil met nominaal!) maar je kunt de afstand
tussen de verschillende uitkomsten niet meten.
- Kwantitatief = uitkomsten zijn numeriek, ze zijn het resultaat van een meetproces OF telproces. Bijv. ik
meet lengte OF ik tel hoeveel boeken er in de boekenkast staan.
o Interval meetniveau: dezelfde kenmerken als ordinaal meetniveau + de afstand van de
uitkomsten is bekend, bijv. schoenmaat, maar let op! Schoenmaat 22 is niet 2x zo groot als
1
, 44. Bijv. temperatuur in Celsius: bijv. morgen 5 graden warmer, maar niet 2x zo warm als
gisteren.
o Ratio meetniveau: extra eigenschap: absoluut nulpunt, bijv. leeftijd. Je kunt verhoudingen
bepalen! Dat is het verschil met interval, je kan wel zeggen iemand van 12 is 2x zo oud als
iemand van 6.
Het is een opklimmend meetniveau! Telkens kan je meer meten.
Categorieën van meten wordt bepaald door:
1. Naamgeving nominaal. De categorie kunnen alleen via naamgeving onderscheiden worden en de
uitkomst kan alleen ja/ nee zijn. Dus de hypothese klopt of niet. Is gelijk of is niet gelijk.
2. Naamgeving + ordenen ordinaal. Bijv. de volgorde van aankomst bij de finish. Je kunt vaststellen wie
eerder is aangekomen, je kunt ze op volgorde zetten. Maar je hebt de tijd niet genoteerd, want je
weet het verschil dan niet tussen de atleten
3. Naamgeving + ordenen + afstanden interval. De afstand van het ene resultaat is meetbaar tov het
andere resultaat.
4. Naamgeving + ordenen + afstanden + absolute zero ratio. De afstanden krijgen betekenis omdat er
een 0 punt is bepaald. Er is een mogelijkheid om verhoudingen te bepalen.
CLIP 5 – FREQUENCY TABLES AND HISTOGRAMS
Hoofdstuk 3.1 van het boek! We gaan kijken naar beschrijvende statistiek voor kwantitatieve gegevens =
descriptive techniques for quantitative data.
1. Frequentietabellen
2. Histogrammen
Stappenplan meten:
1. Data vergaren allerelei typen data op een rij zetten
2. Frequentieverdeling/ tabel voorbereiden de kwanitatieve gegevens worden in niet-overlappende
kolommen ingedeeld en per interval wordt geturfd/ geteld hoeveel observaties in deze tabel vallen. In
klasses indelen bijv. leeftijd 20-30, 30-40, etc. Je deelt in op basis van de bovengrens van de klassen
prepare a frequency distribution “How many classes to use?” observaties (in categorieën) & classes
(frequentie) wat is de klassebreedte (variatiebreedte: verschil tussen grootste/ kleinste uitkomst in
de dataset). De klassebreedte is de concentratie/ dichtheid van de klassen.
3. Een histogram tekenen -> grafische weergave. Op basis van excellsheet: Bin (bovengrens van een
klasse) & fequency dat vertaalt zich in een histogram met bills op x-as en frequency op y-as
Via een histogram kan je informatie visueel presenteren om data makkelijker begrijpelijk te maken en
conclusies uit te trekken.
CLIP 9 – PIE CHARTS AND BAR CHARTS
Hoofdstuk 2.2 van het boek!
Kwalitatieve gegevens voor beschrijvende technieken Descriptive techniques for qualitative data Het gaat om
nominale en ordinale gegevens
Beiden gebruiken voor nominale/ ordinale gegevens gebruiken. Meest gebruikte diagrammen:
2
, 1. Pie charts/ taartdiagrammen relatieve aantallen/ de proporties gebruik je pie chart. De schijf moet
overeenkomen met de proporties.
2. Bar charts / staafdiagrammen (verwar dit niet met histogram!) gebruik bij absolute getallen een
staafdiagram. Waarom zitten gaten tussen de staven? Het gaat niet om kwantitatieve gegevens, waar
waardes tegen elkaar aanliggen en aansluiten, dit zijn categorieën die de staven van elkaar
onderscheiden, ze hebben niet een verband met elkaar. De categorie 3 is niet 3x zoveel als de
categorie 1.
Voorkeur voor ordinale gegevens = bar chart. Bijv. voorkeur voor chocolade moet je met je weergave van
helemaal niet lekker tot heel erg lekker ook in die logische volgorde weergeven.
2 NUMERICAL DESCRIPTIVE MEASURES
CLIP 1 – AGENDA AND INTRODUCTORY EXAMPLES
Zie hoofdstuk 4 van boek!
Kengetallen die informatie over een getal in een keer samenvatten:
- Metingen die centrale locaties aanduiden: gemiddelde, modus, mediaan
- Metingen die niet centrale locaties aanduiden: kwantielen, percentielen
- Metingen van variantie: range, variance, standard deviation, coefficient of variation, interquartile
range spreidingsmaatstaf, bijv. Om risico van rendementen van aandelen te meten.
- Intepreteren van standard deviation toepassing van spreiding standaard deviatie. Theorie:
Chebysheff’s. Op basis van het gemiddelde en de standaard deviatie (niet meer dan dit!) kunnen we
iets zeggen over het percentage observatie wat in een bepaald gebied ligt/ een bepaalde interval.
- Maatstaven bepalen voor gegroepeerde gegevens, waar je de individuele uitkomsten niet kent en toch
een schatting wil maken van bestaande maatstaven. Gemiddelde op basis van gegroepeerde gegevens
bepalen.
CLIP 2 – MEASURES OF CENTRAL LOCATION
Hoofdstuk 4.1 boek!
Waarvoor nodig?
- Kunnen de meest typische uitkomsten van een verdeling in 1 cijfer samenvatten
- Als benchmark voor overige maatstaven/ andere observaties
Maatstaven:
- Mean, median, mode
Wanneer gebruik je welke maatstaf? afhankelijk van het meetniveau!!
- Interval (quantitative), ordinal, nominal
Rekenkundig gemiddelde = artihmetic mean. Verschil met geometrisch gemiddelde!!
- De som van alle uitkomsten in een dataset GEDEELD DOOR het aantal waarnemingen in die dataset =
GEMIDDELDE (mean)
- Niet bij elk niveau is het toegestaan om uitkomsten bij elkaar op te tellen, dat geldt pas vanaf interval
niveau!! Dan pas hebben uitkomsten een meaningful betekenis en kun je getallen van elkaar aftrekken
en optellen vanaf INTERVAL/ RATIO-data. Je mag geen gemiddelde bepalen van ratio (in praktijk
3
, gebeurt dat wel). Bijv. likert scale is een voorbeeld van goed opletten of je hier zomaar een
gemiddelde van mag pakken, is afhankelijk van hoe jij die punten gedefinieerd hebt!! Als dat een
ordinale schaal is, dan is het gemiddelde niet een goede maatstaf.
- Wiskundige formule van de sample mean:
Dit is hetzelfde als:
De griekse S = som teken, summatie symbool, dus: x1 + x2 + x3…. x10 = …
n = aantal elementen in de steekproef
X ‘streep’/ x ‘bar’ = gemiddelde
De definitie van een populatie is precies hetzelfde, alleen worden andere letters gebruikt! De omvang van een
dataset noteren we met hoofdletter N en bij een sample met kleine letter n. Daarnaast gebruiken we de
griekse letter ‘mu’ = μ voor gemiddelde in plaats van x ‘bar’. Aan de notatie kan je dus zien of het om een
steekproef of populatie gaat!!
Voor een gemiddelde geldt altijd: dat de som van de afstanden tot de punten altijd NUL is. VB. kleine
steekproef van 5 getallen het gemiddelde is nul. Als je die getallen visueel zou willen tonen door bijv. een
soort balansweegschaal te plaatsen is het geheel in evenwicht dat visualiseert dat het gemiddelde in een
dataset eigenlijk het zwaartepunt bepaalt = zwaartepunt van de verdeling. De afstanden naar links zijn even
groot als de afstanden naar rechts. Het gemiddelde van de afstanden van elk punt tot het gemiddelde is dus
nul.
CLIP 3 – MEDIAN AND MODE
De median = de waarde die in het midden ligt wanneer je de uitkomsten op volgorde van grootte zet. Link met
meetniveaus: kan toegepast worden op alle meetniveaus waar volgordebepaling zinvol is. Geschikt voor
ordinaal, interval en ratio niveau, maar niet voor nominaal!
Bijv. ten hoogste 50% zit eronder en ten hoogste 50% eronder.
1. Sorteren data. Je moet eerst de getallen op volgorde van grootte
2. Bij oneven getallen van de observaties -> de middelste observatie
3. Bij even getallen van de observaties -> dan is er geen gemiddelde -> alleen sprake van de middelste 2,
daarvan neem je het gemiddelde. Bijv. 29 en 30 = 29.5. Dat zit niet als waarde in de dataset maar is
wel de mediaan
Mediaan is minder gevoelig voor extreme uitkomsten! Stel je hebt een uitbijter dan kan je mediaan nog steeds
hetzelfde zijn. Bijv. inkomstverdeling van onderontwikkelde landen, gebruik je meestal mediaan om
uitschieters niet in het gemiddelde mee te nemen.
Modus = de uitkomst die het vaakst voorkomt. In 1 getal samenvatten wat er in de dataset zit. Bij
gegroepeerde gegevens benoem je de klasse met de hoogste frequentie als de modale klasse. De modus zelf is
niet zo veelzeggend, maar de modale klasse wel! Bijv. 1000 observaties verschillen van elkaar, behalve 2
4