College aantekeningen Beschrijvende Statistiek
College 1
Belangrijk om populatie specifiek te maken.
Variabele Telvaardigheden
Categorische variabele indelen in categorieën, jongens en meisjes, je kan het
ordenen, waardes geen betekenis
Kwantitatieve variabele waarde betekenis, Bv. Leeftijd
- discrete variabele Je hebt alleen bepaalde vaste waarden, niet met komma
- Continue variabele Tussenwaardes hebben ook betekenis. Oneindig mogelijke
waarde
Twee categorieën Ja of nee
Statistic hoort bij steekproef gemiddelde, samenvatting data, we willen uiteindelijk de
statistic gebruiken om iets te zeggen over de parameter
Parameter populatie
Beschrijven statistiek samenvatten data
Toetsende statistiek statistic gebruiken om iets te zeggen over de parameter
Beschrijvende statistiek: beschrijven data
Grafische weergave
Centrummaten
1. Categorische variabele
- Eerst beschrijven van je steekproef Je kan het grafisch weergeven
Correct of incorrect goed of niet goed de blokjes geteld
Cirkeldiagram, staafdiagram (staven staan los van elkaar) geen tussenwaardes
geen continuïteit, tabel
Percentages
Altijd kijken of er missende waarden zijn
Modale categorie/modus = die het meeste voorkomt, meeste frequentie
2. Kwantitatieve variabele
Mediaan Alle scores op volgorde zetten (meerdere dezelfde waardes kan ook), dat in
tweeën delen, middelste waarde is mediaan. 4 5 6 7 8 mediaan is 6
Even aantal: 5 6 7 8 middelste waardes optellen en delen door 2 6,5
Je kan kijken naar cumulatieve percentage Bevat dat percentage van de scores, dus de
mediaan is 8, 52% 8 Als er veel waardes zijn is dat makkelijker
Gemiddelde
N = steekproefgrootte aantal observaties
Gemiddelde van frequentieverdeling frequentie uitkomst x waarde uitkomst en dan
delen door totaalaantal
, Soms is het beter om een mediaan te gebruiken
- Symmetrisch (klokvormige verdeling mediaan en gemiddelde moet hetzelfde zijn
Je gebruikt in principe gemiddelde
- Niet Symmetrisch mediaan en gemiddelde verschillen gemiddelde geeft niet
helemaal een correcte weergave. Gemiddelde kan te veel omhoog om omlaag worden
getrokken Je gebruikt mediaan
Staafdiagram of cirkeldiagram (Je krijgt veel punten) Deze gebruik je dus niet bij
kwantitatieve variabele
Je gebruikt een histogram categorieën staven (aan elkaar) meerdere waarden
kunnen worden opgenomen in de staven
1 uitschieter of heel hoog of heel laag kan gemiddelde vertekenen extreme waarde
Mediaan heeft hier minder last van
College 2
Door mediaan kan je niet gelijk een goede conclusie trekken. Je zegt alleen iets over de
middelste, maar niet over de spreiding
Naast centrummaat ook kijken naar spreiding spreidingsmaat
Spreiding:
Het bereik variatiebreedte maximum – minimum
2,2,2,2,2 bereik = 0
Beïnvloed door uitschieters
Percentielen percentage nemen
Mediaan = 50ste percentiel
75ste percentiel 75% 25% van de participanten 9 of meer glazen drinkt conclusie
alcoholconsumptie in deze steekproef op basis van 75e percentiel
Participanten benoemen, want je weet iets over steekproef
Interkwartielafstand meerdere percentielen vergelijken, Verschil tussen deze twee
Q3 = percentiel 75
Q1 = percentiel 25
Alcoholconsumptie interkwartielafstand = 9 middelste 50 % van de data ligt tussen 0 en 9.
Spreiding rond mediaan is 9, mediaan = 2, Dus we weten dat er behoorlijk veel spreiding is.
Q2 = mediaan/ percentiel 50
Interkwartielafstand kunnen we ook gebruiken of het normale scores zijn of uitschieters.
- Uitschieters naar beneden: Q1 – 1,5 x interkwartielafstand (IKA)
- Uitschieters naar boven: Q3 + 1,5 X IKA
, Uitschieters alcoholconsumptie:
- 0 – 1,5 x 9 = - 13,5
- 9 + 1,5 x 9 = 22,5 alles wat hierboven ligt zijn uitschieters, is een grenswaarde
Ja mogelijke uitschieters naar boven. Naar beneden is niet mogelijk, want je kan niet lager
dan 0. Wel mogelijke uitschieters naar boven. Altijd mogelijk
Interkwartielafstand boxplot bij scheve spreiding
Onderste grens box = Q1
Bovenste grens box = Q3
Streep ertussen = mediaan Q2
Uiteinde = grootste waarde die onder mogelijke uitschieters zit, dus 22. Alles wat boven
die 22,5 ligt haal je weg. Kan ook naar beneden
Mogelijke uitschieters naar boven. Kan ook naar beneden
Data is scheef verdeeld bij alcoholconsumptie
Rechtsscheef
Bij normale verdeling gebruik je als centrummaat het gemiddelde