Statistiek samenvatting
algemeen
Variabelen
Alles wat in een onderzoek gemeten, uitgevraagd of bijgehouden wordt zijn variabelen. Een
variabele is een eigenschap die verschillende waarden heeft voor verschillende individuen,
zoals leeftijd of geslacht.
Informatie wordt ook wel data genoemd.
Een dataset bevat informatie over alle participanten en alle variabelen.
Een dataset ziet er als volgt uit: op elke rij staat een participant, dus het aantal rijen staat
gelijk aan het aantal participanten in het onderzoek. Elke kolom staat voor een variabele.
Alle lessen maken gebruik van dit soort datasets, dus het is belangrijk dat je goed begrijpt
hoe je datasets afleest.
Frequentie
Een veel voorkomende vraag is: hoe vaak komen bepaalde waardes voor?
Als je een lange lijst met data hebt, is dat niet in één oogopslag te zien.
Je kunt wel een nieuwe tabel maken, waarbij je telt hoe vaak alle waardes voorkomen.
Hoe vaak bepaalde waardes voorkomen noemen we Frequentie. Zo'n tabel noemen we
daarom een frequentietabel.
Bij het opstellen en aflezen van frequentietabellen zijn er vier begrippen van belang:
Absolute frequentie
Relatieve frequentie
Geldige frequentie
Cumulatieve frequentie
Absolute frequentie: het aantal keer dat iets voorkomt.
Relatieve frequentie: het aantal keer dat iets voorkomt uitgedrukt als percentage, oftewel:
relatief ten opzichte van het totaal aantal keren.
Helaas laten mensen die een enquête invullen soms wat vragen open. Je kunt de relatieve
frequentie dan berekenen ten opzichte van iedereen die je de enquête hebt gestuurd, of ten
opzichte van iedereen die een geldig antwoord in heeft gevuld.
,Dit laatste noemen we de relatieve geldige frequentie.
Het laatste begrip omtrent frequentie is de cumulatieve relatieve frequentie. Hierbij tel je
de relatieve frequentie (percentage) van een groep op bij de percentages van de voorgaande
groepen.
Voorbeeld:
Samenvatting
Hoe vaak bepaalde waardes voorkomen noemen we de Frequentie.
Een tabel waarin je per waarde aangeeft hoe vaak deze voorkomt, noem je een
frequentietabel.
Je kunt frequenties uitdrukken in getallen (absolute frequentie), als percentage (relatieve
frequentie), ten opzichte van alleen geldige antwoorden (geldige frequentie) en opgeteld bij
voorgaande groepen (cumulatieve frequentie)
Kruistabel
Je weet al dat je voor een variabele een frequentietabel kan maken.
Dit kan ook voor de combinatie van twee variabelen. Je zet dan de frequentie van elke
combinatie neer waar de rij en kolom elkaar kruisen. Daarom noemen we dit een kruistabel.
Je kunt de onafhankelijke variabele op de rijen zetten, of je kunt de afhankelijke variabele op
de rijen zetten.
,Soms willen mensen dat je dit consistent doet en zijn er afspraken over gemaakt.
Later in praktijk doen mensen alleen elke keer wat anders. Dus lees altijd de tekst of denk
zelf goed na wat de meest waarschijnlijke afhankelijke of onafhankelijke variabele is.
Samenvatting
Een kruistabel is een frequentietabel voor de combinaties van twee variabelen.
Je kunt kruistabel maken als er niet te veel groepen zijn. Daarom kun je dit vooral
maken op nominaal/ordinaal niveau.
Meetniveau ’s
Het meetniveau van je variabele bepaalt welke statistische tools je wel en niet kunt
gebruiken. Om daar de juiste keuze in te maken, moet je het meetniveau van je variabelen
weten. In deze les leer je drie verschillende meetniveaus kennen.
Je kunt alle variabelen verdelen in twee soorten:
Categorische variabelen (gemeten in groepen/categorieën)
Continue variabelen (gemeten op een schaal)
Binnen de categorische variabelen onderscheiden we weer twee niveaus:
Nominaal
Ordinaal
Nominale variabelen zijn een kwalitatieve classificatie zonder ordening.
Kleuren zijn daar een voorbeeld van: rood, blauw, groen. Kleuren hebben geen natuurlijke
ordening, zoals '1, 2, 3'. 'Rood, blauw, groen' is hetzelfde als 'groen, rood, blauw'.
Ordinale variabelen zijn een kwalitatieve classificatie met een logische
Ordening .Bijvoorbeeld het KNMI weeralarm: geen, code geel, code oranje en code rood. In
dit geval is er wel een natuurlijke ordening.
Metrische variabelen worden gemeten op een numerieke schaal en zijn kwantitatieve
variabelen. Metrische variabelen zijn dus continue variabelen. Voorbeelden van een
metrische variabelen zijn lengte en het aantal meter zeespiegelstijging. De verschillen tussen
waardes bij metrische variabelen zijn meetbaar en relevant, zo is het verschil tussen 1.30m
en 1.40m hetzelfde als het verschil tussen 1.50m en 1.60m.
,Mediaan
Het centrum van je data is het punt waar het grootste deel van je data geconcentreerd is.
Manieren om dat punt te bepalen worden Centrummaten genoemd.
Een hiervan ken je al: het gemiddelde.
Het Gemiddelde is vaak een handige maat om het centrum van je data te bepalen. Toch zijn
er situaties waarin het gemiddelde minder goed werkt.
In deze les leer je daarom een andere centrummaat: de Mediaan.
In dit geval noemen we oma een uitschieter. Haar leeftijd was heel anders vergeleken met
de rest van de groep.
Haar hoge leeftijd vertekent het gemiddelde enorm. Het gemiddelde is daarom niet altijd een
handige centrummaat.
De Mediaan zou in dit geval een betere centrummaat geweest zijn. De Mediaan is de
middelste waarde.
Je vindt de Mediaan in vier stappen:
1. Zet alle waardes op volgorde van klein naar groot.
2. Tel hoeveel waardes er totaal zijn.
3. Deel het totaal aantal waardes door twee en rond af naar boven.
4. Tel vanaf het begin tot aan het getal uit stap 3 om zo de middelste waarde te vinden.
Uitgewerkt voorbeeld
Je hebt een lijst met getallen: [4, 5, 16, 2, 4, 8, 25]. Wat is de Mediaan?
Stap 1: Zet alle getallen op volgorde: [2, 4, 4, 5, 8, 16, 25].
Stap 2: Tel hoeveel getallen er zijn. In dit geval: 7.
Stap 3: Deel door 2 en rond af naar boven. In dit geval is dat 4.
Stap 4: We tellen nu tot het vierde getal. Dat is 5.
Dus de Mediaan is 5.
De Mediaan is dus altijd de middelste waarde.
Bij een oneven aantal waarden is dat de waarde in het midden.
Bij een even aantal waarden is de middelste waarde het gemiddelde van de
middelste twee waarden.
,Samenvatting
Laten we de informatie over de Mediaan nog even op een rijtje zetten:
De Mediaan is de middelste waarde.
De Mediaan is handig omdat deze minder wordt beïnvloed door uitschieters (zoals de
oma van 105 jaar).
Je vindt de Mediaan door 1) de data in de juiste volgorde te zetten. 2) de middelste
waarde te pakken.
Bij een even aantal waardes is de Mediaan het gemiddelde van de middelste twee
waarden.
Modus
In de statistiek willen we vaak weten op welk punt het grootste deel van de data zich bevindt.
We noemen zo'n punt een centrummaat.
Bijvoorbeeld, een ijsverkoper die zijn aanbod van 10 smaken terug wil brengen naar 1 smaak
en dus wil weten welk ijsje het beste verkoopt.
De simpelste manier om daarachter te komen is door te vragen: Welke waarde komt het
meeste voor? Het antwoord op deze vraag wordt de Modus genoemd. In deze korte les leer
je hoe je de Modus vindt
Het is niet zo moeilijk om de Modus te vinden:
Tel hoe vaak elke waarde voorkomt.
De waarde die het meeste voorkomt is de Modus.
Komen er twee waardes even vaak voor? Dan zijn er twee 'modi'.
, Uitgewerkt Voorbeeld:
Vraag: Onze ijsverkoper heeft vandaag heel wat smaken verkocht. De gegevens staan in de
tabel. Wat is nu de modus?
Uitwerking:
Stap 1: Tel hoe vaak alle waardes voorkomen.
Citroen: 2
Aardbei: 5
Banaan: 3
Chocola: 1
Pistache: 1
Stap 2: De waarde die het meest voorkomt is 'Aardbei'. Dus er is één modus, namelijk
'Aardbei'.
Stel nu dat je de meest voorkomende finishtijden van een hardloopwedstrijd wilt vinden.
We hebben de volgende tijden:
[1:00:05, 1:00:04, 0:53:53, 0:51:32, 1:00:09, 0:51:39, 1:00:07, 1:00:10, 1:00:42, 1:00,48]
Als je goed kijkt zie je dat de meeste tijden rond de 1 uur liggen.
Echter, als we hiervan de Modus zouden willen berekenen, gaat dat niet. Er is namelijk geen
enkel getal dat het meeste voorkomt: alle waardes komen maar eenmaal voor.
De Modus berekenen voor Continue data heeft daarom vaak niet zoveel zin. Je gebruikt de
Modus vooral bij Categorische data.
Gemiddelde
Bij Interval- of Ratio data is het niet handig om de Modus uit te rekenen. Alle waardes zijn
vaak net anders, dus komt er geen één waarde het meeste voor.
Bij Interval- of Ratio data rekenen we daarom vaak het gemiddelde uit.
Wat nou als je dit aan iemand uit zou moeten leggen die nog nooit een gemiddelde heeft
uitgerekend? Wat zou je die persoon dan uitleggen?
Waarschijnlijk zoiets als dit:
Je vindt het gemiddelde via de volgende stappen:
Stap 1: Tel alle waardes bij elkaar op
Stap 2: Deel door het aantal waardes
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller kyratenhoor. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $8.02. You're not tied to anything after your purchase.