Samenvatting statistiek blok 1.4
Hoofdstuk 1
Statiek is de wetenschap van het organiseren en analyseren van informatie om het makkelijker te
kunnen begrijpen. Statistiek wordt gebruikt om resultaten van onderzoeken te begrijpen.
Tegenwoordig wordt statistiek in bijna alle disciplines gebruikt. Statistiek beschrijft een reeks tools en
technieken die worden gebruikt voor het beschrijven, organiseren en interpreteren van informatie of
gegevens. Beschrijvende statistieken worden gebruikt om de kenmerken van een verzameling
gegevens te ordenen en te beschrijven. De verzameling wordt soms een dataset/data genoemd. Zo
kun je bijv. het meest voorkomende gegeven benoemen (de modus), het gemiddelde etc. Er kan een
grote verzameling gegevens worden weergeven. Inferentiële statistieken zijn vaak de volgende stap
nadat gegevens zijn verzameld en samengevat. Ze worden gebruikt om gevolgtrekkingen te maken
op basis van een kleinere groep gegevens over een mogelijk grotere groep. Een kleinere groep
gegevens wordt een steekproef genoemd, die een deel of subset van een populatie is. Beschrijvende
en inferentiële statistieken werken hand in hand en welke je gebruikt hangt af van de vraag die
beantwoord moet worden.
Hoofdstuk 2
Een gemiddelde is de enige waarde die het beste een helpe groep scores weergeeft. Gemiddelden
worden ook wel metingen van centrale tendentie genoemd en er zijn drie soorten: het gemiddelde,
de mediaan en de modus -> geven alle drie een ander soort informatie. Het gemiddelde is het meest
voorkomende type gemiddelde: som van alle waarden in een groep gedeeld door het aantal waarden
in die groep.
De letter X met een streep erboven (X-Bar) is de gemiddelde waarde van de groep scores of het
gemiddelde
De ∑ /Griekse letter sigma, is het somteken: alles wat volgt bij elkaar optellen
De X is elke individuele score in de groep scores
De n is de grootte van de steekproef waaruit u het gemiddelde berekent.
Volg deze stappen om het gemiddelde te berekenen:
1. Maak een lijst van de volledige set waarden in een of meer kolommen. Dit
zijn alle X'en.
2. Bereken het totaal van alle waarden.
3. Deel het totaal of de som door het aantal waarden.
Het gemiddelde wordt soms weergegeven door de letter M en wordt ook wel het typische
gemiddelde of meest centrale code genoemd. Een grote N is de populatiegrootte, kleine n de
steekproefomvang. Het steekproefgemiddelde geeft het meest nauwkeurig het populatiegemiddelde
weer. Het gemiddelde is bovendien erg gevoelig voor extreme waarden. Het wordt ook wel het
rekenkundig gemiddelde genoemd. Een gewogen gemiddelde kan worden berekend door de waarde
te vermenigvuldigen met de frequentie waarmee deze voorkomt, het totaal van alle producten
optellen en vervolgens te delen door het totale aantal keren dat deze voorkomt. Voor waarden die
horen bij steekproeven worden Romeinse letters gebruikt, voor populatiewaarden worden Griekse
letters gebruikt.
Mediaan: middelpunt in een reeks scores. Om het te berekenen maak je (1) een lijst van de waarden
in volgorde voor hoog naar laag/laag naar hoog, (2) zoek je de middelste score = mediaan. Bij een
even aantal waarden wordt het gemiddelde van de middelste 2 genomen. Percentielpunten worden
gebruikt om het percentage gevallen te definiëren dat gelijk is aan en lager is dan een bepaald punt
in een reeks scores. Als een score bijv. op het 75 e percentiel is, betekent dit dat de score op of boven
75% van de andere scores in de verdeling ligt. Mediaan is het 50 ste percentiel =Q1 (25ste is Q1, 75ste is
1
,Q3). Een reden om de mediaan te gebruiken is dat het ongevoelig is voor extreme scores (scores die
sterk afwijken van de rest). Extreme waarden kunnen een beeld vertekenen/significant verstoren.
Voor mediaan wordt ook wel Med of Mdn gebruikt.
De Modus is de meest algemene en minst nauwkeurige maatstaf voor de centrale tendens, maar is
belangrijk voor het begrijpen van de kenmerken van een reeks scores. De modus is de waarde die het
vaakst voorkomst. Let op dat de modus het label zelf is en niet het aantal keren dat het voorkomt
(bijv. de modus is Republikeinen -> niet ‘70’). Als elke waarde hetzelfde aantal keren voorkomt is er
geen modus. Als meer dan 1 waarde met gelijke frequente voorkomt, is de verdeling multimodaal.
De set kan bimodaal zijn (met twee modi) (kan ook het geval zijn bij heel klein verschil tussen
frequenties). Kan ook trimodaal zijn, maar kans is klein.
Welke soort centrale tendens je gebruikt, hangt af van bepaalde kenmerken van de data, met name
de meetschaal. Deze meetschalen/regels zijn de specifieke niveaus waarop uitkomsten worden
waargenomen. Elk niveau heeft een bepaalde reeks kenmerken en meetschalen en er zijn 4 soorten:
nominaal, ordinaal, interval, ratio (NOIR).
Elke uitkomst kan worden toegewezen aan een van
de vier meetschalen. Hoe hoger de meetschaal, hoe
nauwkeuriger de gegevens en hoe gedetailleerder en
informatiever ze zijn. Mediaan en gemiddelde
worden het meest gebruikt bij kwantitatieve data,
modus bij kwalitatieve. Het gemiddelde is het meest
precies en wordt het meest gebruikt, maar ->
Gebruik de modus wanneer gegevens categorisch van aard zijn en waarden in slechts 1
klasse passen, zoals haarkleur of politiek overtuiging -> deze categorieën worden dan
wederzijds exclusief genoemd.
Gebruik de mediaan als er extreme scores zijn en je het gemiddelde niet wilt gebruiken.
Gebruik het gemiddelde als gegevens geen extreme scores bevatten/niet categorisch zijn.
Dit zijn de stappen om de maten van centrale tendens te berekenen:
1. Klik op analyseren -> beschrijvende statistieken -> frequenties
2. Dubbelklik op de variabele … om deze naar het vak Variabele (n) te verplaatsen.
3. Klik op Statstieken en je ziet het dialoogvenster Frequentie
4. Klik onder Centrale tendens op de vakjes Gemiddelde, Mediaan en modus
5. Klik op doorgaan
6. Klik op OK
SPSS-uitvoer kan vol informatie staan of gewoon de basis geven. Het hangt af van het type analyse
dat je uitvoert.
Beschrijvende statistieken worden veel gebruikt bij enquêtes/opiniepeiling.
Dit hoofdstuk samenvattend: je begint met het beschrijven van wat er is- vandaar het belang van het
begrijpen van het idee van de centrale tendentie.
Hoofdstuk 4
Dit hoofdstuk staat in het teken van het visueel weergeven van de verdeling van scores en hoe we
verschillende soorten grafieken kunnen gebruiken om verschillende soorten gegevens weer te geven.
De eenvoudigste manier om gegevens te illustreren, is door een frequentieverdeling te maken. Een
frequentieverdeling is een methode om te tellen en weer te geven hoe vaak bepaalde scores
voorkomen. Bij het maken van een frequentieverdeling worden scores meestal gegroepeerd in
klasse-intervallen of nummerreeksen. Bij een frequentieverdeling moet bepaald worden hoe groot
elk klasse-interval (een reeks getallen) is -> bijv. 49-53, 45-49 etc. Er zijn enkele algemene regels voor
het maken van een klasse-interval, ongeacht de grootte van de waarden in de dataset:
2
, 1. Selecteer een klasse-interval met een bereik van 2, 5, 10, 15 of 20 gegevenspunten.
2. Selecteer een klasse-interval zodat 10 tot 20 van dergelijke intervallen het volledige
gegevensbereik beslaan. Een handige manier om dit te doen is door het bereik te berekenen
en vervolgens te delen door een getal dat het aantal intervallen vertegenwoordigt dat je wilt
gebruiken.
3. Begin het klasse-interval op te sommen met een veelvoud van dat interval.
4. Het grootste interval komt bovenaan de frequentieverdeling.
Zodra de klasse-intervallen zijn gemaakt, is het tijd om het frequentiegedeelte van de
frequentieverdeling te voltooien. Dat is het aantal keren tellen dat een score voorkomt in de
onbewerkte gegevens en dat aantal invoeren in elk van de klasse-intervallen die worden
vertegenwoordigd door de telling.
De volgende stap is het maken van een histogram: een visuele weergave van de frequentieverdeling
waarbij de frequenties worden weergegeven door balken. Grafieken/diagrammen zijn ook visuele
weergaven van gegevens. Om een histogram te maken, volg je de volgende stappen:
1. Gebruik ruitjespapier om waarden op gelijke afstanden langs de x-as te plaatsen. Identificeer
het middelpunt van elk klasse-interval, dat is het middelpunt van het interval.
2. Teken een balk of kolom gecentreerd op elk middelpunt die het hele klasse-interval
vertegenwoordigt tot de hoogte die de frequentie van dat klasse-interval vertegenwoordigt.
Een andere methode is de ‘tallyho methode’ waarbij voor elk van de gebeurtenissen streepjes
worden gebruikt. Een frequentiepolygoon is een doorlopende lijn die de frequenties van scores
binnen een klasse-interval weergeeft. Bij een polygoon zie je niet het onderliggende histogram. Een
cumulatie frequentieverdeling is gebaseerd op dezelfde gegevens als een frequentieverdeling, maar
met een toegevoegde kolom (cumulatieve frequentie).
Een andere naam voor cumulatie frequentiepolygoon is een ogive. En als de verdeling van de
gegevens normaal of klokvormig is, dan vertegenwoordigt de ogive een belcurve of normale
verdeling.
Er zijn een aantal verschillende soorten grafieken:
Staaf- of kolomdiagram: als je verschillende frequenties van verschillende categorieën met
elkaar wilt vergelijken. Categorieën zijn horizontaal op de x-as georganiseerd en waarden
worden verticaal op de y-as weergegeven.
Kolomdiagram: identiek aan een staafdiagram, maar hier staan categorieën op de y-as en
waarden op de x-as.
Lijndiagram: moet worden gebruikt als je een trend in de gegevens met gelijke tussenpozen
wilt weergeven.
3