Statistiek
Statistiek 1 in vogelvlucht
Variabelen operationaliseren en meten
Operationaliseren = variabelen meetbaar maken
Variabelen:
- Continu of discreet
- Meetniveau: nominaal, ordinaal, interval, ratio
- Onafhankelijk/afhankelijk
2 voorwaarden voor meten:
- Validiteit (meet de test wat het wil meten?)
- Betrouwbaarheid (hoe goed meet de test wat we willen meten?)
Steekproeven
= deel v/d populatie dat wordt onderzocht, wnr de populatie te groot is om helemaal te
onderzoeken.
Doel inductieve statistiek: verantwoorde uitspraken doen over de populatie aan de hand van
steekproeven
Soorten steekproeven
- Aselecte steekproeven
o Aselecte steekproef
▪ Elk element heeft gelijke kans om in steekproef te zitten
▪ Niet altijd representatief
o Gestratificeerde steekproef
▪ Verdelen in deelpopulaties en uit die aparte groepen een aselecte steekproef
trekken
▪ Representatief
o Clustersteekproef
▪ Uit elke geselecteerde cluster een aselecte steekproef trekken
▪ Spaart kost en tijd, minder representatief
- Selecte steekproeven
o Sneeuwbalsteekproef
▪ Vertrek uit 1 respndent en die vragen andere respondenten te contacteren
▪ Mensen die moeilijk bereikbaar zijn makkelijker bereiken, kans dat mensen
op elkaar lijken
o Gelegenheidssteekproef
▪ Keuze respondenten overgelaten aan ondervrager
▪ Goedkoop en snel, niet geschikt voor populatieschattingen
o Quotasteekproef
▪ Onderzoeker bepaalt kenmerken van populatie die men ook wil zien in
steekproef. Onderzoeker zorgt ervoor dat hij aan dat aantal komt, hoe is niet
zo belangrijk.
PAGINA 1
,Frequentieverdelingen
= eerste verkenning van data
Verschillende frequenties:
- Absolute
- Relatieve
- Absolute cumulatieve
- Cumulatieve
Verschillende visuele vormen:
- Taartdiagram (nominaal)
- Staafdiagram (nominaal, ordinaal)
- Histogram (interval)
Percentielscore = plaats van een score in het geheel
Centrummaten
- Modus
- Mediaan
- Gemiddelde
Bij symmetrische verdeling: modus mediaan = gemiddelde
Mediaan is minder gevoelig voor extreme waarden
Gemiddelde is consistenter over verschillende steekproeven
Spreidingsmaten
= hoe ver liggen de scores uit elkaar?
Verschillende:
- Variatiebreedte (verschil grootste en kleinste)
- Interkwartielafstand (p75-p25)
- Variantie
- Standaarddeviatie
Standaardscores (z-scores): x – gemiddelde / Sx
Normale verdeling
- Gegevens die passen in theoretische verdeling bieden meer mogelijkheden voor verwerking
- Verschilt enkel in gemiddelde en standaarddeviatie
- Curve is altijd klokvormig en symmetrisch
- Hierdoor kunnen makkelijk observaties afgeleid worden
PAGINA 2
,Transformaties van verdeling
- Waarom: niet alle data zijn normaal verdeeld, en om makkelijk verdelingen te maken is het
nuttig om een verdeling te transformeren zodat de normale verdeling benadert
Vormkenmerken van een verdeling:
- Centrummaten (gemiddelde, mediaan, modus)
- Spreidingsmaten (standaarddeviatie)
- Kurtosis (gepiektheid)
- Skewness (scheefheid)
2 transofrmaties:
- Lineaire transfo: enkel gemiddelde en standaarddeviatie veranderen
- Normaliserende transfo: ook kurtosis en skewness veranderen zodat de normale verdeling
benaderd wordt
Kruistabellen
= samenhang tss variabelen bestuderen
Afhankelijk van meetniveau
- Nominaal en nominaal: kruistabel
- Nominaal en ordinaal: kruistabel
- Interval en interval: correlatie
3 maten van samenhang bij kruistabellen
- Chi-kwadraat
- Contingentiecoëfficiënt
- Cramer’s V
Lineaire regressie
Hoe correlatie gebruiken om voorspellingen te maken? -> regressie
Y = A + Byx ° X
Y = Rx,y ° Sy/Sx ° (X- gemiddelde X) + gemiddelde Y
X = gekende variabele
Y = voorspelling
PAGINA 3
,HOOFDSTUK 1| inductieve statistiek in onderzoek
Wat is de bedoeling van statistiek?
- Hulpmiddel bij empirisch onderzoek -> geldende uitspraken doen over wetmatigheden in de
realiteit.
- Vanuit beperkt aantal observaties uitspraken doen over mensen in het algemeen
- Na statistische toets kunnen we besluiten of er een verschil of geen verschil is
- Statistiek biedt de nodige regels om consequent en verantwoord conclusies te trekken over
menselijk gedrag
Empirische cyclus
= verschillende fases waaruit wetenschappelijk onderzoek bestaat.
1. Hypothese:
a. Vraagstelling of probleemstelling
o Stelling waarop onderzoek antwoord moet bieden
o Ondubbelzinnig geformuleerd -> zo weten we exact welke variabelen en
welke doelgroep
b. Operationaliseren
o Variabelen uit vraagstelling meetbaar maken
o Op welke manier we een specifieke score zullen toekennen aan een
bepaalde persoon voor elke bestudeerde variabele
c. Steekproef trekken
o Deelnemers verzamelen
o Aselecte of niet-aselecte steekproeftrekking
2. Data-verzameling
o Adhv voorgeschreven in de operationalisatiefase
PAGINA 4
, 3. Beschrijvende analyse (statistiek 1)
o Gegevens beschrijven om zicht te krijgen op aard v/d gegevens
o Centrummaten/spreidingsmaten bekijken, frequentietabellen maken en grafiek
tonen
4. Inductieve analyse (statistiek 2)
o Geeft verbanden weer tussen variabelen of tussen groepen
5. Theorie
o Conclusie trekken en duidelijk antwoord geven op vraagstelling
Probleem inductieve statistiek
Populatie: alle individuen waarover onderzoek uitspraak wil doen
Steekproef: dele van de populatie
Case: elk element van de populatie
Nooit 100% zeker over de conclusies. We gaan nooit gegevens kunnen hebben over een complete
populatie.
Behelpen door trekken van steekproeven en daaruit algemene conclusies afleiden -> kernprobleem -
> geen garantie dat onze conclusies ook geldig zijn voor de rest van de populatie. Er kunnen
toevalligerwijs verschillen insluipen daardoor geen correcte weerspiegeling.
Niet erg dat we geen zekerheid hebben, MAAR wél belangrijk te weten hoe groot die onzekerheid is.
hoe groot is de kans dat onze conclusie fout is?
Daarmee raken we aan het begrip:
Statistische significantie
Een zekere variabiliteit (spreiding in verzamelde gegevens) in deze scores.
Zorgt ervoor dat er zowel binnen de groep als tussen de groepen verschillen zullen zijn. Wij
geïnteresseerd in de verschillen tussen de groepen.
Gemiddelde scores van beide groepen berekenen en vergelijken met elkaar. Wellicht zijn deze niet
gelijk aan elkaar.
Is het verschil tussen beide groepen al dan niet statistisch significant?
Klein of groot verschil:
Klein = toevallige variabiliteit
Groot = behandeling heeft ervoor gezorgd dat de ene groep verschilt van de andere groep
(=statisch significant verschil)
Hypothesetoetsing = statistische significantie nagaan dmv:
Kansberekening
= hulpmiddel bij hypothesetoetsing. Nut van kansen in statistiek.
Verschillen de scores voldoende om te kunnen concluderen dat bv de muziek ervoor gezorgd heeft
dat de ene groep meer depressie is dan de andere.
Bij het beantwoorden -> veronderstellen dat er in werkelijkheid geen invloed is
We berekenen de kans enkel te wijten is aan toevallige variabiliteit die altijd aanwezig zal zijn.
Grote kans: geen uitzonderlijke observatie. Spreekt veronderstelling niet tegen.
PAGINA 5
, Kleine kans: onwaarschijnlijk om gevonden verschillen te observeren. Spreekt
veronderstelling tegen. Wel degelijk een verband/een verschil.
o Hoe moeten we die kans berekenen?
▪ Obv kansverdelingen (bv standaardnormale verdeling)
▪ Met behulp van verschillende toetsen
o Wat is dan een grote en een kleine kans?
▪ 5% of 0.05 meest courant
Toetsen
Toetsing situaties zijn heel uiteenlopend, bijgevolg ook uiteenlopende toetsen.
Verschillende toetsingssituaties:
- Is er een verschil tussen groep A en groep B?
- Mensen die op variabele X hoog score, score die op variabele Y ook hoog?
- Metingen uitvoeren voor en na -> is behandeling effectief?
Rekening houden met:
- Aantal variabelen
- Meetniveau
- Aantal deelnemers
- Manier waarop de deelnemers verdeeld zijn
Hoofdstuk 4-10 -> vaak voorkomende statistische toetsen
Misbruik van statistiek
Statistiek zorgt ervoor dat we op een gestructureerde en objectieve manier conclusies kunnen
trekken over de werkelijkheid. -> wekt indruk dat beweringen altijd geldig zijn, zolang ze maar
ondersteund worden door statistische berekeningen.
Niet blindelings laten leiden door statistiek alleen -> statistiek is in eerste plaats een hulpmiddel bij
onderzoek, mag onderzoek niet overheersen. Naast statistische verwerking zijn nog andere
belangrijke keuzes: onderzoeksmethode en onderzoeksgroep.
Met statistiek kan je heleboel cijfers op korte tijd genereren -> betekent niet dat die cijfers ook op
een correcte manier gerapporteerd worden
- Onduidelijke steekproef
o Bv “95% van de Belgen tevreden is over [hun product]”
o Je zou eigenlijk alle Belgen moeten ondervragen om deze uitspraak te doen
o Er zijn dus een aantal Belgen niet ondervraagt, gebruik gemaakt van een steekproef,
dus beter zou zijn “naar schatting 95% van de Belgen…”
o Onduidelijk wie deel uitmaakt van de steekproef
- Gebrek aan context
o “batterijen gaan tot vijfmaal langer mee”
o Langer dan wat?
o “wetenschappelijk onderzoek heeft aangetoond dat het eten van rauwe prei de
cholesterol kan verlagen”
o Zo’n termen (wetenschappelijk onderzoek) -> indruk dat hetgeen beweerd wordt
stoelt op feiten en de kennis correct en definitief is
o ‘kan’ verwijst naar een kans, niet naar een zekerheid
PAGINA 6
, - Conclusies obv gebrekkige vragenlijstonderzoek
o Manier waarop we vragen stellen bepaalt in grote mate het antwoord
o Zien welke vragen precies gesteld worden
- Interne validiteit
o Laat onderzoeksopzet toe om causale conclusies te trekken?
Validiteit
Interne validiteit
= mate waarin we met een onderzoek ontwerp causale conclusies kunnen trekken over effect van OV
op AV.
3 voorwaarden:
- Effect OV op AV in voorspelde richting
o Bv.: scoren kinderen die worden voorgelezen hoger dan de andere kinderen?
- Oorzaak moet in tijd voorafgaan aan gevolg
o Bv.: komt het voorlezen voor de betere lees-score of kan het ook omgekeerd?
o
- Geen andere verklaringen voor gevonden verband
o Om alternatieve verklaringen uit te sluiten: experimenteel onderzoek
▪ Randomiseren
▪ Voormeting
▪ Nameting
▪ Controleren storende variabelen
▪ …
Externe validiteit
Ongeoorloofde generalisatie
= mate waarin resultaten van het onderzoek kunnen generaliseerd worden over:
- Situaties (lijkt genoeg op dagelijkse situatie?)
- Methoden (hetzelfde resultaat met andere methode?)
- Tijd (zelfde resultaten in andere periode?)
- Populatie (zelfde resultaten in andere populatie?)
Statistische generalisatie
= kunnen we generaliseren vanuit de steekproef naar de populatie waaruit de steekproef werd
getrokken?
PAGINA 7
,HOOFDSTUK 2| kansverdeling en kansberekening
Waarom kansen?
Kans = waarschijnlijkheid om bepaalde gebeurtenis te observeren. Uitgedrukt in getal tussen 0 en 1.
Bv.: hoe waarschijnlijk is het om een “3” te gooien met 1 worp van een dobbelsteen – P(3) =
1/6 (of 0.1666)
Twee soorten vragen bij bestuderen populatie obv steekproef:
- Interval-estimatie
o Rechtstreeks de vraagn naar “hoe stek zijn depressieve gevoelens aanwezig bij die
steekproeven?”
o Geen verschil onderzocht
o Geef een schating/getal dat weergeeft wat het gemiddelde is van dat gegeven in een
populatie.
o Als je die schatting maakt, hoe zeker ben je hiervan? Wat is de kans dat het juist of
fout is?
o Nodig: steekproefstatistieken (gemiddelde, standaardafwijking, grootte steekproef) +
kansverdeling
- Hypothesetoetsing
o Is er een verschil tussen twee condities en muziekgenre die we aanbieden?
o Wat is de kans groot of klein?
▪ Grote kans = hypothese niet verwerpen
▪ Kleine kans = hypothese verwerpen
o Nodig: steekproefstatistieken (gemiddelde, standaardafwijking, grootte steekproef) +
kansverdeling
Uitkomst = 1 enkelvoudig resultaat
Uitkomstenruimte = verzameling mogelijke enkelvoudige uitkomsten
Bv.: bij dobbelsteen (1,2,3,4,5,6)
Kansverdeling
Standaardnormale verdeling is een meer algemeen vorm van de frequentieverdeling, namelijk een
kans verdeling.
Ahdv kansverdeling bepalen hoe groot de kans is om een geobserveerde waarde te overschrijden ->
die info nodig om hypothese te toetsen.
Verschil tussen frequentieverdeling en kansverdeling
Frequentieverdeling = geobserveerde realiteit weergeven
- = weergave van geobserveerde gegevens
- Frequenties van alle geobserveerde waarden van een variabele
- Hoogte grafiek: aantal observaties
o overzicht krijgen van wat we hebben geobserveerd
- Beroep op verzamelen data
- Bv.: “aantal ogen bij het werpen van 2 dobbelstenen” bij N = 50
PAGINA 8
,Kansverdeling = hypothetische realiteit weergeven
- = combinatie van mogelijke uitkomsten met respectievelijke kansen – overzicht mogelijke
waarden van een variabele met bijhorende kansen
- Kans op voorkomen van alle mogelijke waarden
- Hoogte grafiek: grootte van de kans om een waarde binnen een bepaalde range tegen te
komen
o Opgebouwd volgens theoretische kennis die we hebben over dobbelstenen, zonder
ook maar 1 dobbelsteen te gooien
- Beroep op: theoretische veronderstellingen in verband met de variabele die we bestuderen
- Bv.: elke cel heeft even grote kans om voor te komen (1/36 -> 36 mogelijke uitkomsten)
o Sommige totalen komen meer voor dan anderen -> “kans is van 1/36 op uitkomst ‘2’
en een kans van 5/36 op uitkomst ‘6’”
PAGINA 9
, Net zoals we de frequentieverdeling kunnen beschrijven aan de hand van een gemiddelde en
standaarddeviatie, kunnen we ook voor de kansverdeling gelijkaardige kenmerken bereken die
verdeling karakteriseren.
Kenmerken die vorm kansverdeling bepalen
Verwachte waarde
= gemiddelde van de kansberekening. Het is niet echt een gemiddelde.
Symbool: E(X) of μx
Berekening:
1. Welke mogelijke uitkomsten hebben we? (= xi)
2. Wat is de kans om die specifieke uitkomst te vinden? (= P(X=xi)
3. Die vermenigvuldigen met elkaar en bij elkaar optellen
Variantie van de kansverdeling
Variantie of standaarddeviatie van een kansverdeling.
Variantie geeft informatie over de spreiding van de scores rond gemiddelde, of in dit geval de
verwachte waarde.
Vierkantswortel uit deze variantie leidt tot de standaarddeviatie.
Steekproevenverdeling
Een bijzondere kansverdeling: de steekproevenverdeling van het gemiddelde.
- In elke steekproef zit een mate van variabiliteit-> elke nieuwe steekproef levert een nieuw
gemiddelde op
- Hoeveel verschillende gemiddelden zijn dan mogelijk? Oneindig veel
- Steekproeven kunnen elkaar overlappen en zijn ook continu in beweging (bv studenten
starten en stoppen voortdurend met studeren -> eigenschappen aanwinst en verlies)
- Noteren van al die gemiddelden in een histogram
PAGINA 10