Hoorcollege 1B: De basis
Beschrijvende statistiek= samenvattend beschrijven van de kenmerken van een groep
onderzoekseenheden.
- Onderzoekseenheden: wie of wat, bijv studenten, landen, alles waar je uitspraken
pover doet.
- Kenmerk= variabelen, alles die varieren verschillend van mensen, zoals geslacht en
leeftijd etc.
- Het beschrijven van die kenmerken staan in een datamatrix (soort van excel sheet:
met variabelen, respondentnummer).
Begrippen: rijen horizontaal, kolommen verticaal. Variabelen hebben een naam: V1
(variabelenaam). V3 is niet duidelijk, dus geven ze het een label, bijv. leeftijd. In het
(value/waarde-) label beschrijf je wat je bedoelt met de variabele. De getallen in de
datamatrix staan de waarden van variabelen, bijv. 24 jaar oud.
- Grondstof statistiek zijn getallen/waarden.
- In datamatrix staan de variabelen en de cases (onderzoekseenheden)
Inferentiele statistiek= schattingen doen over populatiekenmerken op basis van
steekproefgegevens. Schattingen zijn met een bepaalde mate van zekerheid (meestal 95%
is) in hoeverre onze steekproef ook daadwerkelijk kunnen generaliseren naar de hele
populatie. Populatiekenmerken zijn kenmerken zoals ze werkelijk zijn, zoals ze in de
werkelijkheid voorkomen. Je maakt een inferentie, uitspraak over de hele populatie.
Steekproefgegevens= data die je verzamelt in je datamatrix stukje uit de populatie.
Analyseniveaus:
- Univariate analyse= 1 variabele > frequentieverdeling (in %) (altijd kijken naar valid
percentage: antwoord van iemand niet ingevuld, zoals ontbrekende waarden: niet
meegeteld(=missing values), want bij percentage is missing wel meegeteld),
centrummaat en spreidingsmaat
- Bivariate analyse= 2 variabelen > samenhang tussen x en y (kruistabel) (samenhang
tussen student zijn en of je aankomt of niet in het 1e semester) (verband type koffie
die je drinkt en of je humeurig bent of niet).
- Multivariate= meer dan 2 variabelen
Symmetrie en asymmetrie: relatie tussen variabelen
Symmetrische relatie: er is geen duidelijk verschil tussen een afhankelijke en een
onafhankelijke variabele. X = Y.
Asymmetrische relatie: er is een verschil tussen een afhankelijke en een onafhankelijke
variabele. X > Y. X is dan onafhankelijke variabele (X verandert dan ook niet), variabele die
invloed uitoefent. Y wordt beïnvloed dus afhankelijke variabele. Sommige variabelen zijn
altijd onafhankelijk, maar (A)symmetrie wordt veelal bepaald door de onderzoeker.
Vb: gedrag bepaalt koffiekeuze.
Gedrag is onafhankelijk
Koffiekeuze is afhankelijk.
>>> asymmetrisch. (maar koffiekeuze kan ook gedrag misschien veranderen).
Altijd asymmetrisch, dus altijd onafhankelijke variabelen:
- Geslacht (kan niet veranderen opeens, opleidingsniveau beïnvloed niet je geslacht,
je wordt niet opeens een man).
, - Leeftijd (je bent 20 en je blijft 20, omdat iemand sociale media gebruikt een jongere
of oudere)
- (hoogst genoten) opleiding (opleiding kan niet veranderen door iets, je diploma kan
niet veranderen)
Meetniveaus:
Welke analyse? Bepalen door: Analyse niveau, asymmetrisch of symmetrisch en meetniveau
(bepalen welke analyses je kunt doen en welke niet).
- Nominaal (classificatie naar waarden: 1) > categorisch
- Ordinaal (1,2) > categorisch (opleiding: hoe hoger op de rang, hoe hoger opgeleid).
- Interval (1,2,3) > Numeriek (je kunt ermee rekenen)
- Ratio (1,2,3,4) > Numeriek
Vier criteria:
1. classificatie naar waarden= (volgorde maakt niet uit) naamgeving, je kunt er niet mee
rekenen. De waarden die je gebruikt, hebben geen relatie tot op elkaar. Je kunt niet rekenen
met 1=man en 2=vrouw of 1=vrouw en 2=man V favoriete televisieserie: 1. Pll 2. Stranger
things > kon ook 1. Stranger things en 2. Pll.
2. rangorde= Rangordening, leeftijdscategorie, maar geen betekenis van de intervallen:
nichtje niet 7x keer ouder dan oma omdat nichtje in categorie 1 valt en oma in 7. Kan geen
2,4 categorie vallen. Antwoordschalen: 1=nooit 2=zelden 3=soms 4=vaak 5=altijd > ordinaal.
Nog steeds niet mee kunnen rekenen. Je kon voor de antwoordschaal ook de cijfers: 3=
nooit, 5= zelden etc. kiezen, de getallen zelf zeggen niks over wat 2x keer hoger opgeleid is
of niet. Afstanden tussen de waarden hebben dan geen betekenis.
3. vaste meeteenheid= Verschillen tussen categorieen zijn hetzelfde. Maar geen vast
(natuurlijk) nulpunt= interval: temperatuur bv. Nulpunt is 0 graden, maar kan ook -5 worden,
0 betekent niet dat het geen graden is. Rangorde met verschillen/gelijke intervallen. Er zit 5
C verschil tussen 10 C en 20 C. Je kunt alleen niet zeggen dat 20 C 2x warmer is dan 10 C,
want je hebt nog steeds geen nulpunt.
4. vast nulpunt= Ratio= classificatie van waarden + rangorde + vaste meeteenheid + vast
nulpunt, je kunt nooit -3 worden, of -80 facebookvrienden hebben. -20keer hoorcolleges
volgen. Bij ratio kun je geen minwaarden hebben. Bv. Iets met een lengte van 0 heeft geen
lengte. Hierbij kun je zeggen dat kolomlengte van 15 cm 3x langer is dan 5 cm. En gelijke
intervallen, 5 cm > 10 cm – 15 cm.
Statistieken voor univariate analyse:
Frequentietabellen, centrum- en spreidingsmaten, grafieken.
Centrummaten: (door een centrummaat te berekenen, geef je een beschrijving van een
groep onderzoekseeheden).
- Rekenkundig gemiddelde (optellen, en te delen met het aantal N waarden die je
hebt). 1+2+3= 6:3= 2. Sigma betekent optellen. > meetniveau: interval, ratio. Kunt
nooit zeggen wat is het gemiddelde geslacht? 1,2? Dus geen nominaal.
- Mediaan (waarde van de middelste onderzoekseenheid na rangordening) > nominale
meetniveau kan niet gebruikt worden, want geen rangorde. Data is ordenen van laag
naar hoog en dan is je middelste score je mediaan. 14325. 12345 > dus 3 is je
mediaan. Mediaan bij even aantal waarnemingen (6 waarden, wat is dan het
midden?): ordenen en dan de middelste 2 getallen en daar het gemiddelde ervan.
(frequentieverdeling: over 50% > 50% heeft onder vwo, 50% heeft hoger dan vwo).
, - Modus (waarde van de dichtst bezette klasse oftewel welke is de meest
voorkomende waarde, hoogste frequentie). 1: 2, 2: 3, 3: 7. Dus modus is 3, want 7 is
het hoogste waarde. Meetniveau: alle vier.
(informatie weergeven in) Weergave: grafieken
- Alleen ordinale en nominale variabelen presenteren
- Staafdiagram (hoe vaak komt iets voor?) (absolute getallen: 8x biertje besteld)
- Cirkeldiagram: (wat komt relatief vaak voor?) interval niet: want teveel waarden dan.
(percentages: 47,1% heeft biertje besteld).
Frequentieverdelingen:
*wil niet zeggen in frequentieverdeling > betekent dat het geen ordinaal meer is, maar
nominaal > want hoe vaker je iets antwoord hoe meer je het niet wil zeggen.. Maar als je
*niet willen zeggen missing maakt dan is het wel ordinale schaal. Spss rekent dan alleen
maar met 1 tot/met 5. En niet 6 erbij, missing.
Boek Hoofdstuk 1:
Frequentie= hoe vaak komt het voor, bv dat er 19-jarige mensen zitten.
Operationalisatie= het meetbaar maken van je variabelen in één of meerdere vragen.
Voorbeeld asymmetrie: de leeftijd bepaalt welke tijdschrift je leest.
Continue meetschaal: 1,5 uur televisiekijken is mogelijk.
Discrete meetschaal: 1 en 2 leeftijd, hele getalen is alleen mogelijk.
Bij bivariate analyses kun je kijken naar verschillen, naar samenhang of naar verbanden.
, Hoorcollege 2B: Spreidingsmaten, verdelingen en spss bewerkingen.
Spreiding:
= de afstand van verschillende onderzoekseenheden ten opzichte van een centraal punt en
ten opzichte van elkaar. Dus staan de onderzoekseenheden dichtbij of ver weg van elkaar?
Grote afstand tussen elkaar? Dan grote spreiding. Dichtbij elkaar? Kleine spreiding. Zo best
mogelijke uitspraken doen als de spreiding zo klein mogelijk is. Spreiding volgt een vrij
normale verdeling. De meeste mensen hebben bv. Een IQ van 100. De scores van IQ liggen
vrij dicht bij elkaar, dus de spreiding is aardig klein. De meeste mensen scoren een
gemiddelde score van 100. Wanneer een spreiding extremere waarde heeft dan is de
spreiding groot en dan spreek je wel over standaardafwijkingen.
Spreidingsmaten:
(spreiding: waarden ver van elkaar of dichtbij? En hoe ver vanaf het ‘centrum’ (IQ 100)?)
- Range: maximum – minimum > verschil tussen minimum en maximum score. Max.
leeftijd is 28 en min. Leeftijd is 18 dus range is 10. Range wordt groter als iemand
van 58 jaar erbij komt, zegt die range niet zoveel meer.
- Interkwartielafstand: verschil tussen eerste kwartiel (waar die over de 25% gaat) en
derde kwartiel (waar die over de 75% grens gaat) (mediaan is tweede kwartiel
(50%)): in boxplot. En dus als je de uiterste waarden van elkaar
aftrekt dan heb je de interkwartierafstand. (Q3) 3e kwartiel was 6,
(Q1) 1e was 3= dus 6-3: 3 (Q3-Q1). Boxplot geeft een spreiding
aan, het is een grafische weergave van de kwartielen, en dat je in
die boxplot bepaalde info afleest, namelijk minimum (laagste
waarde), maximum (hoogste waarde) en de verschillende
kwartielen.
- Variatie: alleen nodig om de variantie te rekenen. = De totale afwijking van het
gemiddelde. Bv. De totale afwijking van de tv (mannetjes die bij tv zitten).
- Variantie: nodig om de standaarddeviatie uit te rekenen. = variantie bereken je door
het gemiddelde te nemen van de variatie.
- Standaarddeviatie: de wortel uit de variantie.
Alle drie (variatie, variantie, standaarddeviatie) geven de mate aan waarin de
onderzoekseenheden afwijken van het (rekenkundig) gemiddelde. (minimale
meetniveau moet daarom dus interval zijn, door die rekenkundig gemiddelde).
‘variatie’: de som van de individuele verschillen t.o.v het gemiddelde in het kwadraat.
Spreiding zegt iets over de afstand van een onderzoekseenheid (xi: neem de waarde van de
onderzoekseenheid) t.o.v het gemiddelde (streepje boven x: gemiddelde van die
onderzoekseenheden die je hebt uitgerekend). Daardoor kun je stellen dat Pietje … uur
afwijkt van het gemiddelde (6). Als iemand 8 uur speelt, en het gemiddelde is 6, dan wijkt
diegene 2 uur af van het gemiddelde. Er zijn altijd evenveel boven de lijn als onder de lijn
zitten in de spreiding. Als de getallen van (xi-x) optelt, kom je altijd uit op 0. Per persoon
kijken in hoeverre hij of zij in afstand verschilt (of afwijkt) van het gemiddelde.
Met spreiding wil je iets zeggen over alle bolletjes tegelijkertijd en niet individueel.
Dus: Spreiding op interval- of rationiveau: gemiddelde afstand t.o.v het gemiddelde.
Som van de x’en nemen, dus eigenlijk de som van de variatie (gemiddelde: hierboven
was 0) nemen en dat deel je door het aantal onderzoekseenheden. Dan kom je altijd
uit op 0, dus ga je de formule (xi- x-) kwadrateren. Daardoor hef je die minnetjes op (-