SPSS practicum opdracht – 13
okt
Hoorcollege 1 – Beschrijvende stati sti ek 1: meetschalen,
frequenti everdelingen, grafieken en centrummaten
Syllabus hoofdstuk 1
Voor het uitvoeren van betrouwbaar wetenschappelijk onderzoek zijn de juiste gegevens nodig.
Maar statistiek draait niet alleen om het verzamelen van gegevens, statistiek is ook het zoeken naar
verbanden. Welke factoren spelen een rol bij de vervoermiddel keuze naar de Uithof?. Bij
wetenschappelijk onderzoek maken we vaak gebruik van steekproeven. Ook hierbij speelt statistiek
een belangrijke rol. Doormiddel van statistische technieken kunnen we nagaan in hoeverre de
uitkomsten van een steekproef algemeen geldig zijn. In een wetenschappelijke opleiding is het dus
noodzakelijk om kennis van statistische methoden te hebben. Voor onderzoek, maar ook in het
werkveld. Je krijgt te maken met onderzoeksrapporten van anderen. Je moet hiermee wel uit de
voeten kunnen. Statistische kennis is voor elke academicus een vereiste.
Basisbegrippen
Er zijn 2 soorten statistiek:
Beschrijvende Statistiek
het ordenen en presenteren van gegevens doormiddel van tabellen, grafieken en statistische
maten, zoals het rekenkundige gemiddelde en de standaarddeviatie
we kunnen ook zoeken naar de samenhang van bepaalde variabelen en of er verschillen zijn
tussen groepen. We zouden bijv. kunnen onderzoeken of het inkomensniveau correleert met
het opleidingsniveau
Inductieve Statistiek
wordt alleen toegepast als we te maken hebben met een steekproef. Doormiddel van
statistisch toetsing kunnen we nagaan of de uitkomsten van de steekproef ook geldig zijn voor
de hele populatie.
Populatie en Steekproef
populatie = hele onderzoeksgroep
een groep met 1 of meer gemeenschappelijke kenmerken.
Bijv SGPL studenten die in Utrecht studeren
meestal is de populatie te groot om in zijn geheel te kunnen onderzoeken of we kennen de
populatie niet. Zoals alle coronabesmettingen nu. We gebruiken dan een steekproef
steekproef = deelgroep uit de populatie
deze moet wel een representatieve afspiegeling zijn van de samenleving om bruikbaar te zijn
en dus aselect
aselect = random = representatieve afspiegeling populatie
iedereen heeft een gelijke kans om in de steekproef te zitten. Daarmee zijn de verhoudingen in
de steekproef hetzelfde als in de populatie, het is een afspiegeling van de populatie. Als in de
populatie 60% vrouw is en 40% man, moet dit ook de steekproef zo zijn
Inductieve Statistiek mag alleen toegepast worden bij een aselecte steekproef. Als je mensen op
straat aanspreekt is dit geen aselecte groep en kan je hier geen generaliserende conclusies uittrekken.
Bepaalde groepen kunnen dan niet of juist over vertegenwoordigd zijn. Je kan alleen uitspraak oden
,over de mensen in je steekproef doormiddel van beschrijvende statistiek. Beschrijvende statistiek doe
je dus altijd. Je kan over gaan naar inductieve statistiek als de steekproef aselect is.
Datamatrix tabel met alle gegevens, een gegevensbestand die bestaat uit:
onderzoekseenheden of cases
de elementen die je onderzoekt (studenten in Utrecht)
ze staan in de datamatrix in de rijen, dus onder elkaar
variabelen
de kenmerken van de onderzoekseenheden (leeftijd, geslacht)
ze staan in de datamatrix in de kolommen, dus naast elkaar
waarden of scores
de gemeten gegevens
kunnen getallen of eigenschappen zijn
ze staan in de cellen van de datamatrix
Datamatrix voorbeeld:
- landen zijn de eenheden, die
staan in de rijen
- de variabelen zijn de
kenmerken van de landen, die
staan in de kolommen
- de verzamelde data, dus de
waarden, die staan in de
cellen
- de waarden kunnen getallen
zijn (inwoners en
miljoenensteden), waarden
zijn (wel of niet lid van de
eurozone) of codes zijn
(welvaartsniveau)
De datamatrix is eigenlijk een
tabel. Daarom heeft hij altijd een titel, die begint met een nummer (1.1). Uit de titel moet het
meteen duidelijk zijn wat er in de tabel te vinden is. Heb je de gegevens niet zelf verzameld, moet er
verplicht en bron bij. Deze mag onderaan de tabel of achter de titel.
Typen variabelen - meetschalen
4 Meetschalen op basis van hun meetschaal:
De meetschaal bepaalt welke statistische technieken die je kan toepassen. Voor je begint met
analyseren is het dus nodig om eerst te kijken naar de meetschaal van je variabelen
Nominaal
Ordinaal
Het zijn kwalitatieve kenmerken waar je niet mee kan rekenen.
Nominale variabelen:
Bestaan uit categorieën, zonder logische volgorde, zoals geslacht. Je kan niet zeggen dat de ene
groep beter is of meer. Denk aan type huishouden of studierichting.
,Ordinale variabelen:
Hierbij is er wel een natuurlijke ordening en er is sprake van een vaste volgorde, het een is beter dan
het ander. Denk aan opleidingsniveau. Ook stellingen in enquêtes zijn ordinaal. Je bent het zeer
eens, eens … zeer oneens. Maar ook numerieke gegevens die in klassen zijn ingedeeld. Zoals jong,
middelbaar, oud. Je weet niet precies het verschil, maar je kan wel een volgorde aangeven.
Interval
Ratio
Kwantitatieve kenmerken, dus echte getallen , waar je dus wel mee kan rekenen. Als je alle
leeftijden bijvoorbeeld weet kan je het gemiddelde uitrekenen, of precieze leeftijdsverschillen.
Verschil tussen interval en ratio:
Zit in het 0-punt. Bij interval is dit 0-punt arbitrair, dit betekent niet echt 0, zoals bij de
temperatuurschalen van Fahrenheit en Celsius. Beide hebben een ander 0-punt, maar bij beide is
het niet echt 0, dat is zo afgesproken, arbitrair gekozen. Ook indexen zoals IQ-scores hebben niet
echt een 0-punt en zijn dus intervalschalen. Ratioschalen hebben wel een echt 0-punt, zoals leeftijd,
inkomen, afstand etc. 0 is dan echt 0, hierbij kunnen alle wiskundige berekeningen worden
uitgevoerd. Het verschil tussen interval en ratio is vooral theoretisch. Intervalschalen komen weinig
voor. Voor ons is het vooral van belang of een variabelen kwalitatief (categorisch) of kwantitatief
(numeriek) is.
De meetschalen zijn oplopend. Als een techniek bij een bepaalt meetniveau is toegestaan, is het ook
bij een hogere schaal toegestaan. Niet bij een lagere schaal. Bij het berekenen van een gemiddelde
is bijvoorbeeld een intervalschaal nodig. Dan is een ratioschaal ook toegestaan, maar een nominale
of ordinale schaal niet. Voor de mediaan is een ordinale schaal nodig, dus interval en ratio zijn ook
goed, maar nominaal niet.
meetschaal onderscheid ordening meeteenheid nulpunt Oplopend
nominaal ja nee Nee Nee
ordinaal ja ja Nee nee
interval ja ja Ja arbitrair
ratio ja ja Ja absoluut
Typen variabelen – andere indelingen
Bijzondere meetschalen:
Dichotoom = categorisch met slechts twee categorieën (geslacht, geslaagd/gezakt etc.)
= proporties of fracties p + q = 1 rekenen alsof het een intervalschaal is
= 60 vrw; 40 man → p = 0,6 en q = 0,4
rangnummers = ordinaal (langste student nr 1, volgende 2, etc.) komen niet veel voor
Discreet - Continu
discreet = categorisch beperkt aantal categorieën → STAAFDIAGRAM
= numeriek – alleen gehele getallen, beperkt aantal getallen (kinderen)
continu = numeriek - doorlopende getallen, met cijfers achter de komma, afstand in
kilometers bijv. meeteenheid maakt niet uit → HISTOGRAM
= numeriek - ingedeeld in klassen, leeftijd in klassen, die sluiten op elkaar aan
Onderscheid tussen discrete en continue variabelen zijn van belang als je wil presenteren in een
grafiek. Discreet staafdiagram LOSSE STAVEN. Continu VASTE STAVEN
, Syllabus hoofdstuk 2
Frequentieverdeling
Als je gegevens wilt analyseren begin je
eerst met de beschrijvende statistiek.
Welke antwoorden zijn er gegeven en hoe
vaak komt een bepaald antwoord voor?
Hoe ziet de verdeling van je gegevens
eruit? Hiervoor maak je een
frequentietabel. Dit is een overzicht van
alle gegeven antwoorden, ook wel
waarden, en hoe vaak die voorkomen.
Hierin staan absolute aantallen en
frequenties, aangegeven met de letter f.
en hierin staan relatieve frequenties in de
vorm van proporties, aangegeven met de letter p of percentages. Proporties of fracties tellen altijd
op tot 1 en percentages natuurlijk tot 100%. Onderaan de tabel staan altijd de totalen. Het absolute
totaal staat altijd aangegeven met de letter n, in dit geval 50 studenten.
De tabel meet het aantal theaterbezoeken onder 50 studenten, zoals te zien aan de titel. We zien dat
14 studenten, ook wel 28% geen enkele keer naar het theater is geweest. Hoe hoger het aantal
theaterbezoeken des te meer de frequentie afneemt en meer dan 10 theaterbezoeken komt niet
voor. De relatieve frequenties geven een goed beeld van de verhoudingen. Ongeveer de helft van de
studenten is niet of maar 1 keer naar het theater geweest (48%). Het is een discrete variabele, omdat
halve theater bezoeken niet mogelijk zijn. De variabelen moeten in een staafdiagram gezet worden.
Staafdiagram
Een staafdiagram is een grafiek met een titel
en een bron. De titel staat altijd boven de
grafiek en wordt altijd aangeduid met figuur.
De bron mag onder de grafiek of achter de
titel.
Op de horizontale as staat het aantal
theaterbezoeken en op de verticale as het
aantal studenten (frequentie). Dit mag met
absolute aantallen of met het percentage.
Ligt er aan wat je wil tonen.
Kruistabel – Vergelijken categorieën
Kruistabel wordt gebruikt voor het
vergelijk van 2 categorische
variabelen. vervoer man/vrouw.
De variabelen waarvoor we de
groepen willen vergelijken staan in de
kolommen. De variabelen die we
willen vergelijken staan in de rijen.
Onder de tabel staan de totalen,
zodat je het aantal waarnemen