Toegepaste data-analyse
Les 1: van zero naar statistical hero (h1), het ABC van de statistiek (h2), numerieke maten van data
(h6) en grafische voorstellingen (h7)
Inleiding
Drie bepalende factoren om de juiste descriptieve of inferentiële analysetechniek te bepalen: aantal
variabelen in de onderzoeksvraag, meetniveau van elke variabele en rol van elke variabele in de
onderzoeksvraag
Meetniveau van variabelen
Variabelen: (variërende) kenmerken van onderzoekseenheden
Onderzoekseenheden: respondenten, producten/diensten, tijdsperiodes of ruimtes
Variabelen: belang van operationalisatie
Operationaliseren: hoe elk kenmerk meten? Vb. leeftijd via geboortejaar, leeftijd of leeftijds-
categorie (concept omzetten in concrete en meetbare termen)
Meetniveau van variabelen
- Antwoorden op een vraag omgezet naar getal om statistisch te kunnen verwerken vb. man (0)
vrouw (1) ander (2)
- Vier meetniveaus (oplopend informatiegehalte → hoe lager, hoe beperkter de mogelijkheden)
o Categorische variabelen: nominaal & ordinaal
o Metrische (continue) variabelen: interval & ratio
Categorische variabelen
Categorische variabelen: nominaal
- Getalwaarde geen betekenis = arbitrair
- Gelijkwaardige categorieën, geen logische volgorde
- Klassen zijn discreet: geen tussenliggende waarden
- Binaire variabelen: nominale variabelen met 2 categorieën vb. type klacht (tegen bekenden of
onbekenden)
Categorische variabelen: ordinaal
- Logische of natuurlijke rangorde maar geen uitspraak over hoeveel meer of beter
- Vb. hoogste diploma
- Ook niet-gelijkwaardige categorieën vb. netto maandinkomen maar ongelijke categorieën
Categorische variabelen
- Discrete variabelen
- Mogelijke waarden beperkt en vooraf vastgelegd → geen tussenliggende waarden mogelijk
Metrische variabelen
- Logische volgorde (zoals ordinale variabelen) maar ook
1. Vaste meeteenheid
2. Tussenliggende waarden mogelijk (continue variabelen)
1
,Metrische variabelen: interval
- Betekenisvol verschil, oneindig veel tussenliggende waarden, geen absoluut nulpunt,
verhoudingen tussen de waarden niet zinvol (aarde is in jaar 2000 is niet 2x zo oud als 1000j)
Metrische variabelen: ratio
- Betekenisvol verschil, oneindig veel tussenliggende waarden, wel absoluut nulpunt
- Vb. gewicht, salaris
- Verschil tss ratio en interval amper relevant in SPSS
- Vb. 1 vraag die werktevredenheid toetst
- Nadelen
1. Concept vaak te heterogeen om maar door één vraag te dekken
2. Toevalsinvloeden spelen een rol vb. afgeleid zijn
- Likertschaal: minstens 3 concrete ordinale schaalitems, die eenzelfde abstract kenmerk zo goed
mogelijk vertegenwoordigen
- Puntenschaal → de waarden vd schaal zijn niet meer discreet maar metrisch (tussenliggende
waarden mogelijk)
Vb. 1=niet akkoord, 2=eerder niet akkoord, 3=eerder wel akkoord, 4=akkoord
Hiërarchie van meetniveaus en belang van de juiste vraagstelling
Hiërarchie van meetniveaus
- Hoe hoger, hoe meer analyses mogelijk zijn (nominaal<ordinaal<metrisch)
- Elk niveau wel altijd even nuttig/waardevol vb. pijnniveau na behandeling (pijnniveau beter
metrisch meten maar geslacht nominaal om het pijnniveau tss beide doelgroepen te kunnen
vergelijken)
Metrische variabelen achteraf categorisch maken: altijd mogelijk maar omgekeerd niet
(vraagstelling in survey belangrijk vb. precieze leeftijd vs. leeftijdscategorie)
Likertschalen: toch achteraf van ordinaal naar metrisch
- Drie items op 7-puntenschaal => drie ordinale variabelen
- Samenvoegen tot één schaalvariabele (gem of som van alle antwoorden) → zegt niks over
waarde van de schaal + range vh gemiddelde altijd duidelijk maken (vb. 1-7)
o Discrete antwoordcategorieën veranderen in een score voor het abstracte concept
o Vb. respondent antwoordt 5, 6, 5 op drie items = een gem. score van 5.33 voor angst of een
somscore van 16 voor angst
- Deze nieuwe schaalvariabele wordt als metrisch beschouwd want de gecombineerde scores
liggen op een breder continuüm dan voorheen
Somscore: alle items worden even belangrijk geacht (gevoelig voor uitschieters, zegt niets over de
waarde van een schaal, range altijd duidelijk maken (vb. 4-28)
+ zie oefening slide 30 (! Range aangeven)
2
,Rol van variabelen in onderzoeksvraag
Afhankelijke variabele (y)
- Wordt beïnvloed door andere variabelen vb. gebruiken jongeren meer drugs dan ouderen →
druggebruik AV
Onafhankelijke variabele (x)
- Beginpunt analyse → predictor of determinant vb. leeftijd
Beïnvloedende variabele
- Variabele die relatie tss OV en AV mogelijks beïnvloedt
1. Controlevariabelen
• Om relatie tss OV en AV beter te isoleren
• Kijken of invloed van X op Y wel degelijk van X komt
2. Interfererende variabelen
• Om de relatie tussen OV en AV beter te verklaren (mediator) of om
te weten wanneer de relatie sterker of zwakker is (moderator)
Vb. groepsdruk (mediator) of normbesef (moderator)
3. Storende variabelen
• Veroorzaken schijnverband tss OV en AV
• Vb. sterk verband tss aantal kerstliedjes op de radio en CO2-uitstoot
Mediërende variabele (z)
- Vb. relatie tss ouderschapsstress en probleemgedrag wordt gemedieerd door open ouder-kind
communicatie
- Voorwaarden
a. X moet gerelateerd zijn aan Y
b. Z moet gerelateerd zijn aan X en Y
c. De initiële relatie tss X en Y verzwakt onder de invloed van Z
Modererende variabele (z)
- De relatie tss X en Y is niet constant maar hangt af van Z
- Moderatie = interactie-effect
- Vb. relatie tss zien van reclame en interesse in bier afhankelijk van geslacht (z)
Descriptieve of beschrijvende statistiek
Beschrijvende/descriptieve statistiek Beschrijven van kenmerken of associaties
Inferentiële/inductieve statistiek Veralgemenen naar onderzoekspopulatie (meetniveau bepalend voor
geschikte analysetechniek)
Frequentietabellen
Overzicht van aantallen per waarde van een variabele, in tabelvorm → drie types frequenties
1. Absolute frequentie: aantal keer dat een bepaalde score voorkomt of het aantal personen die
een bepaalde score heeft
3
,2. Relatieve frequentie: de percentages (absoluut/totaal x 100)
3. Cumulatieve frequentie: geeft percentage aan ve bepaalde
uitkomst en alle uitkomsten met een kleinere waarde
Grafische voorstellingen
- Frequenties grafisch voorstellen → visueel voorstellen van steekproefgegevens
1. Taartdiagram (nominaal of ordinaal)
• Altijd werken met percentages – opletten met te kleine percentages (onoverzichtelijk)
2. Staafdiagram (nominaal of ordinaal)
3. Histogram (metrisch)
- Andere gegevens grafisch voorstellen
1. Boxplot
2. Scatterplot
Numerieke maten
- Twee types
1. Populatieparameters: numerieke maten van de
populatie (moeilijk te berekenen, vaak onbekend) vb.
𝜇 van aantal telewerkdagen in België
2. Steekproefgrootheden: numerieke maten van de
steekproef vb. 𝑋̅ steekproef 300 Belgen
Meetniveau ve variabele is bepalend voor de keuze van de geschikte analysetechniek
Centraliteitsmaten (beperking: ziet er dwaas uit in een histogram)
Modus
- Meest voorkomende waarde ve variabele (klasse met grootste klassenfrequentie) → meerdere
mogelijk
- Enige centraliteitsmaat voor nominale variabelen
Mediaan
- Punt op meetschaal waarboven en waaronder evenveel meetwaarden liggen
- Splits alle waarden in gelijke groepen of fractielen
- Vanaf het ordinale niveau
- Niet gevoelig voor extreme waarden
Kwartielen
- Q1 (25%), Q2 (mediaan) en Q3 (75%)
4
, Decielen: in 10 fractielen
Kwintielen: in 5 fractielen
Kwartielen: in 4 fractielen
Percentielen: in 100 fractielen
Gemiddelde
- Punt op meetschaal zodanig dat de som vd afwijkingen vd meetwaarden tav dit punt = 0
- Vanaf metrische variabelen
- Gevoelig voor uitschieters (niet-resistente maat)
- Varieert weinig tss verschillende steekproeven (itt mediaan) => 𝑋̅ gebruiken als centraliteits-
maat in inferentiële statistiek, goede schatting van centrale ligging van variabele in populatie
Beperking centrummaten: onderstaande figuren hebben hetzelfde gemiddelde en
mediaan maar de spreiding is totaal verschillend
Spreidingsmaten
- Zonder variabiliteit valt er niets te verklaren
- Meer spreiding creëren: single item vraag → multiple items schaal
- Hoe verspreid liggen de geobserveerde waarden tss de laagste en de hoogste waarde?
- Pas mogelijk vanaf het ordinale niveau (houdt ordening in)
Bereik (of range R)
- Hoogste – laagste gemeten waarden (Xmax – Xmin)
- Zeer gevoelig voor extreme waarden
- Nadeel: er wordt alleen naar de uitersten gekeken & alles ertussen wordt genegeerd (vb. gelijke
range maar verschillende variabiliteit)
Interkwartielafstand (Q)
- Verschil tss derde en eerste kwartiel
- Grootte vh gebied waartussen middelste helft vd metingen valt
- Minder gevoelig voor extreme waarden
- Q is een betere spreidingsmaat dan range (R)
Variantie en standaardafwijking
- Alle scores worden in rekening gebracht → scores tav het gemiddelde
- Hoe stijler de frequentiecurve (histogram), hoe minder spreiding = kleinere variatie
- Beiden gevoelig voor extreme waarden, net als het gemiddelde
- Variantie (s2)
o Gemiddelde vd gekwadrateerde afwijkingsscores ve metrische variabele
o Afwijkingsscores: hoe groot is de afwijking tss bepaalde waarden en het gemiddelde
(kwadrateren want anders nul – heffen elkaar op)
o Extra correctie als we s2 gebruiken als schatter voor populatievariantie o2 → delen door df
ipv n vb. bij alcoholintoxicatieniveau bij steekproef van 6 jongeren
5
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller CrimiStudent9. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $5.93. You're not tied to anything after your purchase.