STAT: H1 DATA & BESLISSINGEN
1.1 GEGEVENS = ?
• Statistiek =
o Manier v. redeneren via hulpmiddelen & methoden om samen te vatten, modelleren en
begrijpen wat gegevens ons kunnen vertellen
o Gegevens in context zetten (=modelleren)
• Gegevens/data =
o Meetwaarden + hun context
o Wie, wat? = essentieel
o Waar, wnr, wrm, hoe verzameld? = meta-data → data over de data
• Gegevenstabel:
o Gegevens organiseren in overzichtelijke tabel
o Elke rij = casus (= wie?) → horizontaal
▪ VB: welke albums in winkel verkocht
o Elke kolom = variabele (=wat?) → verticaal
▪ VB: wat meet je
▪ Kan uni – OF multi-variaat zijn (1 variabele of meer per kolom/tabel)
1.2SOORTEN VARIABELEN (TYPES)
1.2.1 KWAL. – KWAN.
• Kwalitatief:
o = waarden zijn namen van categorieën → = categorische gegevens (categorical)
▪ VB: postcode, naam, albumnaam…
o Nominaal:
▪ Zonder rangorde → etiket
o Ordinaal:
▪ Met rangorde → VB: XS – S – M – L – XL – XXL—XXXL …
o Identificatievariabele:
▪ Valt onder nominaal → label (ondanks getal)→ VB: studentennummer
• Kwantitatief:
o = waarden zijn numerieke hoeveelheden, soms met eenheden
▪ Niet enkel cijfers → getal kan iets betekenen → ≠ postcode
1.2.2 DWARSDOORSNEDE – TIJDREEKSDATA
• Dwarsdoorsnede:
o = op 1 moment gemeten met versch. subjecten
o VB: voor alle landen → aantal Starbucks shops in 2018 → in 1 Jaar
▪ Wie = land
▪ Wat = aantal Starbucksen
• Tijdreeksdata:
o = gemeten over versch. momenten in tijd
o VB: voor hele wereld→ aantal Starbucks shops in 2001, 2002, 2003,…
▪ Wie = jaar
▪ Wat = aantal Starbucksen
, STAT: H2 KWALITATIEVE GEGEVENS/VARIABELEN
WEERGEVEN & BESCHRIJVEN
!! Kwalitatieve gegevens = categorical data !!
→ Weergeven = !! → patronen, verbanden & uitzonderingen vinden
2.1 KWALITATIEVE VARIABELEN SAMENVATTEN
• VB: tabel met 200.000 casussen over opzoekingen via internet
o 3 kolommen: IP adres – Datum – Bron
▪ IP = kwalitatief, ondanks getal → identificatievariabele
▪ Datum = kwantitatief
▪ Bron = kwalitatief, nominaal → “schoenen” ingetypt in Google → geeft
Zalando → Bron = Google
o Bron: direct, indirect, Instagram, FB, Google, Bing, Mozilla… → categorieën = waarden
• = Belangrijk voor marketing:
o Aantal casussen per categorie = via welke bron zoeken mensen het meest
o ON kan betalen om op die bron bovenaan te staan (FB, Google)
• Nieuwe tabel maken:
o = Frequentietabel → aantal casussen per categorie
o = aantal bezoekers per bron
2.2 FREQUENTIETABEL
• Frequenties uitdrukken als % → = fractie/breuk berekenen tov. Het totaal
o VB: zoveel % v/h totaal aantal bezoekers → via Google
▪ Google/totaal ≈ 0,5736 x 100% = 57,36% → v/d 100%
▪ % = fractie x 100%
o = Relatieve frequenties
▪ WANT plaatst getal tov. Geheel (totaal = 100%)
2.3 VISUALISATIE: STAAFDIAGRAM (bar
chart)
Aantal bezoekers
• Staafjes raken elkaar NOOIT → van groot
naar klein geordend
o Welk verhaal wil ik vertellen
o Cijfers moeten gemakkelijk te interpreteren zijn
o Kan ook met %
• Oppervlakteprincipe !
o Opp. v/d staven = proportioneel aan cijfers Bron
, • Taartdiagram:
o Staaf = beter
o Visueel schatten v. hoekgrootte = moeilijk & niet nauwkeurig
o OOK oppervlakteprincipe:
▪ Opp. v/h taartstuk = proportioneel aan %
2.3 KRUISTABEL: TWEE KWAL.
ID NR ANTWOORD LAND
VARIABELEN 0001 Ja GB
= Contingency table 0002 Nee …
… … …
2.3.1 VB 5039 Geen Toegang …
• 5039 casussen = 5039 mensen in 5 landen
o Mensen = subjecten = respondenten
o 5 landen: Groot-Brittannië (GB), Egypte (EG), Duitsland (DE), Rusland (RL) & USA
o Enquête: “Gebruikt u social media”
o Antwoorden: Ja –Nee – Geen Toegang
2.3.2 FREQUENTIETABEL
ANTWOORD AANTAL RELAT. FREQ
• 5039 mensen = 100% JA … …%
o % gebruiken NEE … …%
o Tov totaal (= 5039 = 100%) GEEN TOEGANG … …%
• Kan ook in staafdiagram (= bar chart) TOTAAL = 5039 = 100%
2.3.3 KRUISTABEL
= OPL voor de 2e variabele = land
GB EG DE RL USA TOTAAL
Nee 336 70 460 90 295 Tot “Nee”
Ja 529 300 340 500 506 Tot “Ja”
Geen Toegang 153 630 200 420 212 Tot “GT”
TOTAAL Tot GB Tot EG Tot DE Tot RL Tot USA 5039 = 100%
➔ 336 = aantal mensen in GB die “Nee” hebben geantwoord
➔ Variabele 1 = antwoord EN variabele 2 = land
➔ Tot GB = totaal aantal mensen die uit GB kwamen
• 2 marges:
o Cijfers in marge = totalen = marginale verdelingen
o Onder marge = verdeling land
o Zij marge = verdeling antwoord
• Berekeningen:
o Voor elke cel kunnen we % berekenen
o Totaal %:
▪ (1 cel/ totaal aantal resp.) x 100% → (300/5039)x100% ≈ 6,0%
▪ 6% v/h totaal aantal respondenten kwam uit Egypte EN zeiden “Ja”