Statistiek 1
Samenvatting statistiek 1
Hoofdstuk 1: gegevens en beslissingen
1. Wat zijn gegevens/data?
Statistiek = manier van redeneren, m.b.v. bepaalde hulpmiddelen en methoden om samen te vatten,
te modelleren en te begrijpen wat de gegevens ons kunnen vertellen (doel)
Gegevens = meetwaarden samen met hun context:
- Wie? Wat? essentieel
o Wie: alle studenten in de zaal
o Wat: hoeveel ze betalen voor abonnement date
- Waar? Wanneer? Waarom? Hoe? meta-data = data over de data, bijkomende info
o Waarom wil ik dat weten?
o Hoe willen we het te weten komen? Niet elke manier van data verzamelen is even
bruikbaar
- Een antwoord op deze 5 W’s en 1 H kan voor een context zorgen en de data zinvol maken.
- Samenvatten in gegevenstabel
o Om info op een overzichtelijke manier weer te geven.
o Altijd eenheden in de tabel!
o Casus (wie?) = een rij in de tabel
o Variabele (wat?) = een kolom in de tabel
1: univariaat
>1: multivariaat
Bedrijven gebruiken gegevens/data om betere beslissingen te maken, maar ze moeten deze daarvoor
ook kunnen samenvatten, modelleren en begrijpen.
De sleutel om van data te leren, is begrijpen dat variatie overal rondom ons is.
Bedrijven gebruiken data om beslissingen te maken over bijna elk aspect van het bedrijf. Door het
voorbije gedrag van klanten te bestuderen en hun antwoorden te voorspellen, hopen ze om hun
klanten beter te kunnen bedienen en beter te concurreren.
Dit proces waarbij (transactie)gegevens worden gebruikt om beslissingen en voorspellingen te
maken, wordt ook wel datamining of voorspellende analyse genoemd.
De meer algemene term 'bedrijfsanalyse' (of soms gewoon 'analyse') beschrijft elk gebruik van
gegevens en statistische analyse om zakelijke beslissingen uit gegevens te halen, ongeacht of het
doel voorspellend of gewoon beschrijvend is.
Respondenten = individuen die een enquête beantwoorden.
Mensen met wie we experimenteren zijn proefpersonen of deelnemers (subjects), maar dieren,
planten, websites en andere levenloze objecten worden vaak experimentele eenheden genoemd.
1
,Statistiek 1
In een relationele database worden twee of meer afzonderlijke gegevenstabellen aan elkaar
gekoppeld, zodat informatie over hen heen kan worden samengevoegd. Elke gegevenstabel is een
relatie.
2. Soorten variabelen
Kwalitatief: de waarden zijn de namen van categorieën (bv je naam)
- Arbitrair (willekeurig)
- Nominaal: geen rangorde
o Identificatievariabele: bv. je studentennummer, telefoonnummer, sociale
zekerheidnummer, product ID, transactienummer
- Of ordinaal: wel een orde (S, M, L, XL)
- Bv. leeftijd zoals senior (65+), kind (0-12j), volwassenen (20-64j)
- Bv. postcode
- Bv. “ja” en “nee”
Kwantitatief: de waarden zijn numerieke hoeveelheden
- Met eenheden, maar niet altijd
- Bv. prijs, datum (tijd) ook geboortedatum, hoeveelheid
- Leeftijd (in jaar, maanden)
Sommige gegevens kunnen zowel kwalitatief als kwantitatief zijn. Zulke gegevens hangen af van de
vraag die gesteld wordt.
- Bv leeftijd:
o Kwalitatief als de waarden in categorieën worden gestopt zoals kind: 0-12j bv
o Kwantitatief als de vraag beantwoord kan worden door …jaar of …maand
Dwarsdoorsnede data (cross-sectional data): wie’s/subjecten worden gemeten op eenzelfde punt in
de tijd.
Tijdreeks data: gemeten over verschillende momenten in de tijd.
2
,Statistiek 1
Hoofdstuk 2: kwalitatieve variabelen weergeven en
beschrijven
1. Een kwalitatieve variabele samenvatten
Gegevens weergeven om patronen, verbanden en uitzonderingen te zien.
Bron = kwalitatieve variabelen
Een frequentietabel registreert de tellingen voor elk van de categorieën van de variabele.
- Casussen per categorie tellen is interessant
Frequenties uitdrukken als een percentage:
a) Fractie berekenen
…
o fractie= =... , …
totaal
b) Percentage = fractie * 100%
Relatieve frequenties ↔ absolute frequenties (in aantallen)
2. Een kwalitatieve variabele weergeven
Je moet ervoor zorgen dat je de data op een duidelijke manier weergeeft.
Slecht voorbeeld:
Bij het maken van grafieken telt het oppervlakteprincipe: de oppervlakte dat wordt ingenomen door
een deel van de grafiek moet overeenkomen met de grootte van de waarde die het
vertegenwoordigt.
- Oppervlakte staafjes is proportioneel t.o.v. cijfers
- Het dubbele van de cijfers betekent dubbel zo lange staafjes.
Staafdiagram
Frequentietabel omzetten in staafdiagram.
Ook relatieve frequentie staafdiagram.
Een staafdiagram geeft de verdeling van een kwalitatieve variabele weer, met de tellingen
voor elke categorie naast elkaar voor eenvoudige vergelijking.
Bar chart (verticale staafjes) VS column chart (horizontale staafjes)
KWALITATIEVE VARIABELE: RUIMTE TUSSEN DE STAAFJES IN EEN STAAFDIAGRAM
3
, Statistiek 1
Taartdiagram
Een cirkeldiagram laat zien hoe een hele groep in verschillende categorieën wordt onderverdeeld.
Staafdiagram is beter, je kan de hoeveelheden beter vergelijken.
3. Verkenning van 2 kwalitatieve variabelen: kruistabellen
Kruistabel = contingency
table
- laten zien hoe
individuen worden
verdeeld over elke
variabele,
afhankelijk van de waarde van de andere variabele
- = gegevenstabel + frequentietabel
Marginale verdeling
Marginale verdeling
Als het zo wordt gepresenteerd, aan de marges van een kruistabel, wordt de frequentieverdeling van
een van de variabelen de marginale verdeling genoemd.
- De totalen zijn de marginale verdeling: in kruistabellen zijn er 2 marginale verdelingen
Elke cel van een kruistabel geeft de telling voor een combinatie van waarden van de twee variabelen.
Elke cel heeft 2 ‘eigenschappen’: 25 respondent met zwarte ogen zijn mannen.
Voor elke cel kan je 3 percentages berekenen:
- totaal percentage
- rij percentage
- kolom percentage
- met percentages kan je alle cellen met elkaar vergelijken
Voorwaardelijke verdeling = de frequentieverdeling van de uitkomsten in een rij of kolom van een
kruistabel. Of de kansverdeling van de uitkomsten op een variabele, als de uitkomst op een andere
variabele is gegeven.
In een kruistabel, wanneer de verdeling van één variabele hetzelfde is voor alle
categorieën van een andere variabele, zeggen we dat de twee variabelen
onafhankelijk zijn. Dat vertelt ons dat er geen verband is tussen deze variabelen.
4