Samenvatting Statistiek
1 Wat is statistiek?
1.1 Waarom Statistiek
Met statistiek kan men data verwerken tot bruikbare informatie. We worden vaak (onbewust) gecon-
fronteerd met (beschrijvende) statistiek:
Resultaten van peilingen van verkiezingen
Grootwarenhuizen die via klantenkaart allerhande gegevens van klanten willen verzamelen
Resultaten allerhande economische analyses: De Belgische gezinnen hadden vorig jaar voor
het eerst meer schuld dan gemiddeld in de Eurozone.
Iedereen wordt vroeg of laat wel eens met de analyse van gegevens geconfronteerd:
Banken (aan wie kennen ze een lening toe? Hoe groot mag de lening zijn?)
Verzekeringsmaatschappijen (aan wie kennen ze een verzekering toe? Hoe hoog moet de
premie zijn?)
Industrie (waaraan zijn defecte producten te wijten?)
Bachelorproef of masterproef
1.2 Definitie van statistiek
Statistiek kan gedefinieerd worden als het geheel van methodologieën voor het verzamelen, voor-
stellen, analyseren en interpreteren van data of gegevens. Statistiek laat ons toe om gegevens of
data te verwerken tot bruikbare informatie.
1.3 Voorbeelden
Grootwarenhuizen verzamelen op basis van de klantenkaarten massa’s gegevens. Zaken die meestal
geregistreerd worden:
Gespendeerde bedrag per winkelbeurt
Aantal gekochte artikelen
Welke artikelen werden gekocht (voeding, kleding,..)
Betalingswijze (contant, debetkaart, kredietkaart, maaltijdcheque)
Gigantische hoeveelheid wordt dan geanalyseerd voorbeeld: op maat gemaakte reclamefolders
1.4 Onderwerp van de statistiek
Populaties van objecten (vb. klanten van een grootwarenhuis)
Gegevens door eigenschappen en karakteristieken te registreren = variabelen (vb. gespen-
deerde bedrag, aantal gekochte artikelen, betalingswijze)
Steekproef: slechts een deel van de objecten wordt bestudeerd
Het voorstellen van steekproefgegevens = beschrijvende/descriptieve statistiek
Het analyseren en interpreteren van de steekproefgegevens om zo antwoorden en conclu-
sies te verkrijgen, worden veralgemeend naar de populatie of het proces = inferentie in-
ferentiële statistiek, wiskundige statistiek, verklarende statistiek, steekproeftheorie
, Veralgemening van conclusies betreffende een reeks steekproefgegevens naar een gehele
populatie of naar een proces is meteen de zwakke plek van de statistiek. De graad van be-
trouwbaarheid wordt uitgedrukt met behulp van een kans.
2 Data en hun voorstelling
2.1 Soorten gegevens en meetschalen
Gegevens worden verzameld over meerdere eigenschappen of variabelen (vb. kleur van wijn, hema-
tocrietgehalte van wielrenner)
Categorische of kwalitatieve variabelen
Nominale variabelen:
Elementen van steekproef/populatie worden in een klasse of categorie geplaatst
o VB: geslacht (man/vrouw), nationaliteit (Belg/Nederlander/…), godsdienst (katholiek/
protestants/…), gemeente
Soms cijfercodes toekennen aan verschillende klassen of categorieën
o Man=0, vrouw=1 of postnummers van gemeenten
o Cijfercodes impliceren geen volgorde meeste rekenkundige bewerkingen zinloos
Ordinale variabelen:
= nominale variabelen waarbij er een ordening is tussen de klassen of categorieën
o VB: aantal Michelinsterren van een restaurant, antwoorden op enquêtes (1: hele-
maal eens, 2: eerder eens, 3: noch eens, noch oneens, 4: eerder oneens, 5: helemaal
oneens)
Geen vaste meeteenheid rekenkundige bewerkingen zinloos
Kwantitatieve variabelen
Worden uitgedrukt in een aantal vaste meeteenheden (vb. lengte, gewicht, temperatuur,
duurtijd, aantal verkochte auto’s,…)
Vrijwel alle rekenkundige bewerkingen zijn zinvol
Intervalschaal:
Geen natuurlijk nulpunt (vb. temperatuur, tijd aflezen op een klok)
Verhoudingen houden geen steek (4u ’s nachts is niet dubbel zo laat als 2u ’s nachts)
Ratioschaal:
Wel absoluut nulpunt (vb. lengte, gewicht,…)
Verhoudingen zijn wel zinvol (vb. 2m is dubbel zo lang als 1m)
Discrete vs. continue variabelen
Discreet = eindig (vb. aantal passagiers op een lijnvlucht, aantal kinderen in een gezin,…)
Continu = oneindig (vb. lengte, duurtijd, gewicht,…)
Hiërarchie van meetschalen
Ratioschaal intervalschaal ordinale en nominale meetschaal
, Gegevens die op een bepaalde schaal gemeten worden, kunnen omgevormd worden tot ge-
gevens van een lagere meetschaal, maar niet omgekeerd
Statistische methoden voor lagere meetschalen kunnen gebruikt worden voor hogere meet-
schalen, maar niet omgekeerd
2.2 De datamatrix
Gegevens worden vaak voorgesteld in een matrix waarbij de rijen de elementen of waarnemingen
van een steekproef voorstellen en de kolommen de verschillende gemeten variabelen. (vb. merk-
naam= nominaal, oordeel= ordinaal, jaartal= intervalschaal, prijs/% alcohol= ratioschaal)
2.3 Voorstellen van univariate kwalitatieve variabelen
Frequenties en relatieve frequenties:
Relatieve frequentie = frequentie/grootte van de steekproef
Paretodiagram: klassen worden herschikt vol-
gens dalende frequentie en vervolgens wor-
den de frequenties cumulatief voorgesteld.
De linkse verticale as dient voor het staafdia-
gram, de rechtse voor de cumulatieve fre-
quenties die met de gebroken lijn worden
weergegeven.
Andere voorstelling van absolute en relatieve frequenties:
cirkeldiagram, sectordiagram of taartdiagram
2.4 Voorstellen van univariate kwantitatieve variabelen
Stam- en bladdiagram
Er zijn 4 wijnen tussen €2 en €3 = count
Getallen onder leaf = getallen na de komma (vb. wijnen van €2,2
€2,5 €2,6 en €2,7)
, Naalddiagram voor univariate discrete kwantitatieve variabelen
Histogrammen en frequentiepolygonen voor continue variabelen
Interval waarin alle steek-
proefwaarden van de on-
derzochte variabele liggen,
onderverdeeld in een aan-
tal deelintervallen of klas-
sen. Als men de klassen-
centra met elkaar verbindt
frequentiepolygoon
Empirische cumulatieve verdelingsfuncties
2.5 Het voorstellen van bivariate variabelen
Kwalitatieve variabelen
Kruistabel
Kwantitatieve variabelen
Meervoudig staafdiagram
, Mozaïekplot Puntenwolk
Tijdreeks
puntenwolk met 3
variabelen
Bubble plot: dikte van de bol wijzigen.
Hier: hoe dikker de bol, hoe hoger de prijs