Hoofdstuk 1: Gegevens en beslissingen
A. Data
Elke keer als men een online aankoop uitvoert wordt er informatie opgeslagen. Deze informatie is meer dan enkel de
aankoop van een artikel, het gaat om alle handelingen die men op de pagina heeft uitgevoerd.
Al deze informatie wordt samen met zijn context data genoemd. Al deze data worden opgeslagen in grote digitale
opslagplaatsen. Deze grote digitale opslagplaatsen worden datawarehouses genoemd.
➔ Natuurlijk kunnen gegevens alleen geen goede beslissingen nemen.
De uitdagingen van het verzamelen, beheren en opslaan van al deze informatie vallen samen onder de term Big Data.
Statistiek is een onderlinge vorm van Data Science. In andere woorden is Data Science een bredere vorm van statistiek .
Statistiek is een manier van denken/redeneren met behulp van bepaalde hulpmiddelen en methoden om
samen te vatten, te modelleren en te begrijpen wat de gegevens ons kunnen vertellen.
Gegevens zijn meetwaarde gegeven uit een bepaalde context. Ze antwoorden aan bepaalde vragen. Deze
vragen geven de richtlijnen van de evolutie van een onderneming.
Dit is een zevenstaps proces:
• Plan
1. Definieer het probleem
2. Verzamel de nodige data en identificeer de variabelen
• Do
3. Bereid de data voor
4. Karakteriseer de data
5. Ontdek de data
6. Modeleer de data
• Report
7. Presenteer de datastructuur
B. De rol van data in de besluitvorming
Wanneer bedrijven proberen bruikbare informatie te verkrijgen uit gegevens die tijdens het zakendoen zijn
verzameld, wordt dat meestal datamining genoemd.
Soms wordt de analyse voorspellende analytics genoemd als deze gericht is op toekomstige prestaties.
De meer algemene term, business analytics, verwijst naar elk gebruik van gegevens en statistische analyse om
bedrijfsbeslissingen te onderbouwen.
Bedrijven gebruiken gegevens om beslissingen te nemen over bijna elk aspect van hun bedrijfsvoering. Door het
gedrag van klanten in het verleden te bestuderen en hun reacties te voorspellen, hopen zij hun klanten beter te
kunnen bedienen en doeltreffender te kunnen concurreren.
Soorten gegevens
• Numerieke gegevens: Gegevens die alleen uit cijfers bestaan
• Alfabetische gegevens: Gegevens die alleen uit letters bestaan
• Alfanumerieke gegevens: Gegevens die uit een combinatie van cijfers en letters bestaan.
Context
Maar gegevens zijn nutteloos als we hun context niet kennen. Om gegevens te begrijpen moet je weten wat ze
vertegenwoordigen. Men kan de context omschrijven aan de hand van essentiële vragen zoals →
Meta data (=data over de data)
We kunnen de betekenis duidelijk maken als we de context toevoegen van over wie de gegevens gaan
en wat er is gemeten, en de waarden ordenen in een gegevenstabel.
,De waarden in gegevenstabellen kunnen op 2 verschillende manieren geordend zijn →
• Conventionele manier
• Onconventionele manier
Casus
De meest algemene term voor een rij van een gegevenstabel is casus of record. Het geeft een antwoord op de
vraag “wie?”.
Personen die een enquête beantwoorden worden respondenten genoemd. Mensen op wie wij experimenteren
zijn proefpersonen of deelnemers, maar dieren, planten, websites en andere levenloze proefpersonen worden
vaak experimentele eenheden genoemd.
Variabelen
Elke kolom van de tabel registreert een kenmerk van de casussen. De kolommen worden variabelen genoemd.
Variabelen kunnen verschillende waarden aannemen. Het geeft een antwoord op de vraag “wat?”.
Een gebruikelijke plaats om het wie van de tabel te vinden is de meest linkse kolom. Het is vaak een identificerende
variabele voor de gevallen
Metadata
= Informatie over de informatie
Als men een tabel van een onderneming moet analyseren dan heeft men meestal geen voorinformatie over de
gegevens binnen de datatabel.
De informatie over de gegevens, de zogenaamde metadata, kan afkomstig zijn van de databasebeheerder van
het bedrijf of van de afdeling informatietechnologie van een bedrijf.
Metadata bevatten doorgaans informatie over hoe, wanneer en waar de gegevens zijn verzameld; wie elk geval
vertegenwoordigt; en de definities van alle variabelen.
Rekenblad/spread sheet
Een algemene term voor een gegevenstabel is een spread sheet.
Een rekenblad is een opmaak ontwikkeld voor de boekhouding, die vaak wordt gebruikt om gegevenstabellen
te bewaren en te bewerken. Excel is een veelgebruikt rekenbladprogramma.
➔ Goed voor kleine data sets.
Relationele databanken
Om ervoor te zorgen dat in grote ondernemingen de datatabellen niet te groot worden, worden er relationele
databanken gebruikt. Dit zijn databanken die met elkaar in verbinding staan door het gebruik van een keys en
die ervoor zorgen dat verschillende data met elkaar kan worden verwisseld.
In een relationele databank worden twee of meer afzonderlijke gegevenstabellen aan elkaar gekoppeld, zodat
informatie over die tabellen kan worden samengevoegd.
Elke gegevenstabel is een relatie omdat hij gaat over een specifieke reeks gevallen met informatie over elk van
deze gevallen voor alle variabelen.
Voorbeelden
− Relatie: Klanten en demografische informatie
− Relatie: Verkochte items met prijs en inventaris
➔ Het is mogelijk dat transacties opgeslaagd wordt in een derde "relatie" die verwijst naar elk van de twee
andere relaties. Het is mogelijk maar meestal worden analyses uitgevoerd op een enkele relatie.
,C. Soorten variabelen
Kwalitatieve variabelen = categorische variabelen
Wanneer de waarden van een variabele gewoon de namen van categorieën zijn, spreken we van een
categorische of kwalitatieve variabele.
➔ Beschrijvende antwoorden op vragen zijn vaak categorieën.
Deze soort variabele kan zowel een woord als een cijfer bevatten. Ook is deze variabele specifiek voor een
bepaalde categorie. Bv. Postcode, Landcode, Telefoonnummer, Geslacht, Diersoort, …
Een kwalitatieve variabele kan gecodeerd worden en daardoor worden er cijfers gebruikt. Dit wilt niet
zeggen dat het een kwantitatieve variabele is.
Er zijn verschillende types kwalitatieve variabelen →
• Nominale variabelen : Geen rangorde binnen een categorie, variabelen kunnen apart geordend worden
(Vb. naam, gender, …)
• Ordinale variabelen : Rangorde binnen een categorie
➔ Waarden kunnen individueel geordend zijn (Vb. de rangorde van werknemers op basis van het aantal
dagen dat zij voor het bedrijf hebben gewerkt) of geordend in klassen (Vb. eerstejaars, tweedejaars,
junior, senior). De ordening is niet absoluut; hoe de waarden worden gerangschikt hangt af van het
doel van de ordening.
• Identificatievariabelen : Casus wordt op een ondubbelzinnige manier geidentificeerd.
(Vb. Bestellings-nummer, Klantennummer, Rolnummer, …)
Identificatievariabele zijn cruciaal voor het gebruik van Big Data, door het gebruik van unique Keys maken ze de
samenwerking tussen verschillende datatabellen mogelijk.
Kwantitatieve variabelen
Wanneer de waarden van een variabele gemeten numerieke grootheden zijn, noemen we het een
kwantitatieve variabele. De waarden zijn numerieke hoeveelheden met eenheden.
➔ De twee eigenschappen zijn dus Numeriek en eenheden (Vb. Tijd is een Kwantitatieve variabelen)
Voor kwantitatieve variabelen vertellen de eenheden hoe elke waarde is gemeten. Zonder eenheden hebben
de waarden van een gemeten variabele geen duidelijke betekenis. Men weet niet in welke context ze zullen
gebruikt worden.
Kwalitatieve variabelen VS Kwantitatieve variabelen
Sommige variabelen kunnen worden beschouwd als zowel kwalitatief als kwantitatief, afhankelijk van het soort
vragen dat we erover stellen.
(Vb. Datums kunnen worden behandeld als een kwantitatieve variabele en een kwalitatieve variabele)
Voorbeeld: Leeftijd
− Dokter: kwantitatief, eenheden jaar, maanden, dagen
− Verkoper: waarden kunnen categorieën worden door ze samen te voegen = kwalitatief
o Kind : 12- ; Tiener : 13-19 ; Volwassene : 20-64 ; Senior : 65+
Dwarsdoorsnede
Met een dwarsdoorsnede worden verschillende variabelen op hetzelfde tijdstip gemeten
Meerdere waarde berekend op eenzelfde tijd om een compleet beeld te scheppen. Dwarsdoorsnede data geeft
wel enkel data weer van 1 tijdsstip terwijl de tijdsreeks een evolutie kan weergeven over meerdere intervallen.
Tijdsreeks
Een tijdreeks meet gegevens in verschillende tijdstippen en deze tijdstippen moeten op een gelijke periode van
elkaar liggen. Tijdsreeksen gaan over kwantitatieve variabelen van het enkelvoudig type.
Tijdreeksen zijn gebruikelijk in het bedrijfsleven. Typische meetpunten zijn maanden, kwartalen of jaren, maar
vrijwel elk consistent tijdsinterval is mogelijk. Variabelen die in de tijd worden verzameld, vormen een
bijzondere uitdaging voor de statistische analyse.
(Vb. winst in alle Starbucks, gemeten op 31/12 van elk jaar)
, D. Data sources: Where, How and When
We moeten weten wie, wat en waarom we gegevens kunnen analyseren. Zonder deze drie te kennen, hebben
we niet genoeg om te beginnen. Indien mogelijk willen we ook het waar, hoe en wanneer van gegevens weten.
Waar en wanneer
Waarden gemeten in verschillende perioden en verschillende landen kan verschillen.
Hoe
Weten hoe de gegevens zijn verzameld, kan het verschil betekenen tussen geldige en onjuiste conclusies.
➔ Om conclusies te kunnen trekken uit de gegevens waarover u beschikt naar de wereld in het algemeen,
moet u ervoor zorgen dat de gegevens waarover u beschikt representatief zijn voor de grotere groep.
Internetenquêtes zijn vaak waardeloos!!
Bronnen
Denk na over de bron van je gegevens en de redenen waarvoor de gegevens werden verzameld. Dat kan je
helpen om in te zien wat je kan leren uit de gegevens.
➔ Door naar de bron van je gegevens te kijken kan je vaak concluderen of dit betrouwbare informatie is
E. Begrippen
Data (gegevens) Waargenomen waarden (cijfers of categorieën) samen met hun context.
Datawarehouses Een grote gegevensbank met informatie verzameld door een onderneming of een
andere organisatie, meestal met als doel de transacties op te tekenen die de
organisatie verricht, maar ook gebruikt voor analyse aan de hand van data mining.
Big Data Het verzamelen en analyseren van gegevensverzamelingen die zo groot en complex
zijn dat de traditionele methoden die typisch werden gebruikt niet voldoen.
Datamining Het proces waarbij een verscheidenheid aan statistische instrumenten wordt
gebruikt om grote databanken of datawarehouses te analyseren.
business analytics Het proces van het gebruik van statistische analyse en modellering om zakelijke
beslissingen te sturen.
Context De context vertelt ons in het ideale geval wie en wat werd gemeten, hoe en waar de
gegevens werden verzameld, en wanneer en waarom de studie werd uitgevoerd.
Rij (record) Informatie over een individu in een gegevensbank.
gegevenstabel Een weergave van gegevens waarbij elke rij een casus voorstelt en elke kolom een
variabele.
Casus Een casus is een individu over wie of waarover we gegevens hebben. Ook wel een
record of rij genoemd.
Respondenten Iemand die een enquête beantwoordt.
Deelnemers Een menselijke experimentele eenheid. Ook een subject genoemd.
(Subject) (Een menselijke experimentele eenheid. Ook een participant genoemd.)
experimentele eenheden Een individu (persoon of zaak) waarvan in het kader van een studie gegevens
worden waargenomen. Als de experimentele eenheden mensen zijn, worden ze
vaak subjecten of participanten genoemd.
Variabelen Een variabele bevat informatie over hetzelfde kenmerk voor vele casussen.
metadata Bijkomende informatie over de gegevens in een gegevensbank, typisch over het
hoe, wanneer en waar (en indien mogelijk ook waarom) de gegevens werden
verzameld; wie elke casus voorstelt; en de definities van alle variabelen.