Hoorcolleges Business Analytics
Tentamen: theorie niet perse statistiek
• Doen, interpreteren, opschrijven
HC 1 INLEIDING BA, EIGENSCHAPPEN DATA
1. Overzicht BA
Ontwikkelingen + trends analytics in bedrijven
1. Technologische vooruitgang (makkelijker grote hoeveelheden data te verzamelen)
2. Methodologisch vooruitgang (vooruitgang data analyseren en visualiseren, algoritmes)
3. Meer rekenkracht + betere opslagmogelijkheden
Business analytics
• = wetenschappelijk proces van vertalen van data naar inzichten om tot betere beslissingen te komen (de
stap van info naar inzicht)
• Objectief: data-driven decision making
o Advies is wel subjectief
Voorbeelden
• Amazon.com
o Database met aankopen, voorkeuren aanbevelingen, info potentiële koper
▪ Daardoor op basis van gelijkenissen aanbevelingen doen voor potentiële koper
• Ondernemers die banklening aanvragen
o Gegevens bekend van eigenschappen van aanvragers en kans dat men aan verplichtingen voldoet
o Deze kans ook bepalen voor nieuwe ondernemers die lening aanvragen
• Data.overheid.nl
o Veel datasets van NL bewaard, verdeeld onder domein (voor iedereen beschikbaar)
Soorten BA
1. Descriptive analytics (beschrijvend)
• Verzameling technieken die beschrijft wat er in het verleden is gebeurd
1. Bv verslag dat relevante info uit grote database samenvat
2. Visualisatietechnieken (bijv in een grafiek, bv het weer van afgelopen week showen)
• Voorspellen en voorschrijven = geavanceerder dan beschrijven
1. Met of volgens nieuwste mogelijkheden of inzichten gemaakt
2. Predictive analytics (voorspellend, maar ook relatie factoren op iets: oorzaak vinden (diagnostic)
• Verzameling technieken die statistische modellen en historische data gebruikt om (1) de toekomst te
voorspellen of (2) de invloed van een bepaald mechanisme op een ander mechanisme te bepalen
1. Vb historische verkoopdata gebruiken om toekomstige verkopen te voorspellen
2. Aankoopgedrag consumenten om marktaandelen te voorspellen
3. Risicofactoren hart- en vaatziekten?
4. Welke variabalen bepalen of voetbalteam in staat is te winnen?
5. Hoe verhoogt de kans dat consument hun abbo verlengen?
3. Prescriptive analytics (voorschrijvend)
• Tot weloverwogen advies komen, gaat altijd om bepaalde actie die eruit komt
o Bv optimalisatiemodellen: wat kan het best gedaan worden gegeven de restricties?
▪ Best course of action to take
o Wat is beste prijszettingsstrategie?
o Gebruik historische data om timing en hoogte kortingen te bepalen die omzet maximaliseren
o Op welke locatie fabriek openen om aan eisen klant te voldoen en kosten te minimaliseren?
• Meest geavanceerd
• Tussen descriptive en predictive zit diagnostic: waarom is het gebeurd? Oorzaak vinden
Big data
, • Verzameling gegevens die te groot en te complex is om door standaard-softwarepakketten verwerkt te
worden binnen een redelijke tijd
• 4 V’s
1. Volume (grootte: data at rest)
▪ Hoeveelheid en bestandsgrootte
• Bv veel individuen, bv veel verschillende momenten
2. Velocity (snelheid: data in motion)
▪ Snelheid waarmee data beschikbaar komen en geanalyseerd worden
• Data heel snel beschikbaar, bv coronamelder elke sec nieuwe info
• Analyse snel ongeacht hoeveel data je hebt
3. Variety (variatie: data in many forms)
▪ Verschillende vormen van data zoals tekst, audio, video, gps, socialmedia, zowel
gestructureerd als ongestructureerd
• Meestal niet gestructureerd verzameld, en later gestructureerd ordenen
4. Veracity (waarheidsgetrouwheid: data in doubt)
▪ Onzekerheid in data, bv missende waarnemingen, inconsistentie en betrouwbaarheid van
gegevens
• e
Soms 5 V Value
o Gegevens waar ook echt waarde aan zit
Deelgebieden van BA
1. Finance
a. Voorspellen prestaties, optimale aandelenportefeuille
2. Human Resource analytics
a. Verbeteren welzijn medewerkers, optimaliseren roosters
3. Health care analytics
a. Hoe versnellen we het diagnoseproces?
4. Sports analytics
a. Optimaliseren prestatie van team
b. Welke spelers op welke plekken
c. Hoeveel is speler waard? Hoeveel bieden we bij contractonderhandeling?
d. Hoe optimaliseren raceauto om blijvend voordeel te houden op concurrentie?
e. Dynamisch aanpassen ticketprijzen gedurende seizoen
5. Web analytics
a. Analyse van bezoekersaantallen van websites en social media
b. Wanneer en waar plaatsen we advertenties?
c. Hoe het best sociale netwerken inzetten om producten te promoten?
6. Legal analytics
a. In hoeverre kan computer een rol spelen bij rechtspraak?
b. Zijn computers ook in staat tot uitspraak te komen? Automatisch casussen vergelijken
2. Datasets en variabelen
Hoe zien datasets eruit (H2)
• Data
o Info die verzameld, geanalyseerd en samengevat wordt teneinde die gegevens te presenteren en
interpreteren
• Variabele
o Een grootheid die verschillende waarden kan aannemen
o Die dus variabel is → gaat om de variatie
• Waarneming
o Hoeveelheid waarden die bij een hoeveelheid variabelen hoort
o Per persoon, bedrijf, land, regio
, ▪ Bijvoorbeeld vergelijken cijfers per student, of gemiddelde cijfers per opleiding
▪ Bijvoorbeeld # keer coronatest gedaan pp, of aantal coronatesten afgenomen vergelijken
tussen landen
• In laatste geval is waarneming het land
• Variatie
o Verschillen binnen een variabele, gemeten voor meerdere waarnemingen
Steekproef ipv hele populatie
• Populatie alle waarnemingen waar men in geïnteresseerd is
• Steekproef deelverzameling vd populatie
o Random sampling: doel is om representatieve steekproef van populatie te hebben
Kwantitatieve en categoriale data
• Numerieke operatie uitvoeren (optellen, vermenigvuldigen) kan alleen met kwantitatieve data, niet met
categoriale data
Waar komt data vandaan?
• Experimentele studies
o Individuen willekeurig toegewezen aan behandelgroep of controlegroep
o Inzicht in causale invloed ene variabele op de ander
o Relevante data voor en na onderzoek verzameld
▪ Verschillen voor en na vergeleken tussen behandel en controlegroep
• Observational studies
o CBS vragenlijst, enquete, survey
o Day reconstruction method
▪ Elke dag bijhouden wat je doet
• Relevantie visualisatie
o Op facebook interessanter als je post een foto bevat ipv alleen tekst
3. Samenvatten van data
Samenvatten dataset (H2)
• 1e stap in iedere analyse, belangrijk!
Beschrijvende analytics
• Grote verzamelingen metingen structureren tot kengetallen
1. Locatiemaatstaven
• Welke waarde is gewoon? (most typical)
o Centrummaten (central tendency)
o Rondom welke centrale waarde zijn de gegevens gegroepeerd?
• Gemiddelde
o Getallen bij elkaar optellen en delen door #getallen
o Valkuilen?
• Mediaan
o Robuust
o Middelste waarde wanneer de gegevens op volgorde worden gezet
▪ Oneven aantal: middelste waarde
▪ Even aantal: gemiddelde vd 2 middelste
• Modus (mode.mult)
o Waarde die het vaakst voorkomt in de dataset
2. Spreidingsmaatstaven
• Hoe verspreid zijn de waarden? Of zitten ze op kluitje?
• Variantie (VAR.S)
o Maakt gebruik van alle data
o Afwijkingen t.o.v. het gemiddelde (gekwadrateerd), en daar de som van
o Delen door (aantal getallen – 1)
, • Standaarddeviatie (STDEV.S)
o = √ variantie (wortel)
• Coefficient of variation
o Geeft stdev weer relatief t.o.v. het gemiddelde
o Variabelen kunnen vergeleken worden
3. Vormmaatstaven
• Scheefheid (SKEW)
o Mate van symmetrie: in welke mate gegevens zich aan 1 kant vd centrummaat?
o
4. Verdelingen
• Kwartielen
o Data verdeeld in 4 gelijke stukken (inclusief mediaan)
▪ De ‘grenzen’ heten kwartielen
• Percentielen
o Kijken wat waarde is op ‘3%’, op ‘?%’ etc
• Z-score
o Relatieve locatie van een waarde in de dataset
o Hoeveel standaarddeviaties wijkt een waarde af vh gemiddelde?
o Gestandaardiseerde waarde
Beperkingen van kengetallen
▪ Totaal andere plaatjes, maar precies dezelfde kengetallen, zelfde gemiddelde, spreiding, stdev etc
▪
Conclusie kengetallen
▪ Informatief, maar niet voldoende om data te beschrijven
▪ Onderliggende structuur belangrijk
o Met pivottables en pivotcharts en andere visualisaties
Werkgroep 1:
Pivot tables:
• Dataset uitsplitsen in categorieën in een tabel
o Focussen op aantallen, gemiddeldes, dus makkelijk samenvatten
o “Multidimensional reporting tool”
▪ Je kunt bijv gem krijgen voor heel veel categorieën tegelijk
▪ Want je kan heel veel filters aanzetten: vrouwen, voor die leeftijd etc
o Flexibel en gebruiksvriendelijk
o Vergelijkbaar in overige software (bv oracle)
• Excel: draaitabel
Meerdimensionale structuur
, •
Slicing
•
Dicing
•
HC 2 GASTCOLLEGE: DATAVISUALISATIE IN ORACLE
Oracle features
1. Natural language processing
• Bijv siri
• Jij praat, je computer vormt het tot een visualisatie
• Ook software dat er een grafiek is, en dat de interpretatie in tekst getypt is door computer zelf
2. Volledig zelf personaliseren
• Eigen kleuren voor grafieken, zelf kiezen
3. Automated and custom
• Augmented
o Zelf machine gaan trainen met je eigen data
o Machine onthoudt dat dan, gebruikt voor
4. Deep data profiling and intelligent enrichment
• Bv Amsterdam, alle steden???
, HC 3 DATAVISUALISATIE & CLUSTERANALYSE
1. Datavisualisatie
• Essentieel om boodschap over te brengen (degene die beslist is meestal niet gene die analyseert)
• Ook nuttig om “fouten”/extreme waarden te identificeren
Tabellen vs grafieken
1. Tabellen
a. Individuele getallen van belang, bijv exact vergeleken moeten worden
b. Precisie wordt vereist
c. Als de getallen voor verschillende variabelen op meer dan 1 manier worden gemeten
2. Grafieken
a. Patroon/trend, minder om individuele waarden
b. Relaties tussen variabelen
Data-ink ratio
• Aantal ‘data-ink’ in ‘total amount of ink’ in een table of grafiek
o Data-ink: hoeveelheid inkt die nodig is om de betekenis vd date over te brengen (relevante data)
o Non-data-ink: hoeveelheid inkt in een tabel of grafiek die geen doel dient
• Hogere data-ink ratio: beter de boodschap overgebracht
• Above all else, show the data
Tabel: data-ink ratio vergroten: (verschillende rules)
1. Gebruik horizontale lijnen om variabelenamen te scheiden van data, of wanneer een berekening heeft
plaatsgevonden
2. Vermijd verder horizontale of verticale lijnen
3. Werk met witruimte
4. Gebruik niet te veel cijfers achter de komma
5. Herhaal geen dollars, percentages etc
6. Groepeer data en vermijd herhaling
7. Lijn getallen rechts uit
8. Lijn tekst links uit
Visualisaties in tabellen
• Gebruik wanneer het iets toevoegt, of om extreme waarden te benadrukken
o Outliers (extreme waarden)
o Heatmaps (met kleuren laten zien wat grote en kleine waarden zijn)
o Sparklines (achter de getallen een lijntje vd ontwikkeling bijv over tijd)
o Tabel + grafiek (achter de getallen in tabel een staafje om te visualiseren per rij)
Grafieken: soorten
1. Punten
a. Scatterchart/spreidingsgrafiek
b. Relatie tussen 2 kwantitatieve variabelen (correlation relationships)
2. Lijnen
i. Nominaal noord, oost, zuid, west
ii. Ordinaal ranking (top 5 klanten)
iii. Interval 4 kwartalen (Q1, Q2,)
iv. Interval aantal shippingdagen (1-2, 3-4 etc)
b. Alleen bij interval mag je lijnen gebruiken! Is een continue schaal
i. Trend & patronen, bijvoorbeeld over tijd
c. Intervallen op X-as moeten even breed zijn