Wet van de massale digitale opslag : De hoeveelheid gegevens verdubbelt op jaarbasis en de kosten voor
het opslaan van gegevens wijn elk jaar exponentieel goedkoper
Big Data : Brede verzameling van gegevens uit verschillende bronnen
Data warehouse & data marts : Een bedrijf bestaat uit interne en externe data. Al die data wordt in een
warehouse gestructureerd en opgeslagen. Als er een bepaald probleem moet opgelost worden kunnen ze
uit de data warehouse informatie halen. Deze data zal gemanipuleerd moeten worden. Gegevens worden
verwerkt en georganiseerd voordat ze in het warehouse worden geplaatst, de data is dus gestructureerd
Data lakers : Een systeem of opslagplaats van gegevens die in het natuurlijke formaat opgeslagen zijn. Het
gaat om ongestructureerde data en ruwe gegevens, we worden enkel geselecteerd en georganiseerd
wanneer dat nodig is
Data value trap : Wat is de waarde van data in de bedrijfsvoering? Naarmate je hoger gaat op de trap,
zullen de analysetechnieken complexer worden
1. Wat is er gebeurd?
2. Waarom is het gebeurd?
3. Wat gaat er gebeuren? (toekomstgericht)
4. Hoe kunnen we het laten gebeuren?
1.1 DATA-ANALYTICAL THINKING
Web 1.0 : Basistechnologieën, mogelijkheid om online aanwezigheid te creëren elektronische handel
Big data 1.0 : Mogelijkheden om grote gegevens te verwerken en efficiëntie verbeteren
Web 2.0 : Sociale netwerk en opkomst van de stem van de individuele consument
vb. meningen, reviews, e-mails, feedback, productbeschrijvingen, blogposts…
Big data 2.0 : Wat kan de data voor ons doen?
Basel II : Voor banken om risicomodellen op te stellen om markten, kredieten en operationele in het
schatten
Solvency II : Voorschrift voor verzekeringsbedrijven
Churn : Het verloop van iets, klanten die van het ene bedrijf naar het andere overstappen
Data science heeft tot doel de besluitvorming te verbeteren in het directe belang van het bedrijf
1
, CRISP-DM : Biedt een raamwerk om het denken over data-analytische problemen te structureren. Nuttige
kennis uit data om een business probleem op te lossen kan systematisch worden behandeld door een
proces te volgen met goed gedefinieerde stadia. Herhaling is de regel, proces om gegevens te verkennen
Massa data : Wordt gebruikt om informatieve beschrijvende data van belangstellenden te vinden, je moet
dus weten wat je moet zoeken (welke data is relevant? hoeveel informatie heb je nodig?). Het doel is om
een business probleem te vertalen in een data probleem
Overfitting : Als je te hard naar een set van gegevens kijkt, zal je iets vinden, maar het zal misschien niet
zijn wat je nodig hebt. Je gaat zo goed mogelijk proberen scoren waardoor je op een bepaald moment gaat
overfitten en juist slechter gaat scoren
Data-driven decision making (DDD) : Het baseren van beslissingen op de analyse van data, in plaats van
puur op intuïtie. Hoe meer datagedreven een bedrijf is, hoe productiever het is
1.2 BUSINESS PROBLEMS AND DATA SCIENCE SOLUTIONS
Classification & class probability estimation : Proberen voor elk individu in een populatie te voorspellen tot
welke (kleine) set van klassen dit individu behoort
- Classificatie : Voorspellen tot welke klasse iemand behoort
- Class probability estimation : Voorspellen wat de kans is dat iemand tot een klasse behoort
vb. wat is de kans dat x zal reageren als hij de campagne ziet?
Regression : Levert een model op dat de waarde van de specifieke variabele voor dat individu schat
(waardeschatting) vb. hoeveel een bepaalde klant van de dienst gebruik zal maken
→ Zal iets gebeuren?
Similarity matching : Probeert gelijksoortige personen te identificeren op basis van de gegevens die over
hen bekend zijn
→ In welke mate zal iets gebeuren?
Clustering : Probeert individuen in een populatie te groeperen op basis van hun gelijkenis
Co-occurrence grouping : Tracht associaties te vinden tussen entiteiten op basis van transacties waarbij
deze personen betrokken zijn
vb. welke items vaak samen gekocht worden : als men product A koop, gaat men ook product B kopen
Profiling (= gedragsbeschrijving) : Probeert het typische gedrag van een individu, groep of populatie te
karakteriseren
Link prediction : Probeert verbanden tussen gegevens te voorspellen, bestaat er een verband en hoe sterk
is dat verband? Kan ook sterkte van een link inschatten
vb. aangezien jij en Karen 10 vrienden delen, zou je misschien Karen’s vriend willen zijn?
Data reduction : Neemt een grote set gegevens en vervangt deze door een kleinere set gegevens die veel
van de belangrijke informatie in de grotere set bevat, dit is gemakkelijker te verwerken, gaat meestal
gepaard met verlies maar er is een afweging voor beter inzicht
Causal modeling : Begrijpen welke gebeurtenissen of acties daadwerkelijk van invloed zijn op anderen.
Proberen begrijpen wat het verschil zou zijn tussen de situaties waar de gebeurtenis zou gebeuren en niet
zou gebeuren
2
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper Lisevdg. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €7,49. Je zit daarna nergens aan vast.