Machine Learning (Data Mining) - Samenvatting (slides en handboek)
Full Summary of Chapters and Lecture Slides Data Science for Business
All for this textbook (25)
Written for
Universiteit Gent (UGent)
Bachelor Handelswetenschappen
Business Intelligence
All documents for this subject (10)
Seller
Follow
Lisevdg
Reviews received
Content preview
Business Intelligence
1.0 INTRODUCTIE BUSINESS INTELLIGENCE
Wet van de massale digitale opslag : De hoeveelheid gegevens verdubbelt op jaarbasis en de kosten voor
het opslaan van gegevens wijn elk jaar exponentieel goedkoper
Big Data : Brede verzameling van gegevens uit verschillende bronnen
Data warehouse & data marts : Een bedrijf bestaat uit interne en externe data. Al die data wordt in een
warehouse gestructureerd en opgeslagen. Als er een bepaald probleem moet opgelost worden kunnen ze
uit de data warehouse informatie halen. Deze data zal gemanipuleerd moeten worden. Gegevens worden
verwerkt en georganiseerd voordat ze in het warehouse worden geplaatst, de data is dus gestructureerd
Data lakers : Een systeem of opslagplaats van gegevens die in het natuurlijke formaat opgeslagen zijn. Het
gaat om ongestructureerde data en ruwe gegevens, we worden enkel geselecteerd en georganiseerd
wanneer dat nodig is
Data value trap : Wat is de waarde van data in de bedrijfsvoering? Naarmate je hoger gaat op de trap,
zullen de analysetechnieken complexer worden
1. Wat is er gebeurd?
2. Waarom is het gebeurd?
3. Wat gaat er gebeuren? (toekomstgericht)
4. Hoe kunnen we het laten gebeuren?
1.1 DATA-ANALYTICAL THINKING
Web 1.0 : Basistechnologieën, mogelijkheid om online aanwezigheid te creëren elektronische handel
Big data 1.0 : Mogelijkheden om grote gegevens te verwerken en efficiëntie verbeteren
Web 2.0 : Sociale netwerk en opkomst van de stem van de individuele consument
vb. meningen, reviews, e-mails, feedback, productbeschrijvingen, blogposts…
Big data 2.0 : Wat kan de data voor ons doen?
Basel II : Voor banken om risicomodellen op te stellen om markten, kredieten en operationele in het
schatten
Solvency II : Voorschrift voor verzekeringsbedrijven
Churn : Het verloop van iets, klanten die van het ene bedrijf naar het andere overstappen
Data science heeft tot doel de besluitvorming te verbeteren in het directe belang van het bedrijf
1
, CRISP-DM : Biedt een raamwerk om het denken over data-analytische problemen te structureren. Nuttige
kennis uit data om een business probleem op te lossen kan systematisch worden behandeld door een
proces te volgen met goed gedefinieerde stadia. Herhaling is de regel, proces om gegevens te verkennen
Massa data : Wordt gebruikt om informatieve beschrijvende data van belangstellenden te vinden, je moet
dus weten wat je moet zoeken (welke data is relevant? hoeveel informatie heb je nodig?). Het doel is om
een business probleem te vertalen in een data probleem
Overfitting : Als je te hard naar een set van gegevens kijkt, zal je iets vinden, maar het zal misschien niet
zijn wat je nodig hebt. Je gaat zo goed mogelijk proberen scoren waardoor je op een bepaald moment gaat
overfitten en juist slechter gaat scoren
Data-driven decision making (DDD) : Het baseren van beslissingen op de analyse van data, in plaats van
puur op intuïtie. Hoe meer datagedreven een bedrijf is, hoe productiever het is
1.2 BUSINESS PROBLEMS AND DATA SCIENCE SOLUTIONS
Classification & class probability estimation : Proberen voor elk individu in een populatie te voorspellen tot
welke (kleine) set van klassen dit individu behoort
- Classificatie : Voorspellen tot welke klasse iemand behoort
- Class probability estimation : Voorspellen wat de kans is dat iemand tot een klasse behoort
vb. wat is de kans dat x zal reageren als hij de campagne ziet?
Regression : Levert een model op dat de waarde van de specifieke variabele voor dat individu schat
(waardeschatting) vb. hoeveel een bepaalde klant van de dienst gebruik zal maken
→ Zal iets gebeuren?
Similarity matching : Probeert gelijksoortige personen te identificeren op basis van de gegevens die over
hen bekend zijn
→ In welke mate zal iets gebeuren?
Clustering : Probeert individuen in een populatie te groeperen op basis van hun gelijkenis
Co-occurrence grouping : Tracht associaties te vinden tussen entiteiten op basis van transacties waarbij
deze personen betrokken zijn
vb. welke items vaak samen gekocht worden : als men product A koop, gaat men ook product B kopen
Profiling (= gedragsbeschrijving) : Probeert het typische gedrag van een individu, groep of populatie te
karakteriseren
Link prediction : Probeert verbanden tussen gegevens te voorspellen, bestaat er een verband en hoe sterk
is dat verband? Kan ook sterkte van een link inschatten
vb. aangezien jij en Karen 10 vrienden delen, zou je misschien Karen’s vriend willen zijn?
Data reduction : Neemt een grote set gegevens en vervangt deze door een kleinere set gegevens die veel
van de belangrijke informatie in de grotere set bevat, dit is gemakkelijker te verwerken, gaat meestal
gepaard met verlies maar er is een afweging voor beter inzicht
Causal modeling : Begrijpen welke gebeurtenissen of acties daadwerkelijk van invloed zijn op anderen.
Proberen begrijpen wat het verschil zou zijn tussen de situaties waar de gebeurtenis zou gebeuren en niet
zou gebeuren
2
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller Lisevdg. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $8.10. You're not tied to anything after your purchase.