Artificial Intelligence: wanneer een computer zelfstandig intelligentie vertoont
Machine Learning: vorm van AI die patronen kan herkennen en hierdoor voorspellingen kan maken.
Deep Learning: vorm van machine learning waar neurale netwerken worden gebruikt om complexe
patronen te herkennen.
Vormen van AI. Rechts zie je dat hoe complexer de machine learning wordt, hoe meer data je nodig
hebt om het maximale eruit te halen.
Data science: inzicht verkrijgen vanuit data. Een combinatie van coderen, modelleren, visualiseren en
domeinkennis. Een data scientist identificeert patronen en trends vanuit data door analyses.
Data science proces gaat via CRISP-DM (Cross Industry Standard Process for Data Mining).
Bestaat uit 6 fases die de machine learning pijplijn beschrijven:
0. Zorg voor datakwaliteit
1. Business understanding: wat wil de klant?
2. Data understanding: welke data is er nodig? Is de data schoon?
3. Data preparation: bewerken van data voor het ML model
4. Modeling: welke modellen passen we toe? + bouwen
5. Evaluation: welk model past het best bij de klant?
6. Deployment: hoe implementeren we de modellen? Hoe houden
we deze relevant?
Buitenste cirkel geeft weer dat data mining cyclisch is: eindigt niet als de
oplossing is gemaakt.
2 typen machine learning algoritmes:
- Supervised: de labels van de data zijn bekend
o Classificatie
o Regressie
- Unsupervised: labels zijn niet bekend
o Clustering
o Dimensionality reduction
, Als je op basis van foto’s wil voorspellen of iets een lama of een alpaca is, gebruik je classificatie
(labels zijn al bekend).
Als je op basis van foto’s huizenprijzen wil voorspellen, gebruik je regressie (labels ook bekend).
Op basis van features clusters of groeperingen maken clustering (unsupervised).
Reinforcement learning: feedback geven op output van machine leert daarvan opnieuw etc.
Hulpmiddel voor het kiezen van het juiste algoritme.
Week 2:
Algoritmes
Om een model te trainen maak je een train en test set. Als je alleen traint, bestaat de kans dat het
alleen goed werkt op de train data en niet in de praktijk.
- Train: om het model te trainen met bekende outcomes
- Test: om het model te testen en te evalueren hoe goed hij werkt op ongeziene data
De train set is vaak een groter gedeelte van de data set. Test set is kleiner.
Cross validatie: verschillende verdelingen maken voor de train en test sets,
daarna kijken welke verdeling het best werkt. K-fold bijvoorbeeld.
Hiermee vergroot je de kans dat het model op ongeziene data goed kan
voorspellen.
Je traint hiermee dus 4 verschillende(!) modellen.
Leave one out cross validation: iedere rij als blok zien en het model testen op
één rij (1 voorbeeld). Voor iedere rij doen en een gemiddelde score berekenen
Meestal in 10 blokken verdeeld.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller lw29. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $6.93. You're not tied to anything after your purchase.