Samenvatting

Data Mining 2017/2018 - Summary

Name: Data Mining 2017/2018 - Summary
SKU: doc_386614
Rating: 1.67 (3 reviews)
Author: JHessels

3 beoordelingen

12 keer verkocht

Vak
Data Mining

Instelling
Tilburg University (UVT)

Extended summary (uitgebreide samenvatting) Data Mining Data Science Regression Classification Clustering Dimensionality Reduction

[Meer zien]

Voorbeeld 4 van de 43 pagina's

Bekijk voorbeeld

Geupload op 10 januari 2018
Aantal pagina's 43
Geschreven in 2017/2018
Type Samenvatting

data
mining
summary

3 beoordelingen

Door: emilejaspar • 6 jaar geleden

Door: informationmanagementstudent • 6 jaar geleden

Komt helaas niet overeen met leerstof 18/19 en niet veel toevoeging tov sheets

Door: JHessels • 6 jaar geleden

Vervelend om te horen. Ik had bewust 2017/2018 in de titel gezet om dit soort teleurstellingen te voorkomen.

Door: informationmanagementstudent • 6 jaar geleden

Snap ik, maar als de stof niet overeenkomt is de samenvatting van 17/18 ook niet echt meer van waarde natuurlijk

Door: JHessels • 6 jaar geleden

Daar heb je gelijk in. Waarschijnlijk is de inhoud van de course sterk veranderd ten opzichte van 2017/18. Die course liep ook niet geheel vlekkeloos eerlijk gezegd.

Door: tiegee • 6 jaar geleden

Volgen

JHessels Lid sinds 7 jaar 49 documenten verkocht

€4,49

In winkelwagen

Op verlanglijstje

100% tevredenheidsgarantie
Direct beschikbaar na betaling
Zowel online als in PDF
Je zit nergens aan vast

Data Mining W1
What is Data Mining?
“Data mining is the computational process of discovering patterns in large
data sets involving methods at the intersection of:

 Statistics (branch of mathematics focused on data);
 Machine Learning (branch of Computer Science studying learning from data);
 Artificial Intelligence (interdisciplinary field aiming to develop intelligent machines);
 Database systems.

Key aspects
 Computation vs Large data sets (trade-off between processing time and memory)
 Computation enables analysis of large data sets (computers as a tool and with growing data)
 Data Mining often implies data discovery from databases (from unstructured data to
structured knowledge)
 Text Mining (natural language processing): going from unstructured text to structured
knowledge

What is large amounts or big data?
 Volume (too big: for manual analysis, to fit in RAM, to store on disk)
 Variety (range of values: variance | Outliers, confounders and noise | Interactions, data is co-
dependent
 Velocity (data changes quickly: require results before data changes | Streaming data, no
storage)

Application of data mining
 Companies: Business Intelligence (Amazon, Booking, AH)
o Market analysis and management
 Science: Knowledge Discovery (University, Laboratories)
o Scientific discovery in large data

What makes prediction possible?
 Associations between features/target (Amazon)
 Numerical: correlation coefficient
 Categorical: mutual information Value of x1 contains information about value of x2

 Fitting data is easy, but predictions are hard!

,Iris dataset

Pearson’s r (correlation coefficient)
 Numerator: covariance (to what extent the features change together)
 Denominator: product of standard deviations (makes correlations independent of units)

Pearson’s coefficient of Petal Length by Petal Width:

Caveats
 Pearson’s r only measures linear dependency
 Other types of dependency can also be used for
prediction!
 Correlation does not imply causation, but it may still
enable prediction.

What is machine learning?
“A program is said to learn from experience (E) on task (T) and a performance (P) measure, if its
performance measured by P at tasks in T improves with E.”

,Supervised Learning
INPUT  OUTPUT

 Classification: output » class labels
 Regression: output » continuous values

Classification | Regression

Supervised learning Workflow
1. Collect data (How do you select your sample? Reliability, privacy and other regulations.)
2. Label example (Annotation guidelines, measure inter-annotator agreement, crowdsourcing.)
3. Choose example representation
 Features: attributes describing examples (
o Numerical
o Categorical
 Possibly convert to feature vectors
o A vector is a fixed-size list of numbers
o Some learning algorithms require examples represented as vectors
4. Train model(s)
 Keep some examples for final evaluation: test set
 Use the rest for
o Learning: training set
o Tuning: validation set
5. Evaluate
 Check performance of tuned model on test set
 Goal: estimate how well your model will do in the real world
 Keep evaluation realistic!

Parameter or model tuning
 Learning algorithms typically have settings (aka hyperparameters)
 For each value of hyperparameters:
o Apply algorithm to training set to learn
o Check performance on validation set
o Find/Choose best-performing setting

, Unsupervised learning
INPUT

 Clustering: group similar objects
 Dimensionality reduction: reduce random variables

Clustering | Dimensionality reduction

Clustering
Task of grouping a set of objects in such a way that objects in the same group (called a cluster) are
more similar (in some sense or another) to each other than to those in other groups (clusters).

Dimensionality reduction
 Feature selection: reduce the large amount of data
o Reduce complexity and easier interpretation
o Reduce demand on resources (computation / memory)
o Reduce the ‘curse of dimensionality’
o Reduce chance of over-fitting
 Feature extraction: often domain specific
o Image Processing: edge detection
o From pixels to reduced set of features
o Often part of pre-processing, but might contain the hard problems

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper JHessels. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €4,49. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 65507 samenvattingen verkocht

Opgericht in 2010, al 15 jaar dé plek om samenvattingen te kopen

Start met verkopen

Populaire Universiteiten

Populaire Hogescholen

Populaire Scholen

Populaire samengevatte studieboeken voor Communicatie en Taal

Populaire samengevatte studieboeken voor Economie en Bedrijf

Populaire samengevatte studieboeken voor Exact en Informatica

Populaire samengevatte studieboeken voor Gedrag en Maatschappij

Populaire samengevatte studieboeken voor Gezondheid en Geneeskunde

Populaire samengevatte studieboeken voor Onderwijs en Opvoeding

Populaire samengevatte studieboeken voor Recht en Bestuur

De beste samenvattingen om je Wft-diploma te behalen

De beste samenvattingen om je theorie examens te behalen

De beste samenvattingen voor je cursus in de Veiligheidsbranche

De beste samenvattingen voor Gezondheid & Hygiëne cursussen

De beste samenvattingen voor zakelijke cursussen

De beste samenvattingen voor je PABO WisCAT cursus

Populaire vakken

Populaire vakken

Populaire vakken

Boekverslagen en samenvattingen

Verkoper

Samenvatting

Data Mining 2017/2018 - Summary

Document informatie

Onderwerpen

Geschreven voor

3 beoordelingen

Verkoper

Ontvangen beoordelingen

Voorbeeld van de inhoud

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Snel en makkelijk kopen

Focus op de essentie

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Tevredenheidsgarantie: hoe werkt dat?

Van wie koop ik deze samenvatting?

Zit ik meteen vast aan een abonnement?

Is Stuvia te vertrouwen?