Garantie de satisfaction à 100% Disponible immédiatement après paiement En ligne et en PDF Tu n'es attaché à rien
logo-home
Summary Advanced Data Analysis class - For open book exam (content table with links to pages) €15,49
Ajouter au panier

Resume

Summary Advanced Data Analysis class - For open book exam (content table with links to pages)

 40 vues  0 fois vendu

Summary of course Advanced Data Analysis made for the open book exam containing a content table with clickable links bringing you to the exact page. Description of all theory classes + notes made during classes.

Aperçu 4 sur 34  pages

  • 4 décembre 2022
  • 34
  • 2021/2022
  • Resume
Tous les documents sur ce sujet (19)
avatar-seller
e18
Summary Advanced Data Analysis
Content table
1. Introduction ............................................................................................................ 5
Big data ............................................................................................................................. 5
Data volume .................................................................................................................... 5
Data velocity .................................................................................................................... 5
Data variety ..................................................................................................................... 5
Data veracity ................................................................................................................... 5
Data .................................................................................................................................. 5
Attribute values ................................................................................................................ 5
Attribute types ................................................................................................................. 5
Properties of attributes ...................................................................................................... 5
Discrete vs. Continuous ..................................................................................................... 5
Dataset types ..................................................................................................................... 6
Record data ..................................................................................................................... 6
Graph ............................................................................................................................. 6
Ordered data ................................................................................................................... 6
Data mining ........................................................................................................................ 6
Definitions ....................................................................................................................... 7
Statistics ...................................................................................................................... 7
Data mining & Statistics ................................................................................................. 7
Challenges in Data mining ................................................................................................. 7
Tasks ................................................................................................................................. 7
Supervised classification .................................................................................................... 7
Applications .................................................................................................................. 8
Unsupervised classification ................................................................................................ 8
Overview ............................................................................................................................ 8

2. Processing principles........................................................................... 9
Common steps .................................................................................................................... 9
Feature extraction ............................................................................................................ 9
Attribute transformation .................................................................................................... 9
Discretization ................................................................................................................... 9
Aggregation ..................................................................................................................... 9
Noise removal .................................................................................................................. 9
Outlier removal ................................................................................................................ 9
Sampling ......................................................................................................................... 9
Simple Random Sampling ............................................................................................... 9
Stratified Sampling ....................................................................................................... 10
Handling duplicate data .................................................................................................... 10
Handling missing values ................................................................................................... 10

1

, Dimensionality reduction .................................................................................................. 10
PCA ............................................................................................................................. 10
Feature subset selection ................................................................................................ 10
Feature creation ........................................................................................................... 11
Processing steps for specific data types ................................................................................. 11
Image data ..................................................................................................................... 11
Survey data .................................................................................................................... 11
Sequence data ................................................................................................................ 11
Text ............................................................................................................................... 12
Category/Ontologies ..................................................................................................... 12
Bag of words ................................................................................................................ 12
Omics ............................................................................................................................ 12
Genomics .................................................................................................................... 12
Transcriptomics ............................................................................................................ 12
Meta-genomics ............................................................................................................. 13
Proteomics ................................................................................................................... 13
Metabolomics ............................................................................................................... 14
Conclusion ......................................................................................................................... 14

3. Unsupervised clustering .................................................................... 15
Definitions ......................................................................................................................... 15
Introduction....................................................................................................................... 15
Clustering ....................................................................................................................... 15
Similarities ..................................................................................................................... 15
Distance measures ........................................................................................................ 15
Measure similarity......................................................................................................... 15
Dendrogram ................................................................................................................... 16
Hierarchical clustering ......................................................................................................... 16
Determination of distance ................................................................................................. 16
Partitional clustering ........................................................................................................... 17

4. Principal component analysis ............................................................ 18
Data & basic variable statistics ............................................................................................. 18
Multivariate data ............................................................................................................. 18
Basic variable statistics .................................................................................................... 18
Data transformation ......................................................................................................... 18
Normalization .................................................................................................................. 18
Comparison between variables ............................................................................................. 18
Covariance ..................................................................................................................... 18
Correlation...................................................................................................................... 18
Data projection .................................................................................................................. 19
Principal component analysis (PCA) ...................................................................................... 19
t-SNE................................................................................................................................ 20



2

,5. Supervised learning........................................................................... 22
Linear classifier .................................................................................................................. 22
Binary classification ............................................................................................................ 22
Support vector machines (SVMs) ....................................................................................... 23
Classification overview ..................................................................................................... 23
Predictive accuracy ............................................................................................................. 23
Class labels..................................................................................................................... 23
Thresholds and accuracy .................................................................................................. 24
Linear threshold ........................................................................................................... 24
ROC-curve ................................................................................................................... 24
PR curve ...................................................................................................................... 24
ROC vs PR curves ............................................................................................................ 24
Nearest neighbour classifier ................................................................................................. 25
K-nearest neighbour (KNN) algorithm ................................................................................ 25

6. Regression ........................................................................................ 26
Simple linear regression ...................................................................................................... 26
Multiple linear regression..................................................................................................... 26
Best fit & objective function ................................................................................................. 26
Non-linear regression.......................................................................................................... 27
Problems ........................................................................................................................... 27
Overfitting ...................................................................................................................... 27
Speed & scalability .......................................................................................................... 28
Interpretability ................................................................................................................ 28
Robustness ..................................................................................................................... 28
Regularized regression ........................................................................................................ 28
Elastic net ...................................................................................................................... 28
Common approach ............................................................................................................. 29

7. Machine learning methods................................................................. 30
Classification ..................................................................................................................... 30
Algorithms ...................................................................................................................... 30
Decision tree ..................................................................................................................... 30
Choosing features ............................................................................................................ 30
Gini impurity ................................................................................................................... 30
Advantages .................................................................................................................. 31
Disadvantages .............................................................................................................. 31
Example Decision Tree ..................................................................................................... 31
Random forest ................................................................................................................... 31
Bootstrapping ................................................................................................................. 31
Bagging.......................................................................................................................... 32
Out-of-bag performance ................................................................................................ 32
Gini importance ............................................................................................................... 32



3

, Example Random Forest ................................................................................................... 32
Neural networks & deep learning .......................................................................................... 32
Neurons ......................................................................................................................... 32
Neural network................................................................................................................ 33
Perceptron ................................................................................................................... 33
Artificial Neural Networks ................................................................................................. 33
Deep learning .................................................................................................................... 34
Performance ................................................................................................................... 34
Google DeepMind ............................................................................................................ 34




4

Les avantages d'acheter des résumés chez Stuvia:

Qualité garantie par les avis des clients

Qualité garantie par les avis des clients

Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.

L’achat facile et rapide

L’achat facile et rapide

Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.

Focus sur l’essentiel

Focus sur l’essentiel

Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.

Garantie de remboursement : comment ça marche ?

Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.

Auprès de qui est-ce que j'achète ce résumé ?

Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur e18. Stuvia facilite les paiements au vendeur.

Est-ce que j'aurai un abonnement?

Non, vous n'achetez ce résumé que pour €15,49. Vous n'êtes lié à rien après votre achat.

Peut-on faire confiance à Stuvia ?

4.6 étoiles sur Google & Trustpilot (+1000 avis)

56326 résumés ont été vendus ces 30 derniers jours

Fondée en 2010, la référence pour acheter des résumés depuis déjà 14 ans

Commencez à vendre!
€15,49
  • (0)
Ajouter au panier
Ajouté