Garantie de satisfaction à 100% Disponible immédiatement après paiement En ligne et en PDF Tu n'es attaché à rien
logo-home
Samenvatting Data science 1 - theorie P4 €5,99   Ajouter au panier

Resume

Samenvatting Data science 1 - theorie P4

 14 vues  0 fois vendu

Een samenvatting van de theorie van data science 1 uit periode 4 van toegepaste informatica aan kdg.

Aperçu 4 sur 41  pages

  • 17 janvier 2023
  • 41
  • 2021/2022
  • Resume
Tous les documents sur ce sujet (4)
avatar-seller
compie
DATA SCIENCE
P4




KDG | 2021-22

,Inhoudsopgave

Inhoudsopgave ............................................................................................................................................... 1

1. Samenhang ................................................................................................................................................. 3

1.1 Causaliteit ..................................................................................................................................................... 3

1.2 Het voorbeeld ............................................................................................................................................... 3

1.3 De correlatiecoëfficiënt van Pearson ............................................................................................................ 4

1.4 Rangcorrelatie .............................................................................................................................................. 5
1.4.1 Spearman .............................................................................................................................................. 6
1.4.2 Kendall .................................................................................................................................................. 6

1.5 Lineaire regressie .......................................................................................................................................... 6
1.5.1 Bepalen van de lijn ................................................................................................................................ 6
1.5.2 Regressie in Python ............................................................................................................................... 7
1.5.3 Verklarende variantie ........................................................................................................................... 7

1.6 Niet-lineaire regressie ................................................................................................................................... 8

2. Forecasting ................................................................................................................................................. 9

2.1 Het voorbeeld ............................................................................................................................................... 9

2.2 Forecasting op basis van het verleden ........................................................................................................ 10
2.2.1 Naïve forecasting ................................................................................................................................ 10
2.2.2 Gemiddelde van alle vorige waarden ................................................................................................. 11
2.2.3 Voortschrijdend gemiddelde .............................................................................................................. 11
2.2.4 Lineaire combinatie ............................................................................................................................ 12

2.3 Betrouwbaarheid van een model................................................................................................................ 13

2.4 Een model voor de data maken .................................................................................................................. 14
2.4.1 Trend forecasting ................................................................................................................................ 14
2.4.2 Seasonal forecasting ........................................................................................................................... 16

3. Beslissingsbomen ...................................................................................................................................... 19

3.1 Voorbeelden................................................................................................................................................ 20
3.1.1 Ad eater .............................................................................................................................................. 20
3.1.2 The simpsons ...................................................................................................................................... 20

3.2 ID3 .............................................................................................................................................................. 20
3.2.1 Het basisalgoritme .............................................................................................................................. 21
3.2.2 Information gain ................................................................................................................................. 22
3.2.3 Beperkingen ........................................................................................................................................ 24

3.3 Andere algoritmes ...................................................................................................................................... 24
3.3.1 Het CART algoritme............................................................................................................................. 25
3.3.2 ID3 verbeterd ...................................................................................................................................... 27

4. Clustering.................................................................................................................................................. 27




1

, 4.1 Meerdmensionale ruimten ......................................................................................................................... 28

4.2 Afstanden.................................................................................................................................................... 28
4.2.1 Euclidische afstand ............................................................................................................................. 28
4.2.2 Manhattan afstand ............................................................................................................................. 29
4.2.3 Genormaliseerde afstand ................................................................................................................... 30
4.2.4 Andere afstandsmaten ....................................................................................................................... 30

4.3 Meetniveaus ............................................................................................................................................... 31
4.3.1 Ordinale gegevens .............................................................................................................................. 31
4.3.2 Nominale gegevens............................................................................................................................. 31

4.4 Clusters zoeken ........................................................................................................................................... 32
4.4.1 K-means clustering.............................................................................................................................. 32
4.4.2 Hiërarchische clustering...................................................................................................................... 35

4.5 Clusters en beslissingsbomen...................................................................................................................... 36

5. Principal component analysis .................................................................................................................... 38

5.1 Voorbeelden................................................................................................................................................ 38
5.1.1 Simpsons ............................................................................................................................................. 38
5.1.2 Cijfers herkennen ................................................................................................................................ 39

5.2 Werkwijze ................................................................................................................................................... 39




2

, 1. Samenhang

1.1 Causaliteit

Verbanden zijn een correlatie.

2 soorten:

• Positieve correlatie: de ene variabele stijgt als de andere ook stijgt
• Negatieve correlatie: de ene variabele daalt als de andere stijgt

à gaan er vaak vanuit dat er een causaal verband bestaat: we gaan er vanuit dat de ene
variabele afhankelijk is van de andere en we deze dus kunnen voorspellen adhv de andere.

!! er is niet altijd een causaal verband: correlatie kan toeval zijn of er kan een andere
connectie zijn

Bv correlatie tussen zakkenrollers en aantal verkochte ijsjes: aantal ijsjes niet oorzaak van
zakkenrollers, maar gemeenschappelijke factor: goed weer & veel mensen

1.2 Het voorbeeld

We werken met het voorbeeld van aantal LinkedIn connecties en het loon. Is er een verband
tussen deze 2?

Met een scatterplot kunnen we snel te weten komen of er mogelijk een correlatie is: Voor
iedere rij in de tabel wordt het aantal connecties gebruikt als x-coördinaat en het loon als y-
coördinaat. Iedere lijn correspondeert dan met een punt in een vlak.




(functie voor in Python)

Hier zie je dat er hoogst waarschijnlijk een verband is: hoe hoger het loon hoe meer
connecties à wel met variatie

Als er een perfect verband zou zijn zou er een rechte lijn te zien zijn.




3

Les avantages d'acheter des résumés chez Stuvia:

Qualité garantie par les avis des clients

Qualité garantie par les avis des clients

Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.

L’achat facile et rapide

L’achat facile et rapide

Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.

Focus sur l’essentiel

Focus sur l’essentiel

Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.

Garantie de remboursement : comment ça marche ?

Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.

Auprès de qui est-ce que j'achète ce résumé ?

Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur compie. Stuvia facilite les paiements au vendeur.

Est-ce que j'aurai un abonnement?

Non, vous n'achetez ce résumé que pour €5,99. Vous n'êtes lié à rien après votre achat.

Peut-on faire confiance à Stuvia ?

4.6 étoiles sur Google & Trustpilot (+1000 avis)

62890 résumés ont été vendus ces 30 derniers jours

Fondée en 2010, la référence pour acheter des résumés depuis déjà 14 ans

Commencez à vendre!
€5,99
  • (0)
  Ajouter