100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
Samenvatting Data science 1 - theorie P4 €5,99   In winkelwagen

Samenvatting

Samenvatting Data science 1 - theorie P4

 14 keer bekeken  0 keer verkocht

Een samenvatting van de theorie van data science 1 uit periode 4 van toegepaste informatica aan kdg.

Voorbeeld 4 van de 41  pagina's

  • 17 januari 2023
  • 41
  • 2021/2022
  • Samenvatting
Alle documenten voor dit vak (4)
avatar-seller
compie
DATA SCIENCE
P4




KDG | 2021-22

,Inhoudsopgave

Inhoudsopgave ............................................................................................................................................... 1

1. Samenhang ................................................................................................................................................. 3

1.1 Causaliteit ..................................................................................................................................................... 3

1.2 Het voorbeeld ............................................................................................................................................... 3

1.3 De correlatiecoëfficiënt van Pearson ............................................................................................................ 4

1.4 Rangcorrelatie .............................................................................................................................................. 5
1.4.1 Spearman .............................................................................................................................................. 6
1.4.2 Kendall .................................................................................................................................................. 6

1.5 Lineaire regressie .......................................................................................................................................... 6
1.5.1 Bepalen van de lijn ................................................................................................................................ 6
1.5.2 Regressie in Python ............................................................................................................................... 7
1.5.3 Verklarende variantie ........................................................................................................................... 7

1.6 Niet-lineaire regressie ................................................................................................................................... 8

2. Forecasting ................................................................................................................................................. 9

2.1 Het voorbeeld ............................................................................................................................................... 9

2.2 Forecasting op basis van het verleden ........................................................................................................ 10
2.2.1 Naïve forecasting ................................................................................................................................ 10
2.2.2 Gemiddelde van alle vorige waarden ................................................................................................. 11
2.2.3 Voortschrijdend gemiddelde .............................................................................................................. 11
2.2.4 Lineaire combinatie ............................................................................................................................ 12

2.3 Betrouwbaarheid van een model................................................................................................................ 13

2.4 Een model voor de data maken .................................................................................................................. 14
2.4.1 Trend forecasting ................................................................................................................................ 14
2.4.2 Seasonal forecasting ........................................................................................................................... 16

3. Beslissingsbomen ...................................................................................................................................... 19

3.1 Voorbeelden................................................................................................................................................ 20
3.1.1 Ad eater .............................................................................................................................................. 20
3.1.2 The simpsons ...................................................................................................................................... 20

3.2 ID3 .............................................................................................................................................................. 20
3.2.1 Het basisalgoritme .............................................................................................................................. 21
3.2.2 Information gain ................................................................................................................................. 22
3.2.3 Beperkingen ........................................................................................................................................ 24

3.3 Andere algoritmes ...................................................................................................................................... 24
3.3.1 Het CART algoritme............................................................................................................................. 25
3.3.2 ID3 verbeterd ...................................................................................................................................... 27

4. Clustering.................................................................................................................................................. 27




1

, 4.1 Meerdmensionale ruimten ......................................................................................................................... 28

4.2 Afstanden.................................................................................................................................................... 28
4.2.1 Euclidische afstand ............................................................................................................................. 28
4.2.2 Manhattan afstand ............................................................................................................................. 29
4.2.3 Genormaliseerde afstand ................................................................................................................... 30
4.2.4 Andere afstandsmaten ....................................................................................................................... 30

4.3 Meetniveaus ............................................................................................................................................... 31
4.3.1 Ordinale gegevens .............................................................................................................................. 31
4.3.2 Nominale gegevens............................................................................................................................. 31

4.4 Clusters zoeken ........................................................................................................................................... 32
4.4.1 K-means clustering.............................................................................................................................. 32
4.4.2 Hiërarchische clustering...................................................................................................................... 35

4.5 Clusters en beslissingsbomen...................................................................................................................... 36

5. Principal component analysis .................................................................................................................... 38

5.1 Voorbeelden................................................................................................................................................ 38
5.1.1 Simpsons ............................................................................................................................................. 38
5.1.2 Cijfers herkennen ................................................................................................................................ 39

5.2 Werkwijze ................................................................................................................................................... 39




2

, 1. Samenhang

1.1 Causaliteit

Verbanden zijn een correlatie.

2 soorten:

• Positieve correlatie: de ene variabele stijgt als de andere ook stijgt
• Negatieve correlatie: de ene variabele daalt als de andere stijgt

à gaan er vaak vanuit dat er een causaal verband bestaat: we gaan er vanuit dat de ene
variabele afhankelijk is van de andere en we deze dus kunnen voorspellen adhv de andere.

!! er is niet altijd een causaal verband: correlatie kan toeval zijn of er kan een andere
connectie zijn

Bv correlatie tussen zakkenrollers en aantal verkochte ijsjes: aantal ijsjes niet oorzaak van
zakkenrollers, maar gemeenschappelijke factor: goed weer & veel mensen

1.2 Het voorbeeld

We werken met het voorbeeld van aantal LinkedIn connecties en het loon. Is er een verband
tussen deze 2?

Met een scatterplot kunnen we snel te weten komen of er mogelijk een correlatie is: Voor
iedere rij in de tabel wordt het aantal connecties gebruikt als x-coördinaat en het loon als y-
coördinaat. Iedere lijn correspondeert dan met een punt in een vlak.




(functie voor in Python)

Hier zie je dat er hoogst waarschijnlijk een verband is: hoe hoger het loon hoe meer
connecties à wel met variatie

Als er een perfect verband zou zijn zou er een rechte lijn te zien zijn.




3

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

√  	Verzekerd van kwaliteit door reviews

√ Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper compie. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €5,99. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 62890 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen
€5,99
  • (0)
  Kopen