100% tevredenheidsgarantie Direct beschikbaar na je betaling Lees online óf als PDF Geen vaste maandelijkse kosten
logo-home
Samenvatting Data science 1 - theorie P4 €5,99
In winkelwagen

Samenvatting

Samenvatting Data science 1 - theorie P4

 1 keer verkocht

Een samenvatting van de theorie van data science 1 uit periode 4 van toegepaste informatica aan kdg.

Voorbeeld 4 van de 41  pagina's

  • 17 januari 2023
  • 41
  • 2021/2022
  • Samenvatting
Alle documenten voor dit vak (4)
avatar-seller
compie
DATA SCIENCE
P4




KDG | 2021-22

,Inhoudsopgave

Inhoudsopgave ............................................................................................................................................... 1

1. Samenhang ................................................................................................................................................. 3

1.1 Causaliteit ..................................................................................................................................................... 3

1.2 Het voorbeeld ............................................................................................................................................... 3

1.3 De correlatiecoëfficiënt van Pearson ............................................................................................................ 4

1.4 Rangcorrelatie .............................................................................................................................................. 5
1.4.1 Spearman .............................................................................................................................................. 6
1.4.2 Kendall .................................................................................................................................................. 6

1.5 Lineaire regressie .......................................................................................................................................... 6
1.5.1 Bepalen van de lijn ................................................................................................................................ 6
1.5.2 Regressie in Python ............................................................................................................................... 7
1.5.3 Verklarende variantie ........................................................................................................................... 7

1.6 Niet-lineaire regressie ................................................................................................................................... 8

2. Forecasting ................................................................................................................................................. 9

2.1 Het voorbeeld ............................................................................................................................................... 9

2.2 Forecasting op basis van het verleden ........................................................................................................ 10
2.2.1 Naïve forecasting ................................................................................................................................ 10
2.2.2 Gemiddelde van alle vorige waarden ................................................................................................. 11
2.2.3 Voortschrijdend gemiddelde .............................................................................................................. 11
2.2.4 Lineaire combinatie ............................................................................................................................ 12

2.3 Betrouwbaarheid van een model................................................................................................................ 13

2.4 Een model voor de data maken .................................................................................................................. 14
2.4.1 Trend forecasting ................................................................................................................................ 14
2.4.2 Seasonal forecasting ........................................................................................................................... 16

3. Beslissingsbomen ...................................................................................................................................... 19

3.1 Voorbeelden................................................................................................................................................ 20
3.1.1 Ad eater .............................................................................................................................................. 20
3.1.2 The simpsons ...................................................................................................................................... 20

3.2 ID3 .............................................................................................................................................................. 20
3.2.1 Het basisalgoritme .............................................................................................................................. 21
3.2.2 Information gain ................................................................................................................................. 22
3.2.3 Beperkingen ........................................................................................................................................ 24

3.3 Andere algoritmes ...................................................................................................................................... 24
3.3.1 Het CART algoritme............................................................................................................................. 25
3.3.2 ID3 verbeterd ...................................................................................................................................... 27

4. Clustering.................................................................................................................................................. 27




1

, 4.1 Meerdmensionale ruimten ......................................................................................................................... 28

4.2 Afstanden.................................................................................................................................................... 28
4.2.1 Euclidische afstand ............................................................................................................................. 28
4.2.2 Manhattan afstand ............................................................................................................................. 29
4.2.3 Genormaliseerde afstand ................................................................................................................... 30
4.2.4 Andere afstandsmaten ....................................................................................................................... 30

4.3 Meetniveaus ............................................................................................................................................... 31
4.3.1 Ordinale gegevens .............................................................................................................................. 31
4.3.2 Nominale gegevens............................................................................................................................. 31

4.4 Clusters zoeken ........................................................................................................................................... 32
4.4.1 K-means clustering.............................................................................................................................. 32
4.4.2 Hiërarchische clustering...................................................................................................................... 35

4.5 Clusters en beslissingsbomen...................................................................................................................... 36

5. Principal component analysis .................................................................................................................... 38

5.1 Voorbeelden................................................................................................................................................ 38
5.1.1 Simpsons ............................................................................................................................................. 38
5.1.2 Cijfers herkennen ................................................................................................................................ 39

5.2 Werkwijze ................................................................................................................................................... 39




2

, 1. Samenhang

1.1 Causaliteit

Verbanden zijn een correlatie.

2 soorten:

• Positieve correlatie: de ene variabele stijgt als de andere ook stijgt
• Negatieve correlatie: de ene variabele daalt als de andere stijgt

à gaan er vaak vanuit dat er een causaal verband bestaat: we gaan er vanuit dat de ene
variabele afhankelijk is van de andere en we deze dus kunnen voorspellen adhv de andere.

!! er is niet altijd een causaal verband: correlatie kan toeval zijn of er kan een andere
connectie zijn

Bv correlatie tussen zakkenrollers en aantal verkochte ijsjes: aantal ijsjes niet oorzaak van
zakkenrollers, maar gemeenschappelijke factor: goed weer & veel mensen

1.2 Het voorbeeld

We werken met het voorbeeld van aantal LinkedIn connecties en het loon. Is er een verband
tussen deze 2?

Met een scatterplot kunnen we snel te weten komen of er mogelijk een correlatie is: Voor
iedere rij in de tabel wordt het aantal connecties gebruikt als x-coördinaat en het loon als y-
coördinaat. Iedere lijn correspondeert dan met een punt in een vlak.




(functie voor in Python)

Hier zie je dat er hoogst waarschijnlijk een verband is: hoe hoger het loon hoe meer
connecties à wel met variatie

Als er een perfect verband zou zijn zou er een rechte lijn te zien zijn.




3

Dit zijn jouw voordelen als je samenvattingen koopt bij Stuvia:

Bewezen kwaliteit door reviews

Bewezen kwaliteit door reviews

Studenten hebben al meer dan 850.000 samenvattingen beoordeeld. Zo weet jij zeker dat je de beste keuze maakt!

In een paar klikken geregeld

In een paar klikken geregeld

Geen gedoe — betaal gewoon eenmalig met iDeal, Bancontact of creditcard en je bent klaar. Geen abonnement nodig.

Focus op de essentie

Focus op de essentie

Studenten maken samenvattingen voor studenten. Dat betekent: actuele inhoud waar jij écht wat aan hebt. Geen overbodige details!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper compie. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €5,99. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 73018 samenvattingen verkocht

Opgericht in 2010, al 15 jaar dé plek om samenvattingen te kopen

Start met verkopen
€5,99  1x  verkocht
  • (0)
In winkelwagen
Toegevoegd