Case uitwerking

Deel 2 Big Data Scientist/Engineer in R

0 keer verkocht

Vak
Big Data Scientist/Engineer

Instelling
Hogeschool Van Amsterdam (HvA)

Deel 2 voor het vak big data scientist en engineer in R. In dit document wordt de noSQL database beschreven, machine learning modellen getraind en een eigen visualisatie weergegeven.

[Meer zien]

Voorbeeld 4 van de 32 pagina's

Bekijk voorbeeld

Geupload op 28 februari 2021
Aantal pagina's 32
Geschreven in 2020/2021
Type Case uitwerking
Docent(en) -
Cijfer A+

Volgen

denicegroen Lid sinds 3 jaar 24 documenten verkocht

€5,49

Ook beschikbaar in voordeelbundel v.a. €9,49

In winkelwagen

Op verlanglijstje

100% tevredenheidsgarantie
Direct beschikbaar na betaling
Zowel online als in PDF
Je zit nergens aan vast

Ook beschikbaar in voordeelbundel (1)

Big Data Scientist pack

€ 10,98 € 9,49 2 items

1. Case uitwerking - Deel 1 big data scientist in r
2. Case uitwerking - Deel 2 big data scientist/engineer in r
Meer zien

Machine
Learning
12-1-2020

Big Data Scientist & Engineer

,Inhoudsopgave
Samenvatting..........................................................................................................................................3
Introductie..............................................................................................................................................4
RAM-oplossingen....................................................................................................................................5
Extra RAM-geheugen kopen...............................................................................................................5
Werken met een NOSQL Database.....................................................................................................5
Packages in R......................................................................................................................................5
Gebruikte modellen................................................................................................................................6
Logistic Regression.............................................................................................................................6
Random Forest...................................................................................................................................6
Naive Bayes........................................................................................................................................6
Het proces..............................................................................................................................................7
De data inladen..................................................................................................................................7
Kaggle dataset................................................................................................................................7
MongoDB............................................................................................................................................8
Query’s...........................................................................................................................................8
Spark classification...........................................................................................................................10
Machine Learning.........................................................................................................................11
FFBase Experiment...........................................................................................................................13
Dashboard opzetten.........................................................................................................................14
Global...........................................................................................................................................15
Libraries........................................................................................................................................16
Server...........................................................................................................................................17
Ui..................................................................................................................................................20
Scriptloader..................................................................................................................................21
App...............................................................................................................................................22
Resultaten............................................................................................................................................23
MongoDB..........................................................................................................................................23
Aggregation..................................................................................................................................23
Iteration........................................................................................................................................23
Map-Reduce.................................................................................................................................24
FFBase library...................................................................................................................................24
Inlaadtijden en object size............................................................................................................24
Spark.................................................................................................................................................24
Visualisatie........................................................................................................................................24

1

, Hotel Explorer...............................................................................................................................25
Data Explorer................................................................................................................................26
Sentiment Analyse........................................................................................................................27
Conclusie..............................................................................................................................................30
Literatuurlijst........................................................................................................................................31

2

, Samenvatting
In dit verslag wordt er beschreven hoe machine learning toegepast kan worden via RStudio met
behulp van Spark. Verder worden Ram-problemen beschreven en wordt er gebruik gemaakt van een
MongoDB database. Als laatste wordt er een visualisatie gemaakt met de hoteldata dataset. Ik heb
voor deze opdracht gebruik gemaakt van de modellen NaiveBayes en Logistic Regression.

In deze opdracht heb ik gebruik gemaakt van het hotel reviews dataset van de site Kaggle. Deze
dataset bevat meer dan 515 duizend hotelreviews. Om deze data niet telkens opnieuw in te hoeven
laden heb ik een script geschreven die contact maakt met een NOSQL database (MongoDB).
Daarnaast heb ik de dataset ook opgeslagen als .rds file om deze sneller in te kunnen laden voor mijn
visualisatie.

Vervolgens ben ik gestart met het filteren en subsetten van mijn data om deze uiteindelijk te kunnen
gebruiken binnen Spark. Eenmaal in de Spark omgeving heb ik de data opgeschoond en gesplitst in
training en test datasets. Met de training dataset heb ik mijn modellen NaiveBayes, Random Forest
en Logistic Regression getraind. Helaas leverde het Random Forest model errors op aan de test kant.
Gelukkig waren de NaiveBayes en Logistic egression modellen wel in staat om een predictie aan te
leveren.

Om de modellen goed te trainen werd er gebruik gemakt van een zogenaamde formule. Ik heb
gebruik gemaakt van twee formules. Met mijn eerste formule leverde dit accuacy waardes op rond
de 80%. Toen ik gebruik maakte van mijn tweede forule kwamen de accuracy scores echter hoger uit,
namelijk tussen de 95-100%. Het trainen van de formule verliep redelijk snel, alleen het Random
Forest model deed er langer over.

Om RAM- problemen te simuleren heb ik gebruik gemaakt van de FFBase library binnen R. Hiervoor
heb ik de tutorials op brightspace gevolgd en aanvullende informatie opgezocht op het internet.
Door het gebruik van de FFBase package zou de laadtijd van data sneller moeten verlopen en de data
zou minder ruimte in beslag moeten nemen. Helaas zag ik met mijn data niet echt een aanzienlijk
groot verschil dan wanneer ik de data via read.csv inlaad.

Als laatste heb ik een visualisatie gemaakt van de hotel review data. De visualisatie is een
interactieve kaart met labels geworden en een filter. Om dit te bereiken heb ik gebruik gemaakt van
de leaflet package binnen R.

3

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper denicegroen. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €5,49. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 65507 samenvattingen verkocht

Opgericht in 2010, al 15 jaar dé plek om samenvattingen te kopen

Start met verkopen

Populaire Universiteiten

Populaire Hogescholen

Populaire Scholen

Populaire samengevatte studieboeken voor Communicatie en Taal

Populaire samengevatte studieboeken voor Economie en Bedrijf

Populaire samengevatte studieboeken voor Exact en Informatica

Populaire samengevatte studieboeken voor Gedrag en Maatschappij

Populaire samengevatte studieboeken voor Gezondheid en Geneeskunde

Populaire samengevatte studieboeken voor Onderwijs en Opvoeding

Populaire samengevatte studieboeken voor Recht en Bestuur

De beste samenvattingen om je Wft-diploma te behalen

De beste samenvattingen om je theorie examens te behalen

De beste samenvattingen voor je cursus in de Veiligheidsbranche

De beste samenvattingen voor Gezondheid & Hygiëne cursussen

De beste samenvattingen voor zakelijke cursussen

De beste samenvattingen voor je PABO WisCAT cursus

Populaire vakken

Populaire vakken

Populaire vakken

Boekverslagen en samenvattingen

Verkoper

Case uitwerking

Deel 2 Big Data Scientist/Engineer in R

Document informatie

Onderwerpen

Geschreven voor

Verkoper

Ontvangen beoordelingen

Voorbeeld van de inhoud

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Snel en makkelijk kopen

Focus op de essentie

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Tevredenheidsgarantie: hoe werkt dat?

Van wie koop ik deze samenvatting?

Zit ik meteen vast aan een abonnement?

Is Stuvia te vertrouwen?