Case

Deel 2 Big Data Scientist/Engineer in R

0 purchase

Course
Big Data Scientist/Engineer

Institution
Hogeschool Van Amsterdam (HvA)

Deel 2 voor het vak big data scientist en engineer in R. In dit document wordt de noSQL database beschreven, machine learning modellen getraind en een eigen visualisatie weergegeven.

[Show more]

Preview 4 out of 32 pages

View example

Uploaded on February 28, 2021
Number of pages 32
Written in 2020/2021
Type Case
Professor(s) -
Grade A+

big data
scientist
engineer
machine learning
r

Institution
Hogeschool van Amsterdam (HvA)
Education
Big Data Semester
Course
Big Data Scientist/Engineer

denicegroen

Member since 3 year 24 documents sold

$5.89

Also available in package deal from $10.19

Add to cart

Add to wishlist

100% satisfaction guarantee
Immediately available after payment
Both online and in PDF
No strings attached

Also available in package deal (1)

Big Data Scientist pack

$ 11.78 $ 10.19 2 items

1. Case - Deel 1 big data scientist in r
2. Case - Deel 2 big data scientist/engineer in r
Show more

Machine
Learning
12-1-2020

Big Data Scientist & Engineer

,Inhoudsopgave
Samenvatting..........................................................................................................................................3
Introductie..............................................................................................................................................4
RAM-oplossingen....................................................................................................................................5
Extra RAM-geheugen kopen...............................................................................................................5
Werken met een NOSQL Database.....................................................................................................5
Packages in R......................................................................................................................................5
Gebruikte modellen................................................................................................................................6
Logistic Regression.............................................................................................................................6
Random Forest...................................................................................................................................6
Naive Bayes........................................................................................................................................6
Het proces..............................................................................................................................................7
De data inladen..................................................................................................................................7
Kaggle dataset................................................................................................................................7
MongoDB............................................................................................................................................8
Query’s...........................................................................................................................................8
Spark classification...........................................................................................................................10
Machine Learning.........................................................................................................................11
FFBase Experiment...........................................................................................................................13
Dashboard opzetten.........................................................................................................................14
Global...........................................................................................................................................15
Libraries........................................................................................................................................16
Server...........................................................................................................................................17
Ui..................................................................................................................................................20
Scriptloader..................................................................................................................................21
App...............................................................................................................................................22
Resultaten............................................................................................................................................23
MongoDB..........................................................................................................................................23
Aggregation..................................................................................................................................23
Iteration........................................................................................................................................23
Map-Reduce.................................................................................................................................24
FFBase library...................................................................................................................................24
Inlaadtijden en object size............................................................................................................24
Spark.................................................................................................................................................24
Visualisatie........................................................................................................................................24

1

, Hotel Explorer...............................................................................................................................25
Data Explorer................................................................................................................................26
Sentiment Analyse........................................................................................................................27
Conclusie..............................................................................................................................................30
Literatuurlijst........................................................................................................................................31

2

, Samenvatting
In dit verslag wordt er beschreven hoe machine learning toegepast kan worden via RStudio met
behulp van Spark. Verder worden Ram-problemen beschreven en wordt er gebruik gemaakt van een
MongoDB database. Als laatste wordt er een visualisatie gemaakt met de hoteldata dataset. Ik heb
voor deze opdracht gebruik gemaakt van de modellen NaiveBayes en Logistic Regression.

In deze opdracht heb ik gebruik gemaakt van het hotel reviews dataset van de site Kaggle. Deze
dataset bevat meer dan 515 duizend hotelreviews. Om deze data niet telkens opnieuw in te hoeven
laden heb ik een script geschreven die contact maakt met een NOSQL database (MongoDB).
Daarnaast heb ik de dataset ook opgeslagen als .rds file om deze sneller in te kunnen laden voor mijn
visualisatie.

Vervolgens ben ik gestart met het filteren en subsetten van mijn data om deze uiteindelijk te kunnen
gebruiken binnen Spark. Eenmaal in de Spark omgeving heb ik de data opgeschoond en gesplitst in
training en test datasets. Met de training dataset heb ik mijn modellen NaiveBayes, Random Forest
en Logistic Regression getraind. Helaas leverde het Random Forest model errors op aan de test kant.
Gelukkig waren de NaiveBayes en Logistic egression modellen wel in staat om een predictie aan te
leveren.

Om de modellen goed te trainen werd er gebruik gemakt van een zogenaamde formule. Ik heb
gebruik gemaakt van twee formules. Met mijn eerste formule leverde dit accuacy waardes op rond
de 80%. Toen ik gebruik maakte van mijn tweede forule kwamen de accuracy scores echter hoger uit,
namelijk tussen de 95-100%. Het trainen van de formule verliep redelijk snel, alleen het Random
Forest model deed er langer over.

Om RAM- problemen te simuleren heb ik gebruik gemaakt van de FFBase library binnen R. Hiervoor
heb ik de tutorials op brightspace gevolgd en aanvullende informatie opgezocht op het internet.
Door het gebruik van de FFBase package zou de laadtijd van data sneller moeten verlopen en de data
zou minder ruimte in beslag moeten nemen. Helaas zag ik met mijn data niet echt een aanzienlijk
groot verschil dan wanneer ik de data via read.csv inlaad.

Als laatste heb ik een visualisatie gemaakt van de hotel review data. De visualisatie is een
interactieve kaart met labels geworden en een filter. Om dit te bereiken heb ik gebruik gemaakt van
de leaflet package binnen R.

3

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller denicegroen. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $5.89. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

65507 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy study notes for 15 years now

Start selling

Popular Universities in the United States

Popular books

Find notes and summaries for these qualifications

Seller