Resume

Samenvatting Big Data

1 fois vendu

Cours
Big Data

Établissement
Thomas More Hogeschool (tmhs)

Samenvatting van het vak Big Data dat in het derde jaar Applied Computer Science van de IT Factory wordt gegeven. Dit document omvat de 5 hoofdstukken die werden behandeld in de les: Setting the scene, Deep Learning Advanced, Computer Vision, Natural Language Processing, Cutting Edge. Het document ...

[Montrer plus]

Aperçu 4 sur 40 pages

Voir l'exemple

Publié le 13 juillet 2021
Nombre de pages 40
Écrit en 2020/2021
Type Resume

GraduateITF Membre depuis 3 année 19 documents vendus

€15,49

Ajouter au panier

Ajouter au liste de veux

Garantie de satisfaction à 100%
Disponible immédiatement après paiement
En ligne et en PDF
Tu n'es attaché à rien

Hoofdstuk 1: Setting the scene
5v’s van Big Data
1. Velocity
Snelheid van dingen en snelheid van het processen van data.
Hoe snel data binnenkomt, processed wordt en buitengaat.
2. Volume
Er is veel meer volume van data door iot (smartwatches), social media (social interactions)
en human files.
3. Variety
Verschillende soorten data (structured data & unstructured data)
80% van de data is unstructured data (afbeelding, audio, video, ….)
Structured data: rectangular data = excel files, mooie duidelijke data
4. Veractiy
De kwaliteit van de data.
Hoe clean is jouw data? Hoe zeker ben je dat jouw data klopt (want hierop baseer je jouw
beslissingen)?
5. Value
60% van de data, wordt niet gebruikt.
Gebruik dus alle data anders heb je dark data = data dat je hebt verzameld maar dat niet
wordt gebruikt.

De evolutie van Big Data
Vroeger gebruikten we alleen de structured data van een bedrijf bv. daarna kwam er social
media en andere tools zoals smartwatches waardoor je meer data kreeg.

,Monolithical architecture
Alles in een
We moeten na een tijdje uitbreiden, dat kunnen we op 2 manieren doen .

• Upscaling / Vertical scaling: de fysieke server waarop de applicatie is geïnstalleerd,
meer geheugen geven. Dus je maakt het groter.
o Bij de DB: meer hardware aan toevoegen zodat alles groter wordt.
o Probleem: na een tijdje heb je zo veel hardware toegevoegd, dat het niet meer
cost-effective is dus je moet iets anders bedenken (horizontal scaling)

o
o 3 tier: user interface layer – business layer – data access layer
o Op hetzelfde machine, ook de DB
• Scaling out / Horizontal scaling: de drie lagen worden 3x gekopieerd, meer
instances maken
o Redirecten de data en delen dus de “load” over de verschillende servers door
de load balancer.

o
o Scaling out the DB: virtueel opsplitsen van de storage parts (binary) en de
CPU part (computing power). Nu heb je 2 clusters: cluster 1 met de CPU’s en
cluster 2 met de storage. Je bent nu horizontaal aan het scalen omdat je
meerdere clusters hebt die met elkaar communiceren en 1 grote cluster
vormen.

,From monotlith to microservice – containerization
Probleem bij monolith architectuur (MVC model) is dat bepaalde delen vaak werden gebruikt
en anderen dan weer niet. Als we dan scaling out doen, kopieren we alles dus ook van de
delen die niet werden gebruikt en dat is niet goed.
Oplossing: alles opsplitsen naar microservices (kleine functions) en deze zijn allemaal
geconnecteerd (alle connecties = API) en kunnen communiceren met de UI. Elk microservice
kan zijn kleine DB hebben (van zijn eigen deeltje).
Alles is dus nu geconnecteerd door microservices die met elkaar connecteren en
communiceren. Je kan deze nu upscalen (dus meer geheugen geven bv) dan kan je zelf
selecteren welke microservice je meer geheugen geeft en welke niet (degene die weinig wordt
gebruikt, zal minder geheugen nodig hebben)
Zijn ook kleine containertjes vandaar de term “containerization”. Je kan deze opstellen door
Docker en Kubernetes.

Data: adding analytics data warehouse
De databases dat je gebruikt in die clusters van microservices noemen OLTP
(operational/transactional).
Bedrijven wilden analytics doen en hiervoor moet je dus meer DB’s hebben waardoor je een
data warehouse moet oprichten omdat je meer computing power nodig hebt.
We gaan de data overzetten (door DB’s te extracten naar het juiste formaat) naar een DB dat
geoptimaliseerd is om analytics op te doen en hiervoor moet je structured data hebben en
daarvoor moet je de data transformeren. We doen hier dus ETL (Extract Transform Load).
Die DB noemt OLAP (online analytical process).
Hiervoor heb je Hadoop nodig (maken clusters voor storage (Hadoop Distributed File
System) en cluster voor computing Hadoop MapReduce NU Spark). Hadoop Yarn =
manager
Data Mart: als je een kleinere DB maakt op basis van de grote DB (OLAP/Data warehouse).
Hierin kan je gestructureerde data steken voor een specifieke afdeling (HR bv). Deze
bevatten dus alleen data die nuttig kan zijn.
OLAP Cubes zijn nuttig voor de business mensen die niets te maken hebben met IT om er
BI op uit te voeren. Deze cubes zijn deeltjes van de Data Mart.

, On Prem based clusters naar Cloud based clusters

• On Prem: voor bedrijven die hun eigen datacenter en hardware hebben. (prive)
• Cloud: meer geheugen meer hardware meer support

Data: level-up analytics: Data Lake
Velocity (data komt sneller binnen, sneller processing) van de data.
Cloud: Data Lake = dumping site van alle data (API/IOT/Logs/…) die wordt verzameld door
de applicatie. Alle data hebben een data source en deze wordt dus gedumpt in de Data lake.
Data Lake heeft ook verschillende zones (waar de catalog: governance principes worden
gedaan)
Als we een centrale locatie hebben van alle data dan kunnen we een “schema on read”
doen. Dat wil zeggen dat als we de data hebben verzameld in de Data Lake dat wanneer je
die data leest je een schema krijgt.
Consumption: alles van de data lake kopieren hiernaar.

Les avantages d'acheter des résumés chez Stuvia:

Qualité garantie par les avis des clients

Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.

L’achat facile et rapide

Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.

Focus sur l’essentiel

Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.

Garantie de remboursement : comment ça marche ?

Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.

Auprès de qui est-ce que j'achète ce résumé ?

Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur GraduateITF. Stuvia facilite les paiements au vendeur.

Est-ce que j'aurai un abonnement?

Non, vous n'achetez ce résumé que pour €15,49. Vous n'êtes lié à rien après votre achat.

Peut-on faire confiance à Stuvia ?

4.6 étoiles sur Google & Trustpilot (+1000 avis)

64450 résumés ont été vendus ces 30 derniers jours

Fondée en 2010, la référence pour acheter des résumés depuis déjà 15 ans

Commencez à vendre!

Populaire universiteiten

Populaire hogescholen

Populaire studieboeken voor Communicatie en Taal

Populaire studieboeken voor Economie en Bedrijf

Populaire studieboeken voor Exact en Informatica

Populaire studieboeken voor Gedrag en Maatschappij

Populaire studieboeken voor Gezondheid en Geneeskunde

Populaire studieboeken voor Recht en Bestuur

Vendeur