Samenvatting

Summary Interactive Data Transforming Lecture 5 | Master Data Science & Society

0 keer verkocht

Instelling
Tilburg University (UVT)

Summary of Interactive Data Transforming. This is based on the lectures they give for the Master Data Science and Society in Tilburg University

[Meer zien]

Voorbeeld 2 van de 6 pagina's

Bekijk voorbeeld

Geupload op 21 december 2024
Aantal pagina's 6
Geschreven in 2024/2025
Type Samenvatting

data science and society
sql
interactive data transforming
tilburg university
samenvatting
summary

Volgen

iuk Lid sinds 5 jaar 21 documenten verkocht

€2,99

Ook beschikbaar in voordeelbundel v.a. €6,47

In winkelwagen

Op verlanglijstje

100% tevredenheidsgarantie
Direct beschikbaar na betaling
Zowel online als in PDF
Je zit nergens aan vast

Ook beschikbaar in voordeelbundel (1)

Summary Interactive Data Transforming | Master Data Science & Society

€ 14,95 € 6,47 5 items

1. Samenvatting - Summary interactive data transforming lecture 1 | master data science & society
2. Samenvatting - Summary interactive data transforming lecture 2 | master data science & society
3. Samenvatting - Summary interactive data transforming lecture 3 | master data science & society
4. Samenvatting - Summary interactive data transforming lecture 4 | master data science & society
5. Samenvatting - Summary interactive data transforming lecture 5 | master data science & society
Meer zien

Interactive Data Transforming | Lecture 5
Data Flow Model
The model is a way to visualize how data moves through an algorithm. It looks like a directed graph
where data flows between different operations or tasks. Construction goals:

 Improve expressiveness and extensibility You want to be able to create complex algorithms
easily and allow for changes or additions later.
 Making coding easier: strive for high-level code
 Enable additional optimizations
 Increase performance by better utilizing the hardware (particularly RAM)

Representative examples: Apache Spark are used for various tasks in data engineering, science, and
machine learning.

Spark
Spark is designed based on the ideas of MapReduce but is faster because it processes data in memory
(RAM) instead of relying on a file system.

Lambda Expressions
Small functions without a name, any number of arguments, only one expression is executed.
Example:

Map for iterables
Executes the function on the element of iterable(s). Returns an iterator that contains the elements
resulted after applying the function. Example:

It will square each number in elem_list and put these squared numbers in the new_elem list.

Filter for iterables
Function should return a Boolean. Filter executes the function over each element of iterable. Returns
an iterator that contains the elements for which functions resulted at True. Example:

It will only show the grades that are higher than 5. So, the output
would be: [{‘name’: ‘John’, ‘exam’: 9}, {‘name’: ‘Anna’, ‘exam’: 8}]

, Storage Layer
Requirements  Same as the storage layer in lecture 4, scalability etc. but including:
Fast RAM for hot data: recent data stored in RAM

Hadoop uses slow HDD (hard disk
drive) storage, which can handle large
amounts of data but may be slower in
accessing it. It’s designed for large
datasets that don’t require immediate
processing.

Apache Spark utilizes in-memory storage, which allows for much faster data processing compared to
HDD storage because it keeps data in RAM. It can also handle overflow by utilizing disk storage if the
data exceeds memory capacity.

RDDs (Resilient Distributed Datasets)
D  Data set (Collection of data. Array, table, data frame, etc.)
D  Distributed (Parts are placed on different computers)
R  Resilient (Recover from failures)

It’s created by: (1) Loading data from stable storage, e.g. from HDFS. (2) Manipulation of existing
RDDs. You can create new RDDs by transforming existing ones.
Core properties of RDDs

 Distributed.
 Immutable (e.g. read-only, cannot change). Changing means creating a new RDD.
 Lazily evaluated It means it doesn’t work right away. It waits until you actually need the
answer before it does anything. It’s like not cleaning your room until guests are about to
arrive.
 Cacheable: keep in main memory whenever possible.
 Replicated.

RDDs contain:

- Details about the data.
E.g. data location or the actual data
- Lineage information (history of how an RDD was created and the transformations it
underwent)
Dependencies from other RDDs. For example, if RDD2 was created from RDD1 using a
function, RDD2 knows it depends on RDD1.
Functions/transformations for recreating a lost split of an RDD from a previous RDD. If part of
the RDD is lost, Spark can use this lineage information to recreate it by going back through
the transformations from the original RDD.
Examples: RDD2 = RDD1.function_something(..). RDD3 = RDD2.function_something_else(…)

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper iuk. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €2,99. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 75282 samenvattingen verkocht

Opgericht in 2010, al 15 jaar dé plek om samenvattingen te kopen

Start met verkopen

Populaire Universiteiten

Populaire Hogescholen

Populaire Scholen

Populaire samengevatte studieboeken voor Communicatie en Taal

Populaire samengevatte studieboeken voor Economie en Bedrijf

Populaire samengevatte studieboeken voor Exact en Informatica

Populaire samengevatte studieboeken voor Gedrag en Maatschappij

Populaire samengevatte studieboeken voor Gezondheid en Geneeskunde

Populaire samengevatte studieboeken voor Onderwijs en Opvoeding

Populaire samengevatte studieboeken voor Recht en Bestuur

De beste samenvattingen om je Wft-diploma te behalen

De beste samenvattingen om je theorie examens te behalen

De beste samenvattingen voor je cursus in de Veiligheidsbranche

De beste samenvattingen voor Gezondheid & Hygiëne cursussen

De beste samenvattingen voor zakelijke cursussen

De beste samenvattingen voor je PABO WisCAT cursus

Populaire vakken

Populaire vakken

Populaire vakken

Boekverslagen en samenvattingen

Verkoper

Samenvatting

Summary Interactive Data Transforming Lecture 5 | Master Data Science & Society

Document informatie

Onderwerpen

Geschreven voor

Verkoper

Ontvangen beoordelingen

Voorbeeld van de inhoud

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Snel en makkelijk kopen

Focus op de essentie

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Tevredenheidsgarantie: hoe werkt dat?

Van wie koop ik deze samenvatting?

Zit ik meteen vast aan een abonnement?

Is Stuvia te vertrouwen?