Samenvatting van het derdejaarsvak Data Science voor de richting Applied Computer Science van ITF. Het document omvat de 5 hoofdstukken die werden toegelicht tijdens de lessen.
1 SETTING THE SCENE
Wat is data?
Structured data
Senses data: bevat gegevens over de bevolking over de jaren heen.
Rectangular/tabular data: mooi gestructureerde data die er een beetje uitzien als een
rechthoek. Deze soort data bevat rijen die naar observaties of data points verwijzen en
kolommen die naar variabelen verwijzen.
• Data die kan worden gezet in kolommen en rijen
• Een rij kan meerdere datatypes bevatten
• Elke kolom heeft wel dezelfde datatypes
• 20% volgens Gartner
België is een voorbeeld van een observatie, 2003 is een variabele.
Unstructered data:
• Audio (voice recording, audio van muziek, …)
• Afbeeldingen: een foto van een kat bv heeft veel data (RGB de hoeveelheid aan
kleuren, de onderliggende info = deze afbeelding is een kat)
• Tekst: (tweet bv) dit is ook unstructured data omdat je dit moeilijk in een tabel kan
zetten. informatie = de combinatie van de woorden kan hidden informatie bevatten
• 80% volgens Gartner
Wat is Data Science?
“Het gebruik van wetenschappelijke methodes om informatie te
ontdekken die verstopt zit in data. “
Wat maakt mij een goede Data Scientist?
• Hacking skills = kunnen programmeren om data te
analyseren
• Math & statistics = de juiste methoden/technieken
kunnen toepassen en weten wanneer je een methode
JDK 2021 1
, moet gebruiken want je komt in de gevarenzone als je een techniek gebruikt die daar
eigenlijk niet geschikt voor is, dan ga je er verkeerde conclusies uit trekken.
• Substantive expertise = weten waarover de data gaat zodat je verschillende vragen
eraan kan stellen om de juiste conclusies eruit te halen.
Ultieme doel van Data Science: van een dataset naar juiste conclusies gaan zodat ze
verstaanbaar zijn voor de mensen die de dataset nog nooit hebben gezien.
AI = algemene term, zijn technieken om menselijke intelligentie na te doen
ML = subset van AI waarbij machines leren om iets beter te doen aan de hand van ervaring
of data
DL = subset van ML waarbij er artificiële neural networks worden gebruikt
Je hebt data nodig om al deze dingen te doen en daarvoor moet je de data eerst begrijpen
en daarvoor is data science dus nuttig.
De afbeelding hierboven is een voorbeeld van Data Science. We gaan van tabular data naar
een mooie visualisatie waaruit we conclusies kunnen trekken (des te rijker je bent, des te
langer je leeft). Visualisaties zijn perfect voor de mens omdat wij zo gebouwd zijn.
De afbeelding hierboven is een voorbeeld van Machine Learning. Je gaat op basis van een
audio input, voorspellen of er al dan niet een machine error ergens zit. Het model doet dat op
basis van meerdere audiobestanden die hij al had gekregen om op te trainen.
Dit zou data science zijn wanneer we gaan analyseren welke hidden informatie hierin zit.
Voorbeeld met de tweets van Trump = Data science: we krijgen een data set, we gaan die
analyseren en proberen er interessante dingen uit te halen bv waarom het komt dat Trump
vaak woorden in hoofdletters zet.
JDK 2021 2
,Data Science Process
1. Importeer de data
Deze data kan zitten in een CSV, Excel-file, SQL waarmee je een link moet leggen …
2. Tidy (cleaning the data)
De data properder maken zodat je kan gaan transformeren, bv rijen verwijderen die je niet
nodig hebt.
Stappen 1 en 2 zijn erg belangrijk want dat zal je veel tijd besparen en gemakkelijker zijn om
de volgende stappen uit te voeren.
3. Transform
4. Visualise (plotten maken, visualiseren)
5. Model data (beschrijven hoe je data zich gedraagt)
Stappen 3 tot 5 is een iteratief proces omdat je misschien bij een visualisatie iets ontdekt dat
nog niet juist staat waardoor je terug moet gaan transformeren of dat een bepaalde variabele
wel interessant kan zijn om te visualiseren/modelleren. Door dit proces meerdere keren te
herhalen, kan je gerichtere vragen gaan stellen.
Wat is het verschil tussen Business Intelligence en Data Science?
Bij BI ga je een vraag hebben bv hoeveel winst gaan we maken als we iets nieuw lanceren?
De vraag die gesteld wordt, is al heel gericht of specifiek. Je kent de achtergrond ook al.
Bij DS is het een iteratief proces, je krijgt veel data, je weet nog niet welke stukken interessant
kunnen zijn. Door dat proces ga je langzaamaan meer inzicht krijgen in de data.
R
Statistical programming language, de taal voor data science omdat je met enkele lijnen code,
inzichten kan krijgen in je data en visualisaties.
• Is goed om te experimenteren, begrijpen en visualiseren
Python is beter voor machine learning omdat je daar modellen mee gaat bouwen en
deployen.
JDK 2021 3
, GGPLOT2 = pakket om visualisaties te maken
Install.packages(“ggplot2) package installeren
Library(ggplot2) package en functies laden
Mpg
We weten niet goed wat “displ” zou kunnen betekenen, hiervoor moeten we dus ?mpg als
commando ingeven zodat we wat meer info krijgen over onze dataset.
We zien een negatieve correlatie: grotere motoren zuipen meer.
JDK 2021 4
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller GraduateITF. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $11.39. You're not tied to anything after your purchase.