Datawetenschap theorie
1 Inleiding tot datawetenschap
1.1 Data voor datawetenschap
Vormen die data kunnen aannemen:
1.1.1 Tabulaire data
= data die op een natuurlijke manier voorgesteld kunnen worden in een tabel
Data is tabulair als aan volgende voorwaarden voldaan is:
- Data kunnen op een natuurlijke manier gestructureerd worden in rijen en kolommen
- Elke rij bevat informatie over één object
- Elke kolom bevat informatie over dezelfde eigenschappen van een object, deze eigenschappen
noemt men de variabelen
o Nominale variabelen: variabelen met tekst om observaties in groepen op te delen vb.
klassen van bloemen
o Numerieke variabelen: vb. lengte en breedte van kelk- en kroonbladeren
1.1.2 Spatio-temporele data
= data waarin ruimtelijke kenmerken (positie) en temporele kenmerken (tijd) aanwezig zijn
1.1.3 Tekstdata
= Vorm van ongestructureerde tekst
Toepassing: bouwen van een spam-filter, berichten analyseren en vb. nagaan of bepaalde woorden meer
frequent voorkomen in spam dan in gewone sms-berichten
1.1.4 Beelddata
Voorbeeld: foto’s van bladeren aangetast door een bladziekte
Toepassing: automatisch herkennen van plantenziekte op basis van foto
Gestructureerd of ongestructureerd
Gestructureerde data: data die men kan organiseren in een of meerdere datatabellen
- Geautomatiseerd doorzoeken en opslag en analyse van deze data zijn eenvoudig
- Voorbeeld: iris dataset, telemetrie wolven
Ongestructureerde data: data die men niet eenvoudig kan organiseren in datatabellen
- Voor analyse vaak omzetten in een gestructureerde vorm (feature engineering)
- Voorbeeld: tekstdata, beelddata
1.2 Het data-analyseproces
= proces dat men moet doorlopen om een antwoord te kunnen geven op een wetenschappelijke vraag en dit
antwoord te communiceren naar de buitenwereld
Fasen:
Specifiëren van de onderzoeksvraag
Startpunt: formuleren van een vraag die men wenst te beantwoorden
6 types vragen
- Descriptieve vragen: enkel samenvatten van gegevens zonder verdere interpretatie
- Exploratieve vragen: waarbij men op zoek gaat naar patronen in een dataset, trends of relaties
, - Met interferentie: op basis van observaties van een representatief deel van een populatie, uitspraken
wil doen over de eigenschappen van de volledige populatie (ook belangrijk kan je een uitspraak doen
over de betrouwbaarheid van het resultaat)
- Met predictie: voornamelijk geïnteresseerd is in het voorspellen van een bepaalde eigenschap van
objecten die niet werden geobserveerd bij de dataverzameling.
- Causaliteit: oorzakelijke verbanden (oorzaak-gevolg relaties)
- Mechanisch: over mechanismen die onderliggend zijn aan een bepaald fenomeen
Dataverzameling
Proces waarbij men:
- Inventariseert welke en hoeveel gegevens men denkt nodig te hebben om op de onderzoeksvraag
een antwoord te kunnen bieden
- Bestaande data samenbrengt
- (indien nodig) nieuwe bijkomende metingen uitvoert
Resultaat zijn 1 of meerdere ruwe datasets: data zonder enige vorm van verwerking voor verder gebruik
= FAIR data (Findable, Accessible, Interoperable, Reusable)
Data preparation
= proces waarbij ruwe data worden omgezet in een vorm die verdere analyses toelaat, omvat de volgende
stappen:
- Data loading: bestaat uit het inladen van data in de software die zal gebruikt worden voor de verdere
verwerking
- Data fusion: proces waarbij data afkomstig uit verschillende databronnen worden geïntegreerd om
tot een meer consistent en accuraat geheel te komen
- Feature engineering: proces waarbij de informatie die aanwezig is in ongestructureerde data wordt
omgezet in een meer gestructureerde vorm (vaak een datatabel), kan geautomatiseerd of manueel
verlopen (vb. extraheren van de lengte en breedte van de kelkblaadjes uit fotomateriaal en het
samenbrengen van deze metingen in een datatabel)
- Data cleaning: proces waarbij men foute of onnauwkeurige waarnemingen corrigeert of verwijdert
uit een dataset
- Data validation: proces waarin men nagaat of de kwaliteit van de data voldoet aan vooraf
gedefinieerde kwaliteitseisen
- Data aggregation: proces waarbij data van een gegeven formaat wordt omgezet in een formaat dat
beter aansluit bij de gestelde vraag vb. door bewerkingen toe te passen die meerdere observaties of
variabelen samenvatten
Exploratieve data-analyse
Doel: inzicht krijgen in de beschikbare data, men onderzoekt vaak de gemiddelden en de spreiding van
variabelen of het verband tussen variabalen op een grafische manier door middel van geschikte plots
(Datagedreven) modelbouw
Proces waarbij men data gebruikt, vaak in combinatie met kennis van het systeem, om een wiskundig model
te bouwen
Communicatie van de bevindingen naar het doelpubliek, eindpunt
- Met aandacht voor transparantie en reproduceerbaarheid
Deel I. Opbouw en exploratieve analyse van datatabellen
,2 Datatabellen
2.1 Case studies
2.2 Observaties, variabelen en studies
2.2.1 Variabelen, observaties en datatabellen
Variabele: eigenschap van een object die gemeten wordt volgens een vastgelegd protocol, een variabele
heeft:
- Naam: informatieve naam of symbool die verwijst naar de eigenschap die wordt gemeten
- Domein: verzameling van waarden die de variabele kan aannemen (vb. dom(kwikconcentratie) = R+¿ ¿
, dom(gender) = {male, female})
Observatie: rij van waarnemingen (of metingen) van elke variabele voor een gegeven object
- Worden vaak gestructureerd in een datatabel: elke rij stelt een observatie voor en elke kolom een
variabele
2.2.2 Afhankelijke versus onafhankelijke variabelen
Onderscheid is gebaseerd op de rol die de variabelen hebben in de studie
Doel van een onderzoek: nagaan of en hoe een afhankelijke variabele beïnvloedt wordt door- of afhangt van-
de onafhankelijke variabele
2.2.3 Experimentele versus observationele studies
Observationele studie: onafhankelijke variabelen zijn niet onder controle van de onderzoeker, observeert ze
enkel en tracht op basis van de verzamelde observaties uitspraken te doen over bepaalde variabelen of het
verband tussen deze variabelen
Experimentele studie: de onafhankelijke variabelen zijn wel onder controle van de onderzoeker, men grijpt
actief in
Studies gaan vaak over het onderzoeken van verbanden tussen variabelen
- Causale verbanden: drukken een oorzaak-gevolgrelatie uit tussen 2 variabelen, verbanden waar een
fysische of (bio)chemische wetmatigheid schuilt
- Statistische verbanden: verbanden die men kan observeren zonder dat er een oorzaak-gevolgrelatie
is
Confounder: variabele die zowel de onafhankelijke als de afhankelijke variabele beïnvloedt
2.3 Meetschalen
2.3.1 Meetschalen volgens de Stevens’ typologie
Types schalen volgens Stevens’ typologie:
Nominale schaal
: laat toe om objecten (op basis van een eigenschap of kenmerk) te benoemen en te classificeren, deze
schaal kan gebruikt worden om objecten onder te verdelen in categorieën, andere bewerkingen met deze
schaal zijn semantisch betekenisloos
Voorbeeld:
- Beschouw een variabele X met als domein {Archaea, Bacteria, Eukarya}
- Hercodering uitvoeren naar getallen: {Archaea → 1, Bacteria → 2, Eukarya →3}
- Uitvoeren van wiskundige bewerkingen op deze getallen is weinig betekenisvol
Ordinale schaal
: nominale schaal waarvan de categorieën op een (natuurlijke) manier gerangschikt kunnen worden, de
afstand tussen 2 waarden op deze schaal is echter niet gespecifieerd
, Voorbeeld:
- 4-puntenschaal (ook wel Likert-schaal genoemd) die vaak gebruikt wordt bij opiniepeilingen:
{oneens < neutraal < mee eens < volkomen mee eens}
- Men kan geen uitspraken doen over de grootte van het verschil tussen 2 categorieën (vb. “het
verschil tussen oneens en neutraal is even groot als het verschil tussen neutraal en mee eens” is
betekenisloos)
- Berekenen van gemiddelden etc. is betekenisloos
Intervalschaal
: numerieke schaal die een natuurlijke orde bevat en daarnaast betekenis geeft aan de grootte van het
verschil tussen 2 waarden. Het nulpunt van deze schaal is echter arbitrair waardoor bewerkingen zoals het
product betekenisloos zijn
Voorbeeld:
- Temperatuur, uitgedrukt in °C, maakt gebruik van een intervalschaal
- Het verschil tussen de temperaturen 10 °C en 25 °C is 15 °C wat betekenisvol is
- De uitspraak dat 10 °C dubbel zo warm is als 5 °C is betekenisloos (aangezien het nulpunt, 0°C,
arbitrair gekozen is)
Ratioschaal
: numerieke schaal die, naast orde en verschillen, ook betekenis geeft aan verhoudingen (ratio’s). deze
schalen hebben een (fysisch) betekenisvol nulpunt
Voorbeeld:
- Volume (uitgedrukt in m3) van een voorwerp
- Bewering dat de inhoud van een voorwerp met een volume van 6 m 3 drie keer zo groot is als de
inhoud van een voorwerp met een volume van 2 m 3 is betekenisvol
- Nulpunt van deze schaal is niet arbitrair
2.3.2 Toelaatbare transformaties
- Nominale schaal: is invariant voor elke injectieve transformatie
- Ordinale schaal: is invariant voor elke transformatie met een lineaire functie
- Intervalschaal: is invariant voor elke transformatie met een lineaire functie
- Ratioschaal: is invariant voor elke herschaling met een constante factor
Beschouw een rij observaties: x1, x2, …, xn
Gebruik invarianties voor beoordelen betekenis van:
- Modus: meest voorkomende element
n
1
- Rekenkundig gemiddelde: ∑x
n i=1 i
√∏
n
n
- Geometrisch gemiddelde: xi
i=1
2.4 Datacollectieprincipes en -terminologie
2.4.1 Populaties en steekproeven
Populatie: een ten aanzien van bepaalde aspecten homogene verzameling van objecten waarop een
onderzoek zich richt
- Populatieparameter: waarde die een volledige populatie karakteriseert (vb. populatiegemiddelde)