SAMENVATTING DATAVERWERKING
2018-2019
1
,Inleiding
‘Big data’: (data omgezet in informatie die op zijn beurt kennis en inzicht biedt)
• ‘Big news’: ‘gehypte’ terminologie die met nodige kritische zin moet worden
benaderd.
• ‘Big business’: praktische aangelegenheid die onderzoeksdomeinen en –instellingen
voortdurend verandert
• Aandacht voor concrete inzet van de computer in kennis- en informatiebedrijf, met
bijzondere aandacht voor onderzoek in de geesteswetenschappen
1.1 DIKW-piramide (Data, informatie, kennis, wijsheid)
‘DIKW’ = ‘Data’, ‘Informatie’, ‘Kennis’, ‘Wijsheid’
• complexe onderlinge verhoudingen
DIKW-piramide:
• Hiërarchisch model uit informatielandschap
• Data als basis voor informatie, informatie als basis voor kennis, kennis als basis voor
wijsheid.
→ Focus op data en informatie + hoe data informatiever kunnen worden gemaakt in de
context van wetenschappelijk onderzoek (in de geesteswetenschappen).
1.1.1 Data
Data zijn:
• ‘gegevens’
• Representaties van feiten
• We creëren data wanneer we vastleggen wat we observeren of wanneer we objecten
representeren
Onderzoeksdata zijn dus:
• Representaties van observaties, objecten of andere entiteiten die worden gebruikt
als bewijs voor fenomenen binnen wetenschappelijk onderzoek.
Data kunnen zowel ‘materieel’ als digitaal zijn:
• Bv. Passages uit kostbare manuscripten, …
• Bv. Digitale foto’s, …
Een en dezelfde entiteit kan bewijs leveren voor verschillende fenomenen, en dus als data
fungeren binnen verschillende onderzoeksprojecten:
• Bv. corpus van negentiende-eeuwse romans
o Bestudeerd door literatuurwetenschappers als bewijs voor ontstaan bepaalde
genres
o Bestudeerd door taalkundigen als bewijs voor taalverandering
→ Data is conceptgebonden, kan gebruikt worden door verschillende personen voor
verschillende doeleinden.
2
,Belangrijk eigenschap van data is dat ze een resultaat zijn van codering:
• Moeten vastgelegd zijn op bepaald medium of drager vooraleer ze gebruikt kunnen
worden.
• Kunnen in verschillende vormen worden opgeslagen; op manier die toelaat om
gegevens later terug uit te lezen:
o Bv. gegevens opslaan op harde schijf van computer om ze tonen op het
scherm
• Zelfde gegevens kunnen in verschillende media worden opgeslagen:
o Belang van binaire code: gegevens wegschrijven als reeksen van 1 en 0
o Zelfde gegevens op verschillende media: USB-stick, harde schijf, in de cloud
o Serialisatie = proces waarbij gegevens in digitale (binaire) vorm worden
opgeslagen op opslagmedium of worden verstuurd via een netwerk
Gegevens kunnen op uiteenlopende manieren worden opgeslagen in databanken of andere
informatiesystemen:
• Primaire data (declaratieve data) = zijn de data zoals ze zijn ingegeven in het systeem
(→ wanneer primaire data ontbreken spreken we over missing data)
• Afgeleide data (procedurele data) = zijn data die worden verkregen op basis van de
context en primaire data (bv: uit combinaties van data, logische afleidingen of
wiskundige berekeningen.
• Metadata (‘data over data’) = beschrijven eigenschappen zoals de plaats, het
bestandsformaat en de beschikbaarheid van de data. Voor metadata bestaan vele
standaarden, bijvoorbeeld DCMI (Dublin Core Metadata Initiative) en MARC
(Machine-Readable Cataloging)
• Operationele data = zijn gegevens over de verrichtingen en prestaties van een
informatiesysteem (geeft info over in het hoeverre uw systeem werkt (foutmelding
Excel wanneer functies niet in juiste vorm zijn ingegeven)
Data kan geclassificeerd worden op basis van:
• De gegevensbron (door onderzoeker zelf gemaakt of hergebruik van gegevens van
anderen)
• Het bestandsformaat (van belang om in te schatten hvl schijfruimte de gegevens
zullen innemen)
• De manier waarop ze zijn aangemaakt (uit observaties, simulaties of experimenten)
• Voorwaarden waaronder gegevens mogen worden hergebruikt (zijn ze onderhevig
aan copyright of andere voorwaarden?)
3
,Onderscheid data op basis van structuur van de gegevens:
Gestructureerde data:
• gegevens die zijn geordend volgens een vast, herkenbaar patroon.
• Bv. lijsten, tabellen
• Vaak gebruikt in wetenschappelijk onderzoek omwille van uitwisselbaarheid en
hergebruik
Ongestructureerde data:
• Gegevens waarvan de structuren en patronen nog kunnen worden blootgelegd aan
de hand van dataverwerkingstechnieken
• Bv. doorlopende teksten (structuren en patronen moeten hier nog worden
blootgelegd)
→ Merk op: gegevens zijn zelden strikt ongestructureerd, maar structuur kan impliciet zijn
Data als basis voor onderzoek:
• Onderzoek naar manieren om gegevens te beheren en te analyseren is een prioriteit
in de academische wereld.
Veel onderzoek wordt gedaan onder de koepel Data Science:
• Data science: onderzoeksgebied dat zich op het snijvlak van
computerwetenschappen, statistiek en andere domeinen bevindt.
• Artificial intelligence: onderzoeksdomein dat zich bezighoudt met de ontwikkeling
van kunstmatige intelligentie
• Machine learning: de ontwikkeling van algoritmes die beter leren presteren
naarmate ze worden blootgesteld aan nieuwe gegevens.
→ Voortdurend opzoek naar methoden om data om te zetten in informatie!
1.1.2 Wat is informatie?
Data vormen de basis voor informatie:
o Informatie kan worden omschreven als gegevens die betekenisvol of nuttig zijn.
Gegevens worden informatie wanneer ze antwoord gegeven op een specifieke vraag:
• Bv. Gegevens in de vorm van teksten in een corpus van negentiende-eeuwse romans
worden informatie:
o wanneer student ze daadwerkelijk herkent als literaire teksten die iets
vertellen over genres
o wanneer student ze daadwerkelijk herkent als bron om taalverandering in
kaart te brengen
• bv. gegevens in vorm van combinatie cijfers (wordt info als de combinatie wordt
herkend als een telefoonnummer)
4
,Gegevens kunnen worden geordend en gegroepeerd zodat een student of onderzoeker er
informatie uit kan halen → De computer kan een belangrijk hulpmiddel zijn:
• Systeem waarin onderliggende gegevens worden samengebracht, gesorteerd en
getransformeerd op zo’n manier dat de eindgebruiker informative krijgt
• Interne computerprocessen spelen zich op 2 niveau’s af:
o Data retrieval: juiste gegevens identificeren en ophalen
o Information retrieval: relevante informatie filteren en tonen aan de gebruiker
Verschillende interpretaties van ‘informatie’ volgens discipline:
• Informatica (computerwetenschappen):
o studie van hoe machines kunnen worden ingezet om informatie te winnen uit
ruwe gegevens.
• Informatiekunde:
o Studie van hoe informatie kan worden verwerkt en gecommuniceerd.
o Vanuit een cognitief, sociaal of bedrijfskundig perspectief.
• Informatiewetenschap:
o Onderzoek naar manieren om de productie en het gebruik van informatie te
faciliteren.
• Informatietheorie:
o Hier wordt gezocht naar wiskundige, kwantitatieve definities van informatie
o Grondlegger Claude Shannon. Hij stelt dat de Informatieve waarde van een
fenomeen hoger of lager is naargelang het onzekerheid wegneemt.
→ bv: dozen met gekleurde balletjes! (hoge infowaarde wanneer de balletjes
verschillende kleuren hebben → moeilijk voorspelbaar)
1.1.3 Informatie en kennis
Informatie is nog geen kennis! → Kennis kan worden omschreven als datgene wat is
geweten of wordt toegepast door individuen of door de samenleving
• Centrale vragen die we behandelen:
o Hoe informatie optimaal kan worden gebruikt om kennis te verwerven
o Wat in een digitale omgeving kan worden gedaan om dat proces zo goed
mogelijk te laten verlopen
Kennis wordt verworven via documenten zoals wetenschappelijke artikels, monografieën,
handboeken. Om kennis op te doen, moet aan drie voorwaarden worden voldaan:
1. Dat informatie je bereikt
2. Dat je in staat bent de informatie te begrijpen
3. Dat je goede redenen hebt om te geloven dat de informatie waar is.
Voldoen aan deze voorwaarden is niet altijd even eenvoudig:
• Dankzij online databanken bereiken data en informatie ons vlotter dan ooit:
o Niet eenvoudig om overzicht van relevante publicaties te behouden
o Doorslaggevende informatie kan minder blootstelling krijgen
• Informatie wordt ook verspreid via sociale media zoals Twitter, blogs en webfeeds
o Uitdaging om relevante informatie te onderscheiden van ruis
o Web is onderhevig aan bias (verkeerde, misleidende en gekleurde informatie)
5
,Drie types informatie:
• Feitelijke informatie = informatie die ook waar is
• Desiniformatie = informatie die bewust foutief is
• Misinformatie = informatie die onbewust foutief is
→ Groot informatie-aanbod heeft voor- en nadelen
Valkuilen van groot informatie-aanbod:
• Overvloed aan informatie op sociale media, in artikels en grijze literatuur (=niet
gepubliceerd door academische uitgeverijen) kan illusie wekken geïnformeerd te zijn.
• Sneller tot conclusies komen wanneer we alles bij de hand denken te hebben
• Ook probleem aan kant van informatieverwerking
o Zoekmachines houden klikgedrag en zoekgeschiedenis bij
o Niet langer blootgesteld aan informatie die je voorkeuren tegenspreken
→ kom je terecht in een Information bubble (enkel infosuggesties obv je zoekopdrachten)
Mogelijkheden en kansen van groot informatie-aanbod:
Fenomenen vanuit verschillende invalshoeken benaderen. Digitale onderzoeksmethoden en
dataverwerkingstechnieken helpen hierbij:
• Text mining of sentiment mining om posts op sociale media automatisch te
classiciferen (volgens gevoelswaarde die ze uitdrukken rond een bepaalde persoon)
• Filter bubble vermijden door neutrale zoekmachines te gebruiken (Bv. Ixquick)
Studeren en onderzoek doen zijn processen waarbij jezelf lid wordt van kennisnetwerk:
• Delen van informatie op het web
• ‘Gelezen’ door zowel mensen als machines (algoritmes)
→ Door kennisinhoud beter te kunnen plaatsen in het sociale netwerk waarin die kennis
functioneert, wordt jouw interpretatie ervan betrouwbaarder. Je leert op een inzichtelijke
manier omgaan met kennis en correct handelen en beslissingen nemen op basis van kennis
(= wijsheid!)
DIKW piramide → toont aan dat data, informatie en kennis zijn nauw verbonden zijn met
elkaar en dat digitale toepassingen daarbij optreden als verbindende elementen (PC helpt
ons data om te zetten in informatie, en informatie om te zetten in kennis)
6
,1.2 De computer in de geesteswetenschappen
Opmars van informatietechnologieën heeft gezorgd voor softwaretoepassingen:
• Handig voor: Data-analyse, consulting, bibiotheek- en informatiesector,…
Onderscheid toepassingen:
1. Software en toepassingen voor analyse van tekstuele data (Bv. Onderzoek naar talen,
lineraire teksten)
2. Software en toepassingen voor de analyse van geluiden, beelden en andere niet-
tekstuele data (Bv. Onderzoek naar artefacten en tastbare objecten)
2 Tendensen binnen het geesteswetenschappelijk onderzoek:
• Bestaand onderzoek ondersteunen en verderzetten met digitale middelen
• Ontstaan van nieuwe onderzoeksparadigma’s en subdisciplines
Centraal gegeven voor heel wat onderzoek = de digitale bibliotheek:
• Full text-databanken en digitaal geïntegreerde bibliotheekcatalogi
• Kunnen zoektermen in de tekst van documenten toepassen (makkelijk om
kruisverbanden en vgl tussen bronnen zoeken)
• Doen Inspanningen om ook primaire data uit onderzoeksdatabanken te ontsluiten.
(Bv. met linked data = waarmee gegevens uit verschillende bronnen aan elkaar
kunnen worden gekoppeld)
Onderzoek gebeurt grotendeels voor het computerscherm:
• Centrale vragen: Wat zoeken we? Waar kunnen we zoeken en vinden? Hoe zoeken
we dat allemaal? Hoe ordenen we wat we hebben gevonden?
• Daarna: Hoe verwerken we de verzamelde of geïdentificeerde data en informatie?
2 stromingen die voortrekkersrol spelen op gebied van digitale gegevensverwerking:
• Gevestigde gebruik van computationele technieken in de taalkunde
• Digital humanities: onderzoek op snijvlak van geesteswetenschappen en
computerwetenschappen (vb: binnen geschiedenis, literatuur, archeologie,…)
Doen onderzoek op heterogene data, waaronder teksfragmenten, audio, video en
afbeeldingen en gebruiken innovatieve technieken zoals datavisualisaties, social
network analysis (SNA) en geographic information systems (GIS)
→ Computationele technieken in de taalkunde worden gebruikt voor de ontwikkeling van
NLP-toepassingen (natural language processing= ontwikkeling van computationele
methoden)
• Keyword analysis, Collocation analysis, Machine translation, Question answering,
Named entity recognition (NER), Sentiment analysis, Distributional semantics,
Lectometrische analyse, Distant reading, stylometrie
7
,Introductie van computationele technieken heeft onderzoeksparadigma’s veranderd:
Vb: schaal waarop fenomenen kunnen worden bestudeerd
• Distant reading vs. Close reading
o Distant reading: proces waarbij motieven, thema’s, of andere fenomenen in
teksten, worden bestudeerd op basis van grote verzamelingen teksten. Doel:
diachrone veranderingen in kaart te brengen.
o Close reading: lezen met oog voor detail, vaak op basis van een beperkt aantal
teksten (bv: een essay of roman).
Inzet van de computer moedigt geesteswetenschappers aan om na te denken over hun
methode en het soort van bewijsmateriaal waarop ze hun conclusies baseren. Onderzoek
bestaat uit verwerken van observaties of registraties (data), maar ook uit het interpreteren
van die gegevens (creatieve oplossingen en kritisch denken blijven belangrijk).
→ Data life cycle: een model voor het plannen van beheer van digitale gegevens en gebruik
van digitale methoden.
1.3 Informatie- en databeheer
1.3.1 Zelfmanagment
Het managen van een digitaal onderzoeksproject begint met zelfmanagement:
• Eigen data en informatie beheren, Vaardigheden om projecten succesvol af te
ronden en vlot samen te werken met anderen, kwestie van gezond verstand.
Goed beheer van data en informatie betekent:
1. Documenten ordelijk opslaan en van een duidelijke naam voorzien
2. Op de hoogte zijn van de mogelijkheden en beperkingen van bestandsformaten
3. Vermijden van dubbelwerk.
4. Je privacy beschermen.
5. Veilig omgaan met de computer, back-ups te maken.
→ Zelfbeheer betekent ook vlot samenwerken met anderen:
→ Zelfmanagement betekent ook het uitbouwen en onderhouden van je online identiteit:
1.3.2 De data life cycle
Projecten waaraan digitale digitale data te pas komen kunnen erg divers zijn: Verschillende
gegevenstypes, Verschillende computationele tools en technieken
→ Roept belangrijke vragen op:
• Hoe beging je aan zo’n project?
• Welke gegevenstypes komen in aanmerking?
• Hoe beslis je welke software je het best kan gebruiken?
• Hoe stel je je data na afloop ter beschikking van anderen?
→ Mogelijke gids: een blauwdruk van digitale projecten; de data life cycle
8
,Model van de data life cycle:
• Verschillende stadia die onderzoeksdata doorlopen tijdens onderzoeksproject
• Geeft beeld van de verschillende vormen van ondersteuning die nuttig kunnen zijn in
elk fase
Een onderzoeksproject volgt het verloop van de wetenschappelijke methode:
1. Een onderzoeksvraag opstellen
2. Achtergrondonderzoek doen
3. Een hypothese opstellen
4. De hypothese testen (bv. door een experiment te doen)
5. De data analyseren en conclusies trekken
Specifieke invulling van methode verschilt van project tot project. Een relevant onderscheid
daarbij is: kwalitatief vs. kwantitatief onderzoek:
• Kwalitatief onderzoek:
o Vertrekken vanuit minder gestructureerde datasets verzameld op basis van
focusgroepen, interviews of traditioneel literatuuronderzoek.
o Kwalitatieve onderzoeksmethodes zoals casestudies dienen om een eerste
inzicht te krijgen in bepaalde fenomenen of om nieuw onderzoeksvragen op
te stellen.
• Kwantitatief onderzoek:
o Vertrekken vanuit numerieke gegevens die worden aangepast om statistisch
te worden verwerkt.
o Grotere en beter gestructureerde samples of steekproeven.
o Hypotheses kunnen empirisch getest worden
→ Onderzoek is vaak combinatie van kwalitatieve en kwantitatieve methoden.
Model van data life cycle:
• Geeft zicht op de mogelijke stadia die je data kunnen doorlopen.
• 6 fasen
1. Planningsfase:
• Nadenken over concept en anticiperen op uitwerking vna het project
• Instrument: Data management plan (DMP) = een lijst die onderzoekers aanspoort om
na te denken over vragen zoals:
o Welke data zullen worden verzameld of aangemaakt?
o Waar zullen de data worden opgeslagen?
o Zullen de data worden gedeeld en zo ja, met wie?
• identificeren van soortgelijke projecten (Inspiratie opdoen, mogelijke
samenwerkingsverbanden,…)
2. Verzamelen van gegevens:
• Nagaan of gegevens al beschikbaar zijn of nieuwe aangemaakt moeten worden
→ gebruik maken van gestandaardiseerde corpora of zelf gegevens aanmaken (OCR
toepassen: documenten digitaliseren zodat het doorzoekbaar wordt)
9
, 3. Fase van dataverwerking- en analyse:
• Kiezen voor de juiste tools of diensten.
o Zelf tools ontwikkelen (bv. op basis van open source-toepassingen)
→ Voordeel: vrijheid / Nadeel: kostprijs moeilijk in te schatten
o Gebruik van commerciële tools
→ Voordeel: zicht op kostenplaatje (total cost of ownership) / Nadeel:
afhankelijkheid (workflow lock-in: werkprocessen niet zomaar kunnen aanpassen,
vendor lock-in: afhankelijk van een product)
4. Opslaan en bewaren van data:
• Gevaar van verlies van gegevens
• Belang van planning rond gegevensopslag (tijdens en na project)
Opslagmogelijkheden met voor en nadelen:
• Opslag op een netwerk of server (veilig op 1 plaats / kostprijs)
• Opslag op een persoonlijke computer of laptop (altijd beschikbaar / crash)
• Externe opslag (USB-sticks, externe harde schijven)
• Opslag in een cloud service (overal beschikbaar / Internetverbinding nodig)
→ niet altijd mogelijk om alle gegevens te bewaren (persoonsgegevens, GDPR)
5. Data vindbaar en bruikbaar maken voor anderen:
• Gegevens moeten voldoen aan 4 FAIR-principes:
o Findable: gebruik van DOI (meer stabiel verwijzingsmechanisme dan URL)
o Accessible
o Interoperable: uitwisselbaar
o Reusable: inzichtelijk en herbruikbaar voor anderen.
6. Belang van open acess- en open science-bewegingen:
• Open access: filosofie die stelt dat academische publicaties gratis ter beschikking
moeten zijn.
• Open data: filosofie die stelt dat data zo veel mogelijk toegankelijk moet zijn
• Open science: filosofie die promoot om alle fasen van het wetenschappelijk
onderzoek toegankelijk te maken
Data life cycle = theoretisch hulpmiddel om in beeld te brengen wat er allemaal komt kijken
bij een digitaal oprject.
10