• Data voorbereiden; structureren en modelleren van gegevens, omgaan met ontbrekende of
foutieve gegevens, werkinstrument SQL
• Data visualiseren; gegevens grafisch voorstellen en verkennende analyses uitvoeren;
rekenbladen (Excel) + beeldbewerkingssoftware
• Data analyseren; dieper duiken in gegevens, analyse van teksten (AntConc, Voyant, Ngram
Viewer)
• Data delen; gegevens ‘publiceren’ op het web, optreden als auteur op het web (HTML, CSS)
1.DIKW-Piramide (data, informatie, kennis, wijsheid)
Een nieuwe onderzoeksmethode leren = nieuwe terminologie
In de digitale wereld wordt gesproken
over manuscripten, romans, woordenlijsten, schilderijen of
muziekstukken in termen van ‘data’
Die data worden met technologische
hulpmiddelen omgezet in ‘informatie’ die de basis vormt voor nieuwe
kennis en ideeën
‘Big data’
Big news: gehypte terminologie die met
nodige kritische zin moet worden benaderd
Big business: praktische aangelegenheid die onderzoeksdomeinen en
-instellingnen voortdurend verandert
, 1.1. De piramide
1.2. Wat zijn data?
Data
= ‘Gegevens’
Representaties van feiten
We creëren data wanneer we vastleggen wat we observeren
of wanneer we objecten presenteren
Onderzoeksdata
= representaties van observaties, objecten of andere entiteiten die
worden gebruikt als bewijs voor fenomenen binnen
wetenschappelijk onderzoek.
Zowel ‘materieel’ als digitaal
Een en dezelfde entiteit kan bewijs = voor # fenomenen en dus als
data fungeren binnen # onderzoeksprojecten
o Corpus v 19e E roman
• Literatuurwetenschappers: bewijs ° bepaalde genres
• Taalkundigen: bewijs voor taalverandering
o Historische portretfoto
• Cultuurhistoricus: levensloop person
,• Mediahistoricus:technologische ontwikkelingen
Eigenschap: Resultaat van codering
Vastgelegd op bepaald medium/drager
Kunnen in # vormen w opgeslagen
o Laat toe om gegevens later uit te lezen
Vb. op harde schrijf v computer om te tonen op scherm: data zijn
resultaat v het uitlezen
o Zelfde gegevens kunnen in # media w opgeslagen
• Belang v binaire code: gegevens als reeksen v 1 & 0
• Zelfde gegevens op USB/harde schijf/cloud
Serialisatie = proces waarbij gegevens in digitale (binaire) vorm w opgeslagen
o Op een opslagmedium
o Of verstuurd via netwerk
1.1.1. Soorten data
Verschillende soorten gegevens in de geesteswetenschap. Deze kunnen
op uiteenlopende manieren worden opgeslagen in databanken/andere
informatiesystemen. We maken een praktisch onderscheid:
Primaire data (= declaratieve data) zijn de data zoals ze zijn
ingegeven in het systeem
(indien ontbreken: missing data)
Afgeleide data (= procedurele data) zijn data die worden
verkregen op basis van context en primaire data,
vb. uit combinaties van data, logische afleidingen of wiskundige
berekeningen
Metadata (‘data over data’) beschrijven eigenschappen zoals
plaats, formaat en beschikbaarheid van de data. Hiervoor bestaan
veel standaarden (bv DCMI, MARC)
Vb. auteur, docxbestandtype
Operationele data zijn gegevens over de verrichtingen en
, prestaties van een informatiesysteem
Vb. excel geeft foutmelding indien niet juiste vorm ingegeven
Ook kunnen gegevenstypes onderscheiden w op basis van:
Gegevensbron
o Data zelf aangemaakt?
o Hergebruik van gegevens v anderen?
Bestandsformaat
o Benodigde opslagruimte
o Duurzaamheid v gegevens
Manier waarop gegevens zijn aangemaakt/verzameld
o Vb. observaties
o Vb. experimenten
Voorwaarden waaronder gegevens mogen w gedeeld
o Copyright
o Open data
Of er wordt een onderscheid gemaakt in de structuur van de gegevens:
Gestructureerde data: vast, herkenbaar patroon
Vb. lijsten, tabellen, resultaten v enquetes...
Ongestructureerde data: structuren & patronen kunnen worden
blootgelegd adhv dataverwerkingstechnieken
Vb. doorlopende teksten
<-> nooit volkomen ongestructureerd, maar structuur kan impliciet zijn!
1.1.1. Data als basis voor onderzoek
= onderzoek naar manieren om gegevens te beheren en te analyseren & data om te zetten
naar informatie
Data science: snijvlak v computerwetenschappen/statistiek/etc.
Artificial intelligence
Machine learning
1.1. Wat is informatie?
Data vormen de basis voor informatie →informatie kan
, worden omschreven als gegevens die betekenisvol of
nuttig zijn.
Gegevens worden informatie wanneer ze antwoord geven op
een specifieke vraag.
Vb. gegevens in vorm v teksten in een corpus v 19 e E romans w
informatie
o Student herkent ze als literaire teksten die iets vertellen over
genres
o Student herkent ze als brom om taalverandering in kaart te
brengen
Gegevens kunnen worden geordend en gegroepeerd zodat
een student of onderzoeker er informatie uit kan halen.
o Een computer kan hulpmiddel zijn als systeem waarin
onderliggende gegevens w samengebracht/gesorteerd/
getransformeerd eindgebruiker informatie krijgt
Vb. combinatie v cijfers w herkend als telefoonummer (obv
context)
o De interne computerprocessen spelen zich af op twee niveaus:
Data retrieval: juiste gegevens identificeren en ophalen
Information retrieval: relevante informatie filteren en
tonen aan de gebruiker
Verschillende disciplines hanteren het begrip informatie op verschillende manieren
,Claude Shannon: A Mathematical Theory of Communication =
informatieve waarde v een bepaald fenomeen ligt hoger of lager
naargelang onzekerheid wegneemt
<-> Maar grenzen tussen disciplines en benaderingen van
informatie zijn eerder vaag.
1.1. Informatie en kennis
Voorwaarden voor kennisverwerving
= in geesteswetenschappen via wetenschappelijke artikels, monografieën,
handboeken...
1. Informatie moet je beereken
2. Je moet informatie kunnen begrijpen
3. Je moet goede redenen hebben om te geloven dat informatie waar is
Problemen bij kennisverwerving
, Veelheid: online databanken vlot!
o Moeilijk overzicht relevante publicaties
o Doorslaggevende info in publicaties met minder blootstelling
Ruis/bias: informatie via sociale media
o Relevante info <-> ruis
o Web = onderhevig aan bias = verkeerde/misleidinde en gekleurd
informatie
Drie types informatie:
Feitelijke informatie = informatie die ook waar is
Desinformatie = informatie die bewust foutief is
Misinformatie = informatie die onbewust foutief is
Groot informatie-aanbod heeft voor- en nadelen → belang goede
informatievaardigheden
Valkuilen van groot informatie-aanbod: vb. grijze literatuur
o Overvloed aan informatie kan illusie wekken geïnformeerd te zijn
o Sneller tot (foute) conclusies komen wanneer we alles bij de hand
denken te hebben
o Ook problemen aan kant van informatieverwerking: zoekmachines
houden klikgedrag en zoekgeschiedenis bij en passen resultaten aan aan
voorkeuren en standpunten
= Information bubble / filter bubble
Mogelijkheden en kansen van groot informatie-aanbod:
- Fenomenen vanuit verschillende invalshoeken benaderen
- Rol digitale onderzoeksmethoden en dataverwerkingstechnieken
o Tekst mining of sentiment mining
= posts op sm automatisch classificeren
o Publicaties screenen en classificeren mbhv algoritmes
o Neutral zoekmachines gebruiken
, Vb. Ixquick, DuckDuckGo
Kennis ~ praktische vaardigheden
Studeren en onderzoek doen zijn processen waarbij je jezelf
inschrijft in een netwerk van kennis:
o Delen van informatie op het web
o ‘Gelezen’ door zowel mensen als machines (algoritmes)
o Verschillende fasen van onderzek worden ondersteund door
computationele processen
Door kennisinhoud beter te kunnen plaatsen, wordt jouw
interpretatie ervan betrouwbaar: op een inzichtelijke manier omgaan
met kennis & correct kunnen handelen of beslissingen nemen = wijsheid
⇨ Data, informatie en kennis zijn nauw met elkaar vervlochten
⇨ Digitale toepassingen als verbindend element
1.1. De computer in de geesteswetenschappen
Opmars informatietechnologie heeft gezorgd voor softwaretoepassingen
die nuttig zijn voor geestenswetenschappers e.a. Algemeen onderscheid:
Software en toepassingen voor analyse van tekstuele data
Vb. onderzoek naar talen & literaire teksten
Software en toepassingen voor de analyse van
geluiden, beelden en andere niet-textuele data
Vb. onderzoek naar artefacten & tastbare objecten
Kruisbestuivingen mogelijk en wenselijk
,Tendensen binnen gebruik van de computer in de geesteswetenschappen:
- Bestaand onderzoek kan worden ondersteund en verdergezet
- Ontstaan van nieuwe onderzoeksparadigma’s en subdisciplines
1.1.1. Digitale bibliotheek als spil
Full text-databanken en digitaal geïntegreerde bibliotheekcatalogi
Zoektermen in de tekst van documenten
o Kruisverbanden tss bronnen
o Belangrijk: brede opzet v ozpapers
Inspanningen om ook primaire data uit
onderzoeksdatabanken te ontsluiten
Vb. dmv technologieën als linked data
Centrale vragen voor volledig beeld
o Wat zoeken we?
o Waar zoeken en vinden?
o Hoe zoeken?
o Hoe ordenen?
1.1.1. Verwerken van data en informatie
Computationele technieken binnen de taalkunde:
= corpuslinguïstiek & ontwikkeling v NLP-toepassingen (natural language processing)
Keyword analysis
Collocation analysis
Machine translation
Question answering
, Named enity recognition
Sentiment analysis
Distributional semantics
Lectomatrische analyse
Distant reading, stylometrie
(handboek p. 35-36)
Digital humanities:
= onderzoek op snijvlak van geesteswetenschappen en computerwetenschappen terug
te vinden in alle mogelijke onderzoeksvelden zoals geschiedneis, musicologie...
Gebruik van heterogene data: tekstfragmenten, audio, video, afbeeldingen
Gebruik van innovatieve technieken: datavisualisatie, social network analysis,
geographic information systems
Gemeenschappelijk: verandering v onderzoeksparadigma’s
vb. schaal waarop data kunnen worden benaderd
Distant reading: motieven, thema’s, genrekenmerken, andere fenomenen die worden
uitgedrukt in teksten w bestudeerd obv grote verzamelingen teksten
diachrone veranderingen in kaart brengen
Close reading: lezen met oog voor detail obv # teksten (vb. essay of roman)