Samenvatting

Samenvatting L-Data

29 keer bekeken 1 keer verkocht

Vak
L-dataverwerking

Instelling
Katholieke Universiteit Leuven (KU Leuven)

Samenvatting lesnotities en handboek L-DATA

[Meer zien]

Voorbeeld 10 van de 142 pagina's

Bekijk voorbeeld

Geupload op 4 januari 2023
Aantal pagina's 142
Geschreven in 2022/2023
Type Samenvatting

Volgen

vknn Lid sinds 2 jaar 62 documenten verkocht

• Data voorbereiden; structureren en modelleren van gegevens, omgaan met ontbrekende of
foutieve gegevens, werkinstrument SQL

• Data visualiseren; gegevens grafisch voorstellen en verkennende analyses uitvoeren;
rekenbladen (Excel) + beeldbewerkingssoftware

• Data analyseren; dieper duiken in gegevens, analyse van teksten (AntConc, Voyant, Ngram
Viewer)

• Data delen; gegevens ‘publiceren’ op het web, optreden als auteur op het web (HTML, CSS)

1.DIKW-Piramide (data, informatie, kennis, wijsheid)
Een nieuwe onderzoeksmethode leren = nieuwe terminologie
 In de digitale wereld wordt gesproken
over manuscripten, romans, woordenlijsten, schilderijen of
muziekstukken in termen van ‘data’
 Die data worden met technologische
hulpmiddelen omgezet in ‘informatie’ die de basis vormt voor nieuwe
kennis en ideeën
 ‘Big data’
 Big news: gehypte terminologie die met
nodige kritische zin moet worden benaderd
 Big business: praktische aangelegenheid die onderzoeksdomeinen en
 -instellingnen voortdurend verandert

, 1.1. De piramide

1.2. Wat zijn data?
Data
= ‘Gegevens’

 Representaties van feiten
 We creëren data wanneer we vastleggen wat we observeren
of wanneer we objecten presenteren

Onderzoeksdata
= representaties van observaties, objecten of andere entiteiten die
worden gebruikt als bewijs voor fenomenen binnen
wetenschappelijk onderzoek.

 Zowel ‘materieel’ als digitaal
 Een en dezelfde entiteit kan bewijs = voor # fenomenen en dus als
data fungeren binnen # onderzoeksprojecten

o Corpus v 19e E roman

• Literatuurwetenschappers: bewijs ° bepaalde genres

• Taalkundigen: bewijs voor taalverandering

o Historische portretfoto

• Cultuurhistoricus: levensloop person

,• Mediahistoricus:technologische ontwikkelingen

Eigenschap: Resultaat van codering

 Vastgelegd op bepaald medium/drager

 Kunnen in # vormen w opgeslagen

o Laat toe om gegevens later uit te lezen

Vb. op harde schrijf v computer om te tonen op scherm: data zijn
resultaat v het uitlezen

o Zelfde gegevens kunnen in # media w opgeslagen

• Belang v binaire code: gegevens als reeksen v 1 & 0

• Zelfde gegevens op USB/harde schijf/cloud

 Serialisatie = proces waarbij gegevens in digitale (binaire) vorm w opgeslagen

o Op een opslagmedium

o Of verstuurd via netwerk

1.1.1. Soorten data
Verschillende soorten gegevens in de geesteswetenschap. Deze kunnen
op uiteenlopende manieren worden opgeslagen in databanken/andere
informatiesystemen. We maken een praktisch onderscheid:
 Primaire data (= declaratieve data) zijn de data zoals ze zijn
ingegeven in het systeem
(indien ontbreken: missing data)
 Afgeleide data (= procedurele data) zijn data die worden
verkregen op basis van context en primaire data,
vb. uit combinaties van data, logische afleidingen of wiskundige
berekeningen
 Metadata (‘data over data’) beschrijven eigenschappen zoals
plaats, formaat en beschikbaarheid van de data. Hiervoor bestaan
veel standaarden (bv DCMI, MARC)
Vb. auteur, docxbestandtype
 Operationele data zijn gegevens over de verrichtingen en

, prestaties van een informatiesysteem
Vb. excel geeft foutmelding indien niet juiste vorm ingegeven

Ook kunnen gegevenstypes onderscheiden w op basis van:
 Gegevensbron
o Data zelf aangemaakt?
o Hergebruik van gegevens v anderen?
 Bestandsformaat
o Benodigde opslagruimte
o Duurzaamheid v gegevens
 Manier waarop gegevens zijn aangemaakt/verzameld
o Vb. observaties
o Vb. experimenten
 Voorwaarden waaronder gegevens mogen w gedeeld
o Copyright
o Open data

Of er wordt een onderscheid gemaakt in de structuur van de gegevens:
 Gestructureerde data: vast, herkenbaar patroon
Vb. lijsten, tabellen, resultaten v enquetes...
 Ongestructureerde data: structuren & patronen kunnen worden
blootgelegd adhv dataverwerkingstechnieken

Vb. doorlopende teksten

<-> nooit volkomen ongestructureerd, maar structuur kan impliciet zijn!

1.1.1. Data als basis voor onderzoek
= onderzoek naar manieren om gegevens te beheren en te analyseren & data om te zetten
naar informatie
 Data science: snijvlak v computerwetenschappen/statistiek/etc.
 Artificial intelligence
 Machine learning
1.1. Wat is informatie?
Data vormen de basis voor informatie →informatie kan

, worden omschreven als gegevens die betekenisvol of
nuttig zijn.

 Gegevens worden informatie wanneer ze antwoord geven op
een specifieke vraag.

Vb. gegevens in vorm v teksten in een corpus v 19 e E romans w
informatie

o Student herkent ze als literaire teksten die iets vertellen over
genres

o Student herkent ze als brom om taalverandering in kaart te
brengen

 Gegevens kunnen worden geordend en gegroepeerd zodat
een student of onderzoeker er informatie uit kan halen.

o Een computer kan hulpmiddel zijn als systeem waarin
onderliggende gegevens w samengebracht/gesorteerd/
getransformeerd  eindgebruiker informatie krijgt

Vb. combinatie v cijfers w herkend als telefoonummer (obv
context)

o De interne computerprocessen spelen zich af op twee niveaus:

 Data retrieval: juiste gegevens identificeren en ophalen
 Information retrieval: relevante informatie filteren en
tonen aan de gebruiker


Verschillende disciplines hanteren het begrip informatie op verschillende manieren

,Claude Shannon: A Mathematical Theory of Communication =
informatieve waarde v een bepaald fenomeen ligt hoger of lager
naargelang onzekerheid wegneemt

<-> Maar grenzen tussen disciplines en benaderingen van
informatie zijn eerder vaag.

1.1. Informatie en kennis

Voorwaarden voor kennisverwerving

= in geesteswetenschappen via wetenschappelijke artikels, monografieën,
handboeken...

1. Informatie moet je beereken

2. Je moet informatie kunnen begrijpen

3. Je moet goede redenen hebben om te geloven dat informatie waar is

Problemen bij kennisverwerving

,  Veelheid: online databanken  vlot!
o Moeilijk overzicht relevante publicaties

o Doorslaggevende info in publicaties met minder blootstelling

 Ruis/bias: informatie via sociale media
o Relevante info <-> ruis

o Web = onderhevig aan bias = verkeerde/misleidinde en gekleurd
informatie
Drie types informatie:
 Feitelijke informatie = informatie die ook waar is
 Desinformatie = informatie die bewust foutief is
 Misinformatie = informatie die onbewust foutief is
Groot informatie-aanbod heeft voor- en nadelen → belang goede
informatievaardigheden
Valkuilen van groot informatie-aanbod: vb. grijze literatuur
o Overvloed aan informatie kan illusie wekken geïnformeerd te zijn
o Sneller tot (foute) conclusies komen wanneer we alles bij de hand
denken te hebben
o Ook problemen aan kant van informatieverwerking: zoekmachines
houden klikgedrag en zoekgeschiedenis bij en passen resultaten aan aan
voorkeuren en standpunten
= Information bubble / filter bubble

Mogelijkheden en kansen van groot informatie-aanbod:
- Fenomenen vanuit verschillende invalshoeken benaderen
- Rol digitale onderzoeksmethoden en dataverwerkingstechnieken
o Tekst mining of sentiment mining
= posts op sm automatisch classificeren
o Publicaties screenen en classificeren mbhv algoritmes
o Neutral zoekmachines gebruiken

, Vb. Ixquick, DuckDuckGo

Kennis ~ praktische vaardigheden
 Studeren en onderzoek doen zijn processen waarbij je jezelf
inschrijft in een netwerk van kennis:
o Delen van informatie op het web
o ‘Gelezen’ door zowel mensen als machines (algoritmes)
o Verschillende fasen van onderzek worden ondersteund door
computationele processen
 Door kennisinhoud beter te kunnen plaatsen, wordt jouw
interpretatie ervan betrouwbaar: op een inzichtelijke manier omgaan
met kennis & correct kunnen handelen of beslissingen nemen = wijsheid

⇨ Data, informatie en kennis zijn nauw met elkaar vervlochten
⇨ Digitale toepassingen als verbindend element

1.1. De computer in de geesteswetenschappen
Opmars informatietechnologie heeft gezorgd voor softwaretoepassingen
die nuttig zijn voor geestenswetenschappers e.a. Algemeen onderscheid:
 Software en toepassingen voor analyse van tekstuele data
Vb. onderzoek naar talen & literaire teksten
 Software en toepassingen voor de analyse van
geluiden, beelden en andere niet-textuele data

Vb. onderzoek naar artefacten & tastbare objecten
 Kruisbestuivingen mogelijk en wenselijk

,Tendensen binnen gebruik van de computer in de geesteswetenschappen:
- Bestaand onderzoek kan worden ondersteund en verdergezet

- Ontstaan van nieuwe onderzoeksparadigma’s en subdisciplines

1.1.1. Digitale bibliotheek als spil
 Full text-databanken en digitaal geïntegreerde bibliotheekcatalogi

 Zoektermen in de tekst van documenten
o Kruisverbanden tss bronnen

o Belangrijk: brede opzet v ozpapers
 Inspanningen om ook primaire data uit
onderzoeksdatabanken te ontsluiten

Vb. dmv technologieën als linked data

 Centrale vragen voor volledig beeld

o Wat zoeken we?

o Waar zoeken en vinden?

o Hoe zoeken?

o Hoe ordenen?

1.1.1. Verwerken van data en informatie
Computationele technieken binnen de taalkunde:
= corpuslinguïstiek & ontwikkeling v NLP-toepassingen (natural language processing)

 Keyword analysis

 Collocation analysis

 Machine translation

 Question answering

,  Named enity recognition

 Sentiment analysis

 Distributional semantics

 Lectomatrische analyse

 Distant reading, stylometrie

(handboek p. 35-36)

Digital humanities:
= onderzoek op snijvlak van geesteswetenschappen en computerwetenschappen terug
te vinden in alle mogelijke onderzoeksvelden zoals geschiedneis, musicologie...

 Gebruik van heterogene data: tekstfragmenten, audio, video, afbeeldingen

 Gebruik van innovatieve technieken: datavisualisatie, social network analysis,
geographic information systems

Gemeenschappelijk: verandering v onderzoeksparadigma’s
vb. schaal waarop data kunnen worden benaderd

 Distant reading: motieven, thema’s, genrekenmerken, andere fenomenen die worden
uitgedrukt in teksten w bestudeerd obv grote verzamelingen teksten
 diachrone veranderingen in kaart brengen

 Close reading: lezen met oog voor detail obv # teksten (vb. essay of roman)

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

√ Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper vknn. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €5,39. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 48298 samenvattingen verkocht

Opgericht in 2010, al 15 jaar dé plek om samenvattingen te kopen

Start met verkopen

Populaire universiteiten

Populaire hogescholen

Populaire studieboeken voor Communicatie en Taal

Populaire studieboeken voor Economie en Bedrijf

Populaire studieboeken voor Exact en Informatica

Populaire studieboeken voor Gedrag en Maatschappij

Populaire studieboeken voor Gezondheid en Geneeskunde

Populaire studieboeken voor Recht en Bestuur

Verkoper