100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached
logo-home
Samenvatting L-Data $6.10   Add to cart

Summary

Samenvatting L-Data

 27 views  1 purchase
  • Course
  • Institution

Samenvatting lesnotities en handboek L-DATA

Preview 10 out of 142  pages

  • January 4, 2023
  • 142
  • 2022/2023
  • Summary
avatar-seller
• Data voorbereiden; structureren en modelleren van gegevens, omgaan met ontbrekende of
foutieve gegevens, werkinstrument SQL

• Data visualiseren; gegevens grafisch voorstellen en verkennende analyses uitvoeren;
rekenbladen (Excel) + beeldbewerkingssoftware

• Data analyseren; dieper duiken in gegevens, analyse van teksten (AntConc, Voyant, Ngram
Viewer)

• Data delen; gegevens ‘publiceren’ op het web, optreden als auteur op het web (HTML, CSS)



1.DIKW-Piramide (data, informatie, kennis, wijsheid)
Een nieuwe onderzoeksmethode leren = nieuwe terminologie
 In de digitale wereld wordt gesproken
over manuscripten, romans, woordenlijsten, schilderijen of
muziekstukken in termen van ‘data’
 Die data worden met technologische
hulpmiddelen omgezet in ‘informatie’ die de basis vormt voor nieuwe
kennis en ideeën
 ‘Big data’
 Big news: gehypte terminologie die met
nodige kritische zin moet worden benaderd
 Big business: praktische aangelegenheid die onderzoeksdomeinen en
 -instellingnen voortdurend verandert

, 1.1. De piramide




1.2. Wat zijn data?
Data
= ‘Gegevens’

 Representaties van feiten
 We creëren data wanneer we vastleggen wat we observeren
of wanneer we objecten presenteren


Onderzoeksdata
= representaties van observaties, objecten of andere entiteiten die
worden gebruikt als bewijs voor fenomenen binnen
wetenschappelijk onderzoek.


 Zowel ‘materieel’ als digitaal
 Een en dezelfde entiteit kan bewijs = voor # fenomenen en dus als
data fungeren binnen # onderzoeksprojecten

o Corpus v 19e E roman

• Literatuurwetenschappers: bewijs ° bepaalde genres

• Taalkundigen: bewijs voor taalverandering

o Historische portretfoto

• Cultuurhistoricus: levensloop person

,• Mediahistoricus:technologische ontwikkelingen

Eigenschap: Resultaat van codering

 Vastgelegd op bepaald medium/drager

 Kunnen in # vormen w opgeslagen

o Laat toe om gegevens later uit te lezen

Vb. op harde schrijf v computer om te tonen op scherm: data zijn
resultaat v het uitlezen

o Zelfde gegevens kunnen in # media w opgeslagen

• Belang v binaire code: gegevens als reeksen v 1 & 0

• Zelfde gegevens op USB/harde schijf/cloud

 Serialisatie = proces waarbij gegevens in digitale (binaire) vorm w opgeslagen

o Op een opslagmedium

o Of verstuurd via netwerk


1.1.1. Soorten data
Verschillende soorten gegevens in de geesteswetenschap. Deze kunnen
op uiteenlopende manieren worden opgeslagen in databanken/andere
informatiesystemen. We maken een praktisch onderscheid:
 Primaire data (= declaratieve data) zijn de data zoals ze zijn
ingegeven in het systeem
(indien ontbreken: missing data)
 Afgeleide data (= procedurele data) zijn data die worden
verkregen op basis van context en primaire data,
vb. uit combinaties van data, logische afleidingen of wiskundige
berekeningen
 Metadata (‘data over data’) beschrijven eigenschappen zoals
plaats, formaat en beschikbaarheid van de data. Hiervoor bestaan
veel standaarden (bv DCMI, MARC)
Vb. auteur, docxbestandtype
 Operationele data zijn gegevens over de verrichtingen en

, prestaties van een informatiesysteem
Vb. excel geeft foutmelding indien niet juiste vorm ingegeven


Ook kunnen gegevenstypes onderscheiden w op basis van:
 Gegevensbron
o Data zelf aangemaakt?
o Hergebruik van gegevens v anderen?
 Bestandsformaat
o Benodigde opslagruimte
o Duurzaamheid v gegevens
 Manier waarop gegevens zijn aangemaakt/verzameld
o Vb. observaties
o Vb. experimenten
 Voorwaarden waaronder gegevens mogen w gedeeld
o Copyright
o Open data

Of er wordt een onderscheid gemaakt in de structuur van de gegevens:
 Gestructureerde data: vast, herkenbaar patroon
Vb. lijsten, tabellen, resultaten v enquetes...
 Ongestructureerde data: structuren & patronen kunnen worden
blootgelegd adhv dataverwerkingstechnieken

Vb. doorlopende teksten

<-> nooit volkomen ongestructureerd, maar structuur kan impliciet zijn!




1.1.1. Data als basis voor onderzoek
= onderzoek naar manieren om gegevens te beheren en te analyseren & data om te zetten
naar informatie
 Data science: snijvlak v computerwetenschappen/statistiek/etc.
 Artificial intelligence
 Machine learning
1.1. Wat is informatie?
Data vormen de basis voor informatie →informatie kan

, worden omschreven als gegevens die betekenisvol of
nuttig zijn.

 Gegevens worden informatie wanneer ze antwoord geven op
een specifieke vraag.

Vb. gegevens in vorm v teksten in een corpus v 19 e E romans w
informatie

o Student herkent ze als literaire teksten die iets vertellen over
genres

o Student herkent ze als brom om taalverandering in kaart te
brengen

 Gegevens kunnen worden geordend en gegroepeerd zodat
een student of onderzoeker er informatie uit kan halen.

o Een computer kan hulpmiddel zijn als systeem waarin
onderliggende gegevens w samengebracht/gesorteerd/
getransformeerd  eindgebruiker informatie krijgt

Vb. combinatie v cijfers w herkend als telefoonummer (obv
context)

o De interne computerprocessen spelen zich af op twee niveaus:

 Data retrieval: juiste gegevens identificeren en ophalen
 Information retrieval: relevante informatie filteren en
tonen aan de gebruiker


Verschillende disciplines hanteren het begrip informatie op verschillende manieren

,Claude Shannon: A Mathematical Theory of Communication =
informatieve waarde v een bepaald fenomeen ligt hoger of lager
naargelang onzekerheid wegneemt


<-> Maar grenzen tussen disciplines en benaderingen van
informatie zijn eerder vaag.



1.1. Informatie en kennis




Voorwaarden voor kennisverwerving

= in geesteswetenschappen via wetenschappelijke artikels, monografieën,
handboeken...

1. Informatie moet je beereken

2. Je moet informatie kunnen begrijpen

3. Je moet goede redenen hebben om te geloven dat informatie waar is

Problemen bij kennisverwerving

,  Veelheid: online databanken  vlot!
o Moeilijk overzicht relevante publicaties

o Doorslaggevende info in publicaties met minder blootstelling

 Ruis/bias: informatie via sociale media
o Relevante info <-> ruis

o Web = onderhevig aan bias = verkeerde/misleidinde en gekleurd
informatie
Drie types informatie:
 Feitelijke informatie = informatie die ook waar is
 Desinformatie = informatie die bewust foutief is
 Misinformatie = informatie die onbewust foutief is
Groot informatie-aanbod heeft voor- en nadelen → belang goede
informatievaardigheden
Valkuilen van groot informatie-aanbod: vb. grijze literatuur
o Overvloed aan informatie kan illusie wekken geïnformeerd te zijn
o Sneller tot (foute) conclusies komen wanneer we alles bij de hand
denken te hebben
o Ook problemen aan kant van informatieverwerking: zoekmachines
houden klikgedrag en zoekgeschiedenis bij en passen resultaten aan aan
voorkeuren en standpunten
= Information bubble / filter bubble


Mogelijkheden en kansen van groot informatie-aanbod:
- Fenomenen vanuit verschillende invalshoeken benaderen
- Rol digitale onderzoeksmethoden en dataverwerkingstechnieken
o Tekst mining of sentiment mining
= posts op sm automatisch classificeren
o Publicaties screenen en classificeren mbhv algoritmes
o Neutral zoekmachines gebruiken

, Vb. Ixquick, DuckDuckGo


Kennis ~ praktische vaardigheden
 Studeren en onderzoek doen zijn processen waarbij je jezelf
inschrijft in een netwerk van kennis:
o Delen van informatie op het web
o ‘Gelezen’ door zowel mensen als machines (algoritmes)
o Verschillende fasen van onderzek worden ondersteund door
computationele processen
 Door kennisinhoud beter te kunnen plaatsen, wordt jouw
interpretatie ervan betrouwbaar: op een inzichtelijke manier omgaan
met kennis & correct kunnen handelen of beslissingen nemen = wijsheid


⇨ Data, informatie en kennis zijn nauw met elkaar vervlochten
⇨ Digitale toepassingen als verbindend element




1.1. De computer in de geesteswetenschappen
Opmars informatietechnologie heeft gezorgd voor softwaretoepassingen
die nuttig zijn voor geestenswetenschappers e.a. Algemeen onderscheid:
 Software en toepassingen voor analyse van tekstuele data
Vb. onderzoek naar talen & literaire teksten
 Software en toepassingen voor de analyse van
geluiden, beelden en andere niet-textuele data

Vb. onderzoek naar artefacten & tastbare objecten
 Kruisbestuivingen mogelijk en wenselijk

,Tendensen binnen gebruik van de computer in de geesteswetenschappen:
- Bestaand onderzoek kan worden ondersteund en verdergezet

- Ontstaan van nieuwe onderzoeksparadigma’s en subdisciplines


1.1.1. Digitale bibliotheek als spil
 Full text-databanken en digitaal geïntegreerde bibliotheekcatalogi

 Zoektermen in de tekst van documenten
o Kruisverbanden tss bronnen

o Belangrijk: brede opzet v ozpapers
 Inspanningen om ook primaire data uit
onderzoeksdatabanken te ontsluiten

Vb. dmv technologieën als linked data

 Centrale vragen voor volledig beeld

o Wat zoeken we?

o Waar zoeken en vinden?

o Hoe zoeken?

o Hoe ordenen?




1.1.1. Verwerken van data en informatie
Computationele technieken binnen de taalkunde:
= corpuslinguïstiek & ontwikkeling v NLP-toepassingen (natural language processing)

 Keyword analysis

 Collocation analysis

 Machine translation

 Question answering

,  Named enity recognition

 Sentiment analysis

 Distributional semantics

 Lectomatrische analyse

 Distant reading, stylometrie

(handboek p. 35-36)

Digital humanities:
= onderzoek op snijvlak van geesteswetenschappen en computerwetenschappen terug
te vinden in alle mogelijke onderzoeksvelden zoals geschiedneis, musicologie...

 Gebruik van heterogene data: tekstfragmenten, audio, video, afbeeldingen

 Gebruik van innovatieve technieken: datavisualisatie, social network analysis,
geographic information systems

Gemeenschappelijk: verandering v onderzoeksparadigma’s
vb. schaal waarop data kunnen worden benaderd

 Distant reading: motieven, thema’s, genrekenmerken, andere fenomenen die worden
uitgedrukt in teksten w bestudeerd obv grote verzamelingen teksten
 diachrone veranderingen in kaart brengen

 Close reading: lezen met oog voor detail obv # teksten (vb. essay of roman)

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

Quick and easy check-out

You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller vknn. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $6.10. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

77764 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy study notes for 14 years now

Start selling
$6.10  1x  sold
  • (0)
  Add to cart