CADC samenvatting
Lecture 1 - Introduction Computational Methods in CS
Wat zijn Computationele Sociale Wetenschappen?
Computationele Sociale Wetenschappen (CSW) combineren traditionele sociale wetenschappen
met grote datasets en algoritmische tools om menselijk gedrag beter te begrijpen. Een voorbeeld
hiervan is een studie in Rwanda, waar onderzoekers rijkdom en armoede onderzochten door
traditionele enquêtes te combineren met gegevens van belrecords van 1,5 miljoen mensen.
Hiermee konden ze, via machine learning, voorspellen welk welvaartsniveau iemand had op basis
van belgedrag en locatie-informatie.
Belangrijke Technieken in CSW:
In CSW wordt een breed scala aan methoden gebruikt om complexe gedrags- en sociale
patronen te analyseren, zoals:
• Data mining: Data mining is het proces waarbij grote hoeveelheden gegevens worden verzameld
en geanalyseerd om patronen, trends en relaties te ontdekken die anders verborgen zouden
blijven.
• Geautomatiseerde tekst- en beeldanalyse: Geautomatiseerde tekst- en beeldanalyse maakt
gebruik van algoritmes en technieken om informatie uit tekst en beeld te extraheren en te
interpreteren zonder menselijke tussenkomst. Bijvoorbeeld voor sentimentanalyse of
gezichtsherkenning.
• Machine learning: Machine learning is een deelgebied van kunstmatige intelligentie waarbij
systemen worden getraind om patronen te herkennen en beslissingen te nemen op basis van
data. Door algoritmes te trainen met historische gegevens kunnen deze systemen
voorspellingen maken (zoals een productaanbeveling) of gegevens classi ceren (zoals het
detecteren van spam in e-mails). Toepassingen voor voorspelling en classi catie.
• Actor-based modeling: Simulatie van sociale gedragingen, zoals informatieverspreiding binnen
netwerken. Actor-based modeling is een simulatiemethode die wordt gebruikt om sociale
interacties en gedragingen te begrijpen door het gedrag van individuele actoren binnen een
netwerk te modelleren. Elke "actor" (zoals een persoon, organisatie of groep) heeft speci eke
kenmerken en gedragsregels. In simulaties wordt nagebootst hoe deze actoren informatie delen,
samenwerken of concurreren, wat helpt bij het bestuderen van processen zoals de verspreiding
van nieuws of innovaties binnen sociale netwerken.
Waarom CSW steeds belangrijker wordt:
• Enorme hoeveelheden digitaal beschikbare data, variërend van sociale mediaberichten en
andere digitale sporen tot webarchieven en recent gedigitaliseerde kranten en andere
historische archieven.
• Op grote schaal worden voortdurend gegevens (big data) van personen of bedrijven gecreëerd.
• Krachtige en relatief goedkope rekenkracht, en gebruiksvriendelijke infrastructuur voor het
verwerken van deze gegevens.
• Verbeterde tools voor data-analyse, waaronder netwerkanalysemethoden en automatische
tekstanalysemethoden zoals gesuperviseerde tekstclassi catie, topic modeling,
woordenbeddings en grote taalmodellen.
Kenmerken van Big Data:
Big data heeft enkele unieke kenmerken die CSW ondersteunen, maar ook uitdagingen met zich
meebrengen:
1. Big: Big data bevat enorme hoeveelheden informatie, wat het mogelijk maakt om zeldzame
gebeurtenissen te bestuderen en kleine verschillen te ontdekken.
2. Always-on: Big data-systemen verzamelen continu gegevens, wat het mogelijk maakt om
onverwachte gebeurtenissen in real-time te meten.
3. Nonreactive: Mensen zijn zich vaak niet bewust van dataverzameling, wat zorgt voor
“natuurlijk” gedrag.
4. Incomplete: Veel datasets missen speci eke informatie die onderzoekers graag zouden willen
gebruiken, omdat ze niet altijd voor onderzoek zijn ontworpen.
5. Inaccessible: Gegevens die door bedrijven en overheden worden verzameld, zijn vaak moeilijk
toegankelijk voor onderzoekers.
  fi fi fi fi fi
, 6. Non representative: Veel big data vertegenwoordigt niet de hele populatie, wat het moeilijk
maakt om resultaten breed toe te passen.
7. Drifting: Big data-systemen evolueren voortdurend, wat langetermijntrends moeilijker te
analyseren maakt.
8. Algorithmically confounded: Het gedrag dat in big data wordt vastgelegd, kan beïnvloed
worden door het ontwerp van het platform zelf.
9. Dirty: Big data bevat vaak onbelangrijke of ongewenste gegevens, zoals spam of vervuilde
informatie.
10. Sensitive: Veel big data bevat persoonlijke, gevoelige informatie.
Voor- en Nadelen van Computationele Methodes:
Kansen:
• Onderzoek naar werkelijk gedrag in plaats van zelfgerapporteerde gegevens.
• Inzicht in mensen binnen hun sociale context, in plaats van in een laboratorium.
• Grotere steekproeven maken sterkere conclusies mogelijk.
• Onverwachte patronen en inzichten kunnen worden ontdekt.
Uitdagingen:
• Complexe technieken, vaak moeilijk toe te passen.
• Gegevens zijn vaak in eigendom van bedrijven en niet openbaar toegankelijk.
• Steekproeven zijn vaak bevooroordeeld.
• Ontbrekende metadata maken interpretatie lastiger.
• Risico op ondoorzichtige modellen (“black box”), waar de werking moeilijk te verklaren is.
Conclusie
Computationele methoden vergroten de mogelijkheden voor onderzoek naar sociaal gedrag
aanzienlijk, maar vereisen een zorgvuldige omgang met data, ethiek en mogelijke vooroordelen.
Door traditionele methodes aan te vullen met nieuwe technieken, biedt CSW onderzoekers de
kans om het sociale gedrag van mensen in natuurlijke settings en op grote schaal te bestuderen.
Waarom computationele methoden belangrijk zijn voor communicatieonderzoek
De nitie
"Computationele Communicatiewetenschap (CCS) is de benaming voor het opkomende
vakgebied dat de inzet van computationele algoritmen onderzoekt voor het verzamelen en
analyseren van grote en vaak semi- of ongestructureerde datasets, met als doel het ontwikkelen
en testen van theorieën binnen de communicatiewetenschap."
Typische Onderzoeksgebieden. Onderzoek binnen CCS richt zich meestal op:
• Grote, complexe datasets die bestaan uit digitale sporen en andere "natuurlijk voorkomende"
data.
• Het gebruik van algoritmische oplossingen voor analyse (bijvoorbeeld machine learning, grote
taalmodellen).
• Het bestuderen van menselijke communicatie door communicatie-theorie toe te passen en te
testen.
Toepassingsgebieden binnen CCS:
• Politieke Communicatie
• Democratisering en polarisatie
• Haatspraak
• Gebruik van sociale media: volgen van feitelijk gebruik, verspreiding van gedrag, informatie of
emoties
• Gezondheidscommunicatie
• Verspreiding van gezondheidsinformatie online
• (Online) Journalistiek
• Nieuwsverslaggeving over meerdere decennia
• Gendergelijkheid
Voorbeelden van CCS-toepassingen
• Voorbeeld 1: Analyseren van Nieuwsverslaggeving. Jacobi en collega’s (2016) analyseerden de
verslaggeving over nucleaire technologie van 1945 tot 2014 in de New York Times. Met een
 fi
, dataset van 51.528 nieuwsverhalen (koppen en intro's), veel te veel voor handmatige codering,
gebruikten ze “LDA-topic modeling” om verborgen onderwerpen te ontdekken en hun
verschijning in de tijd te analyseren.
• Voorbeeld 2: Facebook Data voor Persoonlijkheidsvoorspelling. Kosinski en collega’s (2013)
onderzochten een dataset van meer dan 58.000 vrijwilligers die hun Facebook-likes,
gedetailleerde demogra sche gegevens en psychometrische testresultaten deelden. Ze konden
aantonen dat men via eenvoudige Facebook-likes persoonlijke kenmerken en
persoonlijkheidstrekken kan voorspellen.
• Voorbeeld 3: Genderrepresentatie op TV. Vrouwen bleven gemiddeld ondervertegenwoordigd op
TV, met 6,3 miljoen vrouwelijke gezichten van de 16 miljoen in totaal (geschatte verhouding .39,
95% betrouwbaarheidsinterval: .37-.42). Deze sterke genderbias was terug te zien in speci eke
subgroepen (nieuws, sport, reclame, etc.).
De basis van de cursus: geautomatiseerde tekstanalyse
Een “nieuw” type data. Veel communicatie is vastgelegd in teksten, maar tekst verschilt van data
die gemakkelijk te analyseren is.
Traditionele Tekstanalyse
1. Kies de teksten met de inhoud die je wilt analyseren.
2. Bepaal analyse-eenheden en -categorieën.
3. Beschrijf categorieën en ontwikkel regels voor
handmatige codering.
4. Codeer de tekst volgens deze regels, wat meestal
veel handwerk vereist.
5. Analyseer en herwerk codes en regels, en voer de
analyse opnieuw uit.
6. Onderzoek frequenties, relaties, verschillen en
overeenkomsten tussen eenheden/codes.
• Probleem: Het handmatig coderen kost veel tijd, en
er zijn vaak meer teksten dan mensen aankunnen.
De nitie van Tekstanalyse Volgens Krippendor (2004):
“Tekstanalyse is een onderzoekstechniek voor het maken van herhaalbare en geldige conclusies
vanuit teksten (of andere betekenisvolle materie) naar de contexten waarin ze worden gebruikt.”
Symbolen en Betekenis Tekst bestaat uit symbolen die op zichzelf geen betekenis hebben. Een
symbool is een teken, woord of merkteken dat een idee, object of relatie vertegenwoordigt. Pas in
een speci eke context krijgt een tekst betekenis.
Uitdaging bij Automatische Tekstanalyse: De kloof overbruggen tussen symbolen en
betekenisvolle interpretatie.
Het Begrijpen van Taal Volgens Hvitfeldt & Silge (2021) brengen we in natuurlijke taalverwerking
(NLP) aannames over taal mee, die invloed hebben op hoe we taal modelleren. Deze kennis kan
onze modellen verbeteren, zelfs als onze inzichten beperkt of onnauwkeurig zijn.
Kort Overzicht van de Taalkunde
Verschillende vakgebieden binnen de
taalkunde analyseren hoe taal georganiseerd
is. Bij tekstanalyse worden deze lagen van
organisatie gebruikt om kenmerken te creëren
(bijv. tokens, n-grams).
In klassieke machine learning wordt vaak gekeken naar morfologische kenmerken, zoals het
opsplitsen van tekst in letters, woorden of zinnen. Moderne benaderingen (bijvoorbeeld grote
taalmodellen) betrekken ook syntactische en pragmatische kenmerken, en bij audiotekst-
omzetting zelfs fonetische of fonologische eigenschappen.
 fi fi fi ff fi
, Morfologie
Bij het bouwen van tekstclassi catiemodellen gebruiken we deze lagen om kenmerken te creëren
die als voorspellers voor de modellen dienen. Welke kenmerken we extraheren hangt vaak af van
morfologische aspecten, zoals het opsplitsen van tekst in karakters of woorden. De ambiguïteit en
regels van taal beperken
echter onze mogelijkheden
om tekstkenmerken te
maken voor machine
learning.
Van Tekst naar Getallen
In geautomatiseerde tekstclassi catie gebruiken we inzichten uit de morfologie (en andere
taalkundige velden) om tekst in tokens te splitsen en die tokens te vertalen naar getallen, zodat
een computer ze kan verwerken.
Work ow voor Algemene Tekstclassi catie
Doel: Het labelen (of annoteren) van voorheen niet-gelabelde tekst, zoals een zin, alinea, of
volledige tekst (bijv. met onderwerp of sentiment). Hoewel de speci eke methoden kunnen
verschillen, blijven de vier hoofdfasen meestal hetzelfde.
1. Obtaining text (verkrijgen van tekst)
• Publiek beschikbare datasets: Bijv. politieke teksten, nieuws; handig als beschikbaar, maar vaak
niet toegankelijk.
• Scraping van primaire bronnen: Bijv. persberichten of archieven van websites; kan eenvoudig of
complex zijn, afhankelijk van de website, en vereist juridische controle.
• Propriëtaire teksten van derden: Bijv. digitale archieven of sociale media API's; vaak met
speci eke formaten en gebruiksvoorwaarden die onderzoek kunnen beperken.
  fifl
fi fi fi fi