DIGITAL METHODS 2022
Prof. Mariek Vanden Abeele & Prof. Ralf De Wolf
3de Bachelor Communicatiewetenschappen
1
, LECTURE 2 22/02: COMPUTATIONAL SOCIAL SCIENCE AND OPEN SCIENCE
Computational communication science studies:
(1)large and complex data sets;
(2)consisting of digital traces and other “naturally occurring” data;
(3)requiring algorithmic solutions to analyze;
(1)allowing the study of human communication by applying and testing communication theory
1. OPPORTUNITIES OF COMPUTATIONAL SCIENCE FOR COMMUNICATION
SCIENCE
a. From self-report to real data
ESTIMATE:
- How much time did you spend on your smartphone yesterday?
CHECK (IoS screen time/Android digital wellbeing)
- How accurate was your estimate?
- We zijn als communicatiewetenschappers typisch
geïnteresseerd in het gedrag van media gebruikers, maar
mensen zijn niet goed in self-reporting/zichzelf inschatten.
- We willen ook sociaal wenselijke antwoorden geven
=> Individual Pearson’s r estimates are depicted by filled squares
whose size indicates the relative weight of each effect size estimate in
the meta-analysis. The filled diamond represents the overall
summary effect size (r = 0.38, 95% CI 0.33–0.42, P < 0.001). The error
bars and diamond width represent the 95% CIs for the effect sizes.
The dashed reference line at the intercept for r = 0.5 represents the
point from which the magnitude of the association would be
sufficient to conclude that the measures are appropriate substitutes
for one another.
- Little black squares tonen het echte smartphones behavior
en de voorspelde. Soms is het 0 of negatief. Hoe meer mensen zeggen dat ze het
gebruiken hun telefoon hoe minder ze hun telefoon eigenlijk gebruiken.
- Waarom gebruiken we self-report dan want mensen kunnen het niet goed?
2
, b. From self-report to real behavior
Problems of self-report
1. Social desirability problems (cf. non-reactive) → als mensen weten dat ze worden in de
gaten gehouden gaan ze sociaal wenselijk gedragen. Als ze niet weten dat ze gelogd
worden zou dat beter zijn.
2. imperfect estimates
= These imperfections can lead to bias! Je gaat meer biased results hebben als je
met self-reporting data gaat werken. Ze gaan veel negatieve associaties gaan
vinden. Maar met die computational turn, gaan we minder negatieve associations
gaan vinden. Als je zelfrapportering doet moet je in je herinneringen gaan zoeken
en soms ga je dat niet meer terugvinden. Voor sommige events is het moeilijk to
recall your behavior. Huge benefit computational science → we go to REAL
behavior and not self reporting.
BUT ALSO: We can examine human communication phenomena with new
perspectives! We hebben ook meer details in onze data.
- Afbeelding links: met logdata ga je meer gedetailleerde info gaan
krijgen.
- New kinds of variables are build on new variables
- Nu kunnen we ook gedragspatronen gaan afleiden.
- Relations between data kunnen we ook gaan doen
- E.g., temporal dynamics ‘burstiness’ (cf. class1: always-on)
- E.g., Relations between data Rfacebook
- We kunnen data gaan scrapen op Facebook → network creeren
met je eigen facebook profiel.
- Research Rabbit: network plots gaan maken van verschillende
papers. Je kan zo een paper ingeven en dan zie je welke auteurs
er meest zijn gebruikt in de paper van iemand en zo een netwerk
vormen welke auteurs bekend staan voor datzelfde onderwerp.
Especially relevant for communication scientists:
- Combine ‘digital traces’/big data with survey data to
get a more sophisticated measurement of media
consumption and effects
- Verschillende soorten data gaan combineren.
- Progrestination: uitstellen gaan combineren met
smartphone behavior. Kijken of studenten hun gsm
gebruiken ookal hebben ze verschillende taken te
doen.
- Difficulties: graphs lezen is moeilijk bij computational science.
- Stippellijn: zero; geen correlatie, actual correlation is grijze vage lijn. Dus er was een
positieve correlatie.
3
,c. From lab experiments to studies of the actual social environment
“By observing actual behavior in the social environment, and if possible of a whole network of
connected people, we get a better measurement of how people actually react, rather than of how
they (report or intent to) react in the artificial isolation of the lab setting”
- We kunnen lab experimenten naar de echte wereld brengen, how people really behave
- Altijd een probleem in labs over environmental validity
- Zonder dat we het weten is het vaak mogelijk dat we deel zijn van een groot big data
experiment
d. Studies of the actual social environment
- Onderzoekers waren hier geïnteresseerd of nieuws mensen hun mening gaat veranderen
online;
e. From small-N to large-N
- Recap: what is an effect size:
Imagine that you conduct a study on how much local and
international students differ in the number of hours that
they study per week. The results of your study reveal:
Local students: 24h 20min
International students: 24h 26min
t(9998) = 2.984, p < .001
Cohen’s d = 0.2
Or the results of your study reveal:
Local students: 20h 20min
International students: 28h 26min
t(9998) = 2.984, p < .001
Cohen’s d = 2
→ Statistically significant ≠ meaningful…
- Je shift eigenlijk naar een grote sample size, in een lab is dit altijd kleiner
- Je hebt heel grote samples nodig bij computational science
4
, - Cohen’s d value? Is 2? Toont een SMALL effect, het is significant maar dat gaat er
niet van uit dat het heel meaningfull is. De grote van het effect is maar klein en
betekenisloos.
- Als je met hééél veel mensen gaat werken zoals
miljoenen mensen dan kunnen kleine effecten
wél grote dingen doen!
- But in large N studies…Small effects become
meaningful!
- Shift van kleine N naar grote N is heel
meaningful voor researchers.
f. From solitary to collaboratively
1. Access to data
e.g. collab with Meta
- Meer collaborative research
- Als je aan data wilt raken moet je toegang hebben van bepaalde bedrijven
- Veel bedrijven/onderzoekers willen samenwerken met Meta, maar Meta is very
protective. Ze willen een stem in wat er gebeurd met de data.
- Je kan ook access van data krijgen van kleinere bedrijven zoals bv. BedNet in
België. Veel bedrijven hebben data, dus in je masterproef kan je dit vragen aan
bedrijven. Dit kan interessant zijn voor research questions.
2. Access to skills
→ it is very hard for any individual researcher to possess all the skills and resources needed to
deal with larger data sets and more complex computational techniques
→ Interdisciplinary collaboration is therefore needed
→ For example, measurements and analysis methods from neuroscience are being increasingly
used in analyzing communication processes (Falk, Cascio, & Coronel, 2015; Weber, Mangus, &
Huskey, 2015). Agent-based modeling uses computer models and empirical data to facilitate
theory building (Palazzolo, Serb, She, Su, & Contractor, 2006).
- Scratching the surface in dit vak
- Meer dan 8 jaar nodig om een goede researcher te worden, deep learning networks
maken bijvoorbeeld.
5
,2. CHALLENGES OF COMPUTATIONAL SCIENCE FOR COMMUNICATION SCIENCE
a. ACCESSIBILITY OF DATA
How can we make and keep datasets accessible?
- Working with big data requires big data… And there are heaps of it out there! But
access?!
- Toegankelijkheid van data sets:
- Er is echt extreem veel data, als meta het gewoon zou geven zou dat echt
interessant zijn voor de wetenschappelijke wereld. Maar Meta gaat gatekeeping.
- Acces problems
Access problems:
- Many of the “big data” sets are proprietary - access is a ‘privilege’ that most
communication researchers do not enjoy, and reproducibility impossible
- Those who have a privilege, typically have this privilege for one platform only; this leads
to a lack of “panoramic understanding of users behavior on social media as a holistic
ecosystem and increases generalizability problems”
- Big datasets are often already ‘pre-processed’ (sampling, aggregation, and other
transformation imposed on the released data is a black box)
- Soms als je toegang hebt, blijft het beperkt.
- Vaak heb je ook niet de ruwe data, maar is het al biased.
- Transparante data zou echt handig zijn → open science zorgt ervoor dat het transparant
zijn, open, ..
→ We need to make sure our data is open and transparent, and to make sure that research is
not reserved to the privileged few who have the network or resources to acquire data sets. To
do this, is is vital that we stimulate sharing and publishing data sets. Where possible these
should be fully open.
b. QUALITY OF BIG DATA
Big data are often secondary ‘found’ data rather than ‘made’ data; i.e., they are often not
specific to the purpose of the inquiry
- Quality problems:
̶The gap between the primary purpose intended for big data and the secondary purpose found
for big data will pose threat to the validity of design, measurement, and analysis in
computational communication research.
̶- Non-representative for a certain population and/or very limited information to assess
(un)representativeness
E.g., twitter: “specialized” actors on social media, such as issue experts, professionals, and
institutional users, are over-represented while the ordinary publics are under-represented in
computational research, which leads to a sampling bias to be carefully handled in empirical
studies.
̶p-values are less meaningful as a measure of validity
- Big data is niet altijd high quality data, het past niet altijd bij wat je zoekt
6
, - Het is niet altijd representatief. BV; bij Twitter niet iedereen zit op Twitter, vaak
politiekers etc.
- Altijd goed naar de validity gaan bekijken.
- Kijken we naar 1 platform of meerdere platforms?
- Poor quality data → poor quality results
Size of data is neither a sign of validity nor of invalidity of the conclusions. Rather, we
should focus more on substantive effect size and validity.
c. VALIDITY AND RELIABILITY
Reliability: measurement error
If you measure with a different instrument,
do you arrive at the same conclusions? How
well do u measure. Accuraat, op de target
zijn, close to the target. Als je opnieuws gaat
meten ga je altijd hetzelfde resultaat hebben.
Validity: are you measuring what you want to measure?
- E.g., the use of semantic dictionaries…
Different dictionaries produce different results
- E.g., the use of semantic dictionaries…
How sure are you that you capture what you
intend to capture?
- Random maar je gaat wel in een bepaalde
patroon gaan zitten.
- Er zijn enorm veel technieken in
R-programma. Gaan al deze instrumenten
naar dezelfde conclusie?
- Probleem van reliability: different instruments leiden naar andere zaken. (zie foto van
dieren)
- Hoe ben je zeker dat je data reliable, valid,..
Ultimately, … computational science relies on:
- the use of tools that have been created by humans,
- that are then applied in a certain context by humans (making choices: how, when, why, …),
- With humans eventually interpreting findings using their knowledge and frame of reference
Researchers need to consider how well the tools they use will perform in a specific
domain and on a specific task; A culture of sharing and reusing tools and methods and
publishing the source code and validation sets of tools helps foster continuous and
collaborative improvements.
7