Hoorcollege 9
CAREC/CARES Crowdsourced Algorithm of Reading
Comprehension / Speech
Coh-metrix levels - Surface level
- Textbase
- Situatiemodel
Surface level Zijn de woorden bekend en de zinnen niet te
ingewikkeld?
Tekstbase Sluiten de zinnen op elkaar aan, referentieel en
lexicaal?
Situatiemodel Wat voor situatie wordt er beschreven?
Temporele cohesie Zijn opeenvolgende hoofdwerkwoorden gelijk
qua tijd (tt, vt) en aspect (voltooid, onvoltooid)?
Hoge repetitiescore Indicatief voor consistentie
Lage repetitiescore Er zijn veel shifts
Intentionaliteit De handelingen van personen in dienst van het
bereiken van doelen
Intentionele partikels In order to, so that
Causaliteit Oorzaak-gevolgmechanismen in de wereld die
buiten deze doelen staan
Causale partikels Because, therefore
Lemmata Aantal tot woordenboekvorm hereleide types
N-gram Een venster dat je over de tekst heen schuift,
waarbij n correspondeert met de grootte van het
venster in aantal woorden
Beperkingen van het corpus - Alleen taal uit boeken
- Boeken worden niet gewogen naar hoe
wijd ze verspreid zijn en hoeveel ze
gelezen worden
- Niet geactualiseerd
- N-grams tot n = 5
College 8
Leesbaarheidsformule Flesch-Kincaid grade Zinslengte en woordlengte
level 0,39 (totaal woorden / totaal zinnen) + 11,8
(totaal lettergrepen / totaal woorden) – 11,59
Product tekstbegrip Kan de lezer een volledige en coherente mentale
representatie van de tekst maken?
Proces tekstbegrip Hoeveel moeite moet de lezer hiervoor doen?
Tekortkomingen leesbaarheidsformules - Predictoren zijn niet causaal relevant
- Zinslengte vs zinscomplexiteit
- Afhankelijkheidslengte zou beter zijn
- Je kunt de zinnen door elkaar husselen
zonder dat de leesbaarheidsscore
verandert.
- Negeert variatie binnen de tekst
- Voorkennis en vaardigheid lezer worden
genegeerd.
- Nader onderzoek is nodig om
moeilijkheid voor individuele lezers te
kunnen voorspellen.
Gebruikte kenmerken voor 1. Woordmoeilijkheid
leesbaarheidsanalyse in T-scan 2. Zinscomplexiteit
3. Informatiedichtheid
, 4. Coherentie
5. Concreetheid
6. Persoonlijkheid
Soorten maten om kenmerken te meten 1. Dichtheid (kenmerk X : vast aantal
woorden)
2. Porportie (aandeel)
3. Ratio (kenmerk X : kenmerk Y)
Type-Token Ratio Type = aantal unieke woorden
Token = totaal aantal woorden
Hoe hoger de TTR, hoe meer unieke woorden
op het totaal
Measure of Textual Lexical Diversity Lengte-ongevoelig alternatief voor TTR
Lemmatisering Alle verbuigingen/vervoegingen van een woord
aan dezelfde vorm toegewezen
(woordboekvorm)
Conclusie leesbaarheidsvoorspelling Toewijzen teksten aan algemene doelgroep kan
vrij goed, maar bepaling moeilijkheid voor
individuele lezer is lastiger.
College 7
Praktisch nut van computationele lexicale - Diverse NLP toepassingen gebruiken
analyse semantische relaties tussen woorden in
een tekst
- Automatisch samenvatten
- Automatische correctie van typefouten
Relatedness Dit omvat meronymie (= huis – verdieping).
Maar ook functionele associatie (regen – plas)
Similarity Special case of semantic relatedness
Distance De inverse van relatedness.
Wordnet Gebouwd op woordbetekenissen. Gelabelde
semantische relaties tussen woordbetekenissen,
meer dan alleen synoniemen.
Meest frequente relatie in naamwoorden Hyponymie/hyperonomie/meronymie
(WordNet)
Meest frequente relaties in werkwoorden Troponymie (= steeds specifiekere manieren om
(WordNet) een handeling te beschrijven)
Synset Synonym set (bijv. alle betekenissen van coffee)
Path-based similarity Concepten zijn meer gelijkend als ze dichterbij
elkaar in de hiërarchie zitten, gemeten met het
aantal stappen om van concept A naar concept B
te komen.
Padlengte Gelijk aan het aantal stappen dat je nodig hebt
om van het ene concept naar het andere concept
te gaan.
Probelemen met path-based similarity Elke stap weegt even zwaar, en dat is
problematisch want hoger in de hiërarchie zijn
de stappen intuïtief hoger en abstracter.
Normalized Path Length Houdt rekening met de maximale diepte van de
hiërarchie
Conceptual similarity Houdt rekening met het niveau binnen de
hiërarchie (gezien vanuit de most specific
common subsumer)
Information based approach Gedeelde informatiewaarde tussen twee
concepten is de informatiewaarde van de most
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper nhackl. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €5,18. Je zit daarna nergens aan vast.