Hoorcollege 9
CAREC/CARES Crowdsourced Algorithm of Reading
Comprehension / Speech
Coh-metrix levels - Surface level
- Textbase
- Situatiemodel
Surface level Zijn de woorden bekend en de zinnen niet te
ingewikkeld?
Tekstbase Sluiten de zinnen op elkaar aan, referentieel en
lexicaal?
Situatiemodel Wat voor situatie wordt er beschreven?
Temporele cohesie Zijn opeenvolgende hoofdwerkwoorden gelijk
qua tijd (tt, vt) en aspect (voltooid, onvoltooid)?
Hoge repetitiescore Indicatief voor consistentie
Lage repetitiescore Er zijn veel shifts
Intentionaliteit De handelingen van personen in dienst van het
bereiken van doelen
Intentionele partikels In order to, so that
Causaliteit Oorzaak-gevolgmechanismen in de wereld die
buiten deze doelen staan
Causale partikels Because, therefore
Lemmata Aantal tot woordenboekvorm hereleide types
N-gram Een venster dat je over de tekst heen schuift,
waarbij n correspondeert met de grootte van het
venster in aantal woorden
Beperkingen van het corpus - Alleen taal uit boeken
- Boeken worden niet gewogen naar hoe
wijd ze verspreid zijn en hoeveel ze
gelezen worden
- Niet geactualiseerd
- N-grams tot n = 5
College 8
Leesbaarheidsformule Flesch-Kincaid grade Zinslengte en woordlengte
level 0,39 (totaal woorden / totaal zinnen) + 11,8
(totaal lettergrepen / totaal woorden) – 11,59
Product tekstbegrip Kan de lezer een volledige en coherente mentale
representatie van de tekst maken?
Proces tekstbegrip Hoeveel moeite moet de lezer hiervoor doen?
Tekortkomingen leesbaarheidsformules - Predictoren zijn niet causaal relevant
- Zinslengte vs zinscomplexiteit
- Afhankelijkheidslengte zou beter zijn
- Je kunt de zinnen door elkaar husselen
zonder dat de leesbaarheidsscore
verandert.
- Negeert variatie binnen de tekst
- Voorkennis en vaardigheid lezer worden
genegeerd.
- Nader onderzoek is nodig om
moeilijkheid voor individuele lezers te
kunnen voorspellen.
Gebruikte kenmerken voor 1. Woordmoeilijkheid
leesbaarheidsanalyse in T-scan 2. Zinscomplexiteit
3. Informatiedichtheid
, 4. Coherentie
5. Concreetheid
6. Persoonlijkheid
Soorten maten om kenmerken te meten 1. Dichtheid (kenmerk X : vast aantal
woorden)
2. Porportie (aandeel)
3. Ratio (kenmerk X : kenmerk Y)
Type-Token Ratio Type = aantal unieke woorden
Token = totaal aantal woorden
Hoe hoger de TTR, hoe meer unieke woorden
op het totaal
Measure of Textual Lexical Diversity Lengte-ongevoelig alternatief voor TTR
Lemmatisering Alle verbuigingen/vervoegingen van een woord
aan dezelfde vorm toegewezen
(woordboekvorm)
Conclusie leesbaarheidsvoorspelling Toewijzen teksten aan algemene doelgroep kan
vrij goed, maar bepaling moeilijkheid voor
individuele lezer is lastiger.
College 7
Praktisch nut van computationele lexicale - Diverse NLP toepassingen gebruiken
analyse semantische relaties tussen woorden in
een tekst
- Automatisch samenvatten
- Automatische correctie van typefouten
Relatedness Dit omvat meronymie (= huis – verdieping).
Maar ook functionele associatie (regen – plas)
Similarity Special case of semantic relatedness
Distance De inverse van relatedness.
Wordnet Gebouwd op woordbetekenissen. Gelabelde
semantische relaties tussen woordbetekenissen,
meer dan alleen synoniemen.
Meest frequente relatie in naamwoorden Hyponymie/hyperonomie/meronymie
(WordNet)
Meest frequente relaties in werkwoorden Troponymie (= steeds specifiekere manieren om
(WordNet) een handeling te beschrijven)
Synset Synonym set (bijv. alle betekenissen van coffee)
Path-based similarity Concepten zijn meer gelijkend als ze dichterbij
elkaar in de hiërarchie zitten, gemeten met het
aantal stappen om van concept A naar concept B
te komen.
Padlengte Gelijk aan het aantal stappen dat je nodig hebt
om van het ene concept naar het andere concept
te gaan.
Probelemen met path-based similarity Elke stap weegt even zwaar, en dat is
problematisch want hoger in de hiërarchie zijn
de stappen intuïtief hoger en abstracter.
Normalized Path Length Houdt rekening met de maximale diepte van de
hiërarchie
Conceptual similarity Houdt rekening met het niveau binnen de
hiërarchie (gezien vanuit de most specific
common subsumer)
Information based approach Gedeelde informatiewaarde tussen twee
concepten is de informatiewaarde van de most
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller nhackl. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $5.62. You're not tied to anything after your purchase.