100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
College aantekeningen Natural Language Processing Technology (L_AAMAALG005) €6,09   In winkelwagen

College aantekeningen

College aantekeningen Natural Language Processing Technology (L_AAMAALG005)

 42 keer bekeken  1 keer verkocht

Alle aantekeningen voor het vak NLPT, zelf een 7.6 voor het tentamen gehaald. Alle nodige slides zitten er ook in met nodige uitleg.

Voorbeeld 4 van de 41  pagina's

  • 2 maart 2022
  • 41
  • 2020/2021
  • College aantekeningen
  • Lisa beinborn
  • Alle colleges
Alle documenten voor dit vak (4)
avatar-seller
MeldaMalkoc

Natural Language Processing
Technology
Created @March 24, 2021 2:40 PM

Class S5

Type S5

Materials



Lecture 1
Introduction
NLP:

represents language in a way that a computer can process it → representing input

Process language in a way that is useful for human → generating output

understanding language structure and language use → computational modelling



Analyzing Language

linguistic pre-processing steps

standardizing the input

normalization and cleaning

remove layout (paragraphs, underlined, bold, italics)

remove/replace emojis and urls (making URLS or sth like that)

replace numbers with NUM

anonymization: replacing phone numbers/paswords

unless you need them!

Casing: uppercase vs lowercase vs true case (for example keeping uppercase by names but
not sentence beginnings)

sentence segmentation: What are indicators for sentence boundaries?

Linguistic pre-processing

fast developments: huge research places can now be done by just one package Python.

performance: very good for generic languages and problematic for domain-specific data or
small languages.




Natural Language Processing Technology 1

, word segmentation: how can i decompose a sentence into its words?

tokenization: all things, type: amount of different tokens

morphological analysis: lemmatization, sub-words, ... [read chapter 2]

morphological analysis

we want to decompose a word into their morphemes (as small as possible): unhappier-un-
happy-er (difficult in turkish for example)

highly challenging, because most languages contain many exceptions and morpheme
boundaries can be ambiguous

subwords:

frequent tokens are unique

less frequent tokens are decomposed into subwords

really statistical, not about linguistics by the approaches!




lemmatization: dictionary word happier/happiest → happy. there are ambiguities saw → see or
saw?

now we analyze the lemma




Natural Language Processing Technology 2

, Penn Treebank: 36 labels




Natural Language Processing Technology 3

, note on image above: left more complex, deeper structure




error propagation: dat de fout gemaakt in een van de stappen overvloeit naar de volgende stap

corpora and shared tasks

1) how did automated linguistic preprocessing become so good? tools were trained on manually
annotated corpora, tuned on development data and evaluated on test data. Machine learning and
neural networks boosted the performance and facilitated transfer across languages

nlpprogress.com → good to look for which process which package is the best




Natural Language Processing Technology 4

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper MeldaMalkoc. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €6,09. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 83750 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen
€6,09  1x  verkocht
  • (0)
  Kopen