Garantie de satisfaction à 100% Disponible immédiatement après paiement En ligne et en PDF Tu n'es attaché à rien
logo-home
Samenvatting taaltechnologie €3,49
Ajouter au panier

Resume

Samenvatting taaltechnologie

1 vérifier
 138 vues  2 fois vendu

Samenvatting van 37 pagina's voor het vak Taaltechnologie aan de UGent

Aperçu 5 sur 37  pages

  • 20 mars 2014
  • 37
  • 2012/2013
  • Resume
Tous les documents sur ce sujet (1)

1  vérifier

review-writer-avatar

Par: marypoppins1986 • 10 année de cela

avatar-seller
Klara123
2,5 dag -> ong 15p per dag



Examen: Inleiding tot de taaltechnologie

Hoofdstuk 1 : Taal en spraaktechnologie

Spraaktechnologie (onder) -> werkt met spraak
- Spraakherkenning -> van spraak naar tekst
(dicteersystemen bij dokters -> spreken in
machientje -> automatisch tekst)
- Spraaksynthese -> van tekst naar spraak
(navigatiesystemen)

Taaltechnologie (boven) -> werkt met tekst
- Taalbegrip opbouwen -> om opeenvolging
karakters te begrijpen
- Tekstgeneratie -> (automatisch samenvatten,
automatische vertaler)

Belang vertaaltechnologie:
- Stijgend volume door te korte levenscyclus van producten -> er moet meer vertaald worden.
(na 5j nieuwe auto, gsm’s -> nieuwe handleidingen)
- Toenemend aantal talen door de globalisering van de economie -> naar meer talen vertalen
- Eis terminologie op consistente manier te gebruiken ( niet verschillende woorden voor 1 ding)
- Drukken van vertaalkosten (vertaalgeheugen gebruiken)

Belang taaltechnologie:
- Inlichtingendiensten/militair : Intelligente text processing, automatisch vertalen (nog
probleem -> google translate) en samenvatten. Ontstaan in kader van intelligence (’40-’50) om
te weten te komen wat de Russen aan het uitspok en waren.
- Media : (ASR => MT => automatisch ondertitelen) VRT -> automatisch ondertitelen, gebruiken al
spraaktechnologie (iem die meepraat in thuis -> spraaksysteem, getraind op 1 persoon -> kwaliteit
ondertiteling behoorlijk goed)
- Medische + andere sectoren -> nood aan intelligent informatiebeheer (automatische
informatie-extractie uit patiëntenbestanden)
- Marketing/klantensupport -> (“sentimentdetectie” in blogs -> geeft over alle review sites de
positieve en negatieve kanten weer) Klantenreviewsites -> laten opinies achter -> belangrijk voor
bedrijven -> reputatie op web controleren.
- Sociaal -> detectie van cyberpedofielen, cyberpesters, zelfmoordberichten enz

Sociale media en bedrijven : waarom zijn die sociale media interessant voor bedrijven?
- Zoeksystemen -> reclame aanbieden op basis van kernwoorden (ik ga me onder trein gooien
-> reclame NMBS)
- Customised marketing -> waar klikken jullie op? Wat schrijven we op FB, twitter?
- Advertising -> google wordt er rijk van , FB ook.

Cyberpesten -> gemakkelijk, wegsteken achter anonimiteit
Moderne inquisitie -> pesters ook gepest


1

,2,5 dag -> ong 15p per dag



Suïcidale berichten -> systemen niet gemaakt om sms, blogtaal te lezen.
(sentimentanalyse -> verder kijken dan woorden -> semantiek zin)

Hoever staan we in het begrijpen van menselijke taal?
Watson, supercomputer IBM -> kon wedstrijd winnen -> probeerde menselijke vraag te begrijpen ->
berekeningen via parallelle computers -> gebruikt heel goede taaltechnologie, veel kennis integreren

Menselijke taal anno 2013
Regionale taal + ENG. Uitdagingen voor taaltechnologieën.

Wat is het grootste probleem binnen de taaltechnologie?
Ambiguïteit -> taaltechnologie kan pas echt accuraat zijn als ambiguïteit wordt weggewerkt op
verschillende niveaus.
Systemen die standaardtaal verwerken -> nog problemen met ambiguïteit (Google translate -> vreemde
fouten -> Ambiguïteit op verschillende niveaus)

Ambiguïteit op verschillende niveaus:
- Lexicaal – morfologisch :
o morfologisch : woorden als componentiele (?) samenstellingen gezien -> zo vertaald
 vandaag betalen ze enkel remgeld / today they only pay brake money
 bijvoorbeeld over de bestuurstaalregelgeving / for example concerning the
governing board language legislation
 een eengemaakte politiezone/ a-made police force area
o lexicaal : naamwoord als ww vertalen enz
 Gisteren zijn ze zonder akkoord rond 21u uit mekaar gegaan/ Yesterday they
have gone without agreed around 21 hours from each other
- Syntactisch :
o Flying planes can be dangerous (2 betekenissen)
o Ik eet pizza met olijven/ Ik eet pizza met mijn vriendin (allebei met, maar toch
andere betekenis)
- Semantisch :
o Zalm werd geboren als zoon van een kolenboer/ Salmon was born as son of a coal
farmer
o We leefden boven onze stand/ We lived above our score
- Pragmatisch : referenties
o The monkey ate the banana because it was hungry/ Der Affe aβ die Banane weil er
Hunger hatte.
o The monkey ate the banana because it was ripe/ Der Affe aβ die Banane weil sie reif
war
o The monkey ate the banana because it was lunch time/ Der Affe aβ die Banane weil
es Zeit zum Essen war.
- Wereldkennis:
o Blijkbaar hebben de Vlaamse onderhandelaars de faciliteitengemeenten
opgegeven./ Apparently the Flemisch negotiators have given up the facility
municipalities. (wat zijn faciliteitengemeenten? Weet google translate niet ->
municipalities with language facilities)


2

,2,5 dag -> ong 15p per dag



Hoe ambiguïteit oplossen?
1. Automatische woord- en zinsherkenning
o Automatische woordherkenning = Tokenisatie
o Wat is een “token”? -> reeks letters of cijfers
gescheiden door interpunctie, spaties of mark-up
(codes)
wat we vinden in een woordenboek, afstrippen
punctuatie
vb: Wat is een “token”? ->
<sentence>
wat
is
een

Token

?
</sentence>

Problemen bij tokenizatie:
- Afkortingen met punt
(o.m. bij regeringsinst. Regent het a.h.w. teksten die
vnl. bestaan uit losse letters of al of niet gescheiden
door puntjes)
- Punctuatie deel van woord (BV’s, Eu-begroting,
CD&V, Groen!, SP.A)

o Automatische zinsherkenning
o wat is een zin? -> reeks woorden
startend met woord met hoofdletter,
eindigend op punt, vraagteken,
uitroepteken.

Problemen bij wat is een zin :
- afkortingen of woorden met een punt in
- andere woorden kunnen ook met een hoofdletter straten (namen, Duits)

Conclusie automatische woord-en
zinsherkenning:
Woord- en zinsherkenning wordt goed maar
niet perfect opgelost, en moet voor specifieke
types van teksten en domeinen (bv
biomedische) opnieuw ontwikkeld worden.




3

,2,5 dag -> ong 15p per dag



2. Automatische lemmatizering/ morfologische analyse
Doel: Vind het lemma en de morfologische structuur van verborgen, vervoegde en complexe
woordvormen.
Waarom lemma nodig? Voor opzoeken in woordenboek. (werk -> 2 mog. Werk (zn) en
werken (ww))
Morfologische analyse: compounds opsplitsen en vertalen als het nodig is en niet doen als
niet nodig is.
Nut:
o Automatisch vertalen
o Automatische
woordafbreking
o Automatische
zoeksystemen

Voorbeeld lemmatizering :
Tafeltjes -> tafel
Springend -> springen
Zijderupsen -> zijderups
Zijn -> ?
Werk -> ?

Voorbeeld morfologische analyse:
Afvalverwerkingsinstallatiemakers
[afval][ver][werk][ing][s][installeer][atie][maak][er][s] plural noun
[afval] noun [[[[ver][werk] verb ] verb [ing]] noun [s][[installeer]
verb [atie]] noun ] noun [maak] verb [er] noun [s] plural noun
V.



3. Automatische woordontleding of part of speech tagging
Doel: elk woord voorzien van zijn contextueel geschikte morfosyntactische categorie.
Context bepaalt wat part of speech is -> green: adj en nw -> bepalen aan de hand van de context
Hoe? :
o Input : sequentie woorden en een tagset
o Output: correcte woordsoort (morfosyntactische categorie) van een woord in zijn
context
Voorbeeld POS tagging :
The green train runs down that track
Art Adj/N N/WW N/WW Prep/Bijw/Adj Pron N/WW
Art Adj N W Prep Pron N

2 manieren/methodologieën van POS tagging:
- Regelgebaseerd -> maken gebruik van een grote databank aan handgeschreven
desambigueringsregels. Deze regels specificeren bv dat een woord dat na een lidwoord komt
meer waarschijnlijk een nw zal zijn dan een ww.
o Regels spreken elkaar soms tegen
o Databank regels zijn rigide




4

, 2,5 dag -> ong 15p per dag


- Corpusgebaseerd -> gaan gebruik maken van trainingscorpus. Dat zijn woorden die manueel
voorzien zijn van een juiste part of speech. Ze gebruiken dat corpus om de probabiliteit van
een taak te bepalen in een gegeven context.
o Degelijk corpus
o Statistisch of stocastisch gewerkt

Tagging = taak toekennen -> woord = nw, ww

Stocastische POS tagging: een mogelijke aanpak voor POS tagging
Uitgangspunt: het tagging probleem kan worden opgelost door te kijken naar de woorden in de
lokale context
Vb: He is expected to race tomorrow -> race = nw of ww?
Hoe? Tagsequentie-probabiliteit * woordprobabiliteit.
Vb: He is expected to race tomorrow -> P(VB|TO)P(race|VB)
P(NN|TO)P(race|NN)

Stocastische POS tagging: uitleg in stapjes:
1. Tagsequentie-probabiliteit P(ti |ti−1)
o Hoe waarschijnlijk is het dat een POS een werkwoord/naamwoord zal zijn gegeven
de voorafgaande POS tag?
o Uitgangspunt: ww meer waarschijnlijk na to (vb to walk, to eat, to have vs go to school)
o Corpus nemen (verzameling teksten) -> manueel labelen met POS info (vb woorden
labelen, info als input genomen vr POS tagging -> to hoe vaak achter ww en nw?)
o Berekeningen op basis van het Brown corpus -> POS tagger zoekt hierin naar to ->
tellen (P(NN|to))
• P(NN|TO) = 0.021 -> 2%
• P(VB|TO) = .34 -> 34 %
o Na “to” krijgen we vaker een werkwoord dan een naamwoord.

2. Woordprobabiliteit
o Als we een werkwoord/naamwoord verwachten, hoe waarschijnlijk is het dan dat dat
werkwoord/naamwoord race zal zijn?
o Berekeningen op basis van het Brown Corpus :
• P(race|NN) = .00041 -> alle NN zoeken en kijken hoe vaak het race is -> laag want over meer
gesproken dan over race
• P(race|VB) = .00003 -> alle ww, hoe vaak race
o Race komt vaker voor als nw dan als ww. (OMGEKEERD)

3. Combinatie -> beide probabiliteiten vermenigvuldigen, voor ww en nw
P(VB|TO)P(race|VB) = .00001
P(NN|TO)P(race|NN) = .0000086
Race = ww -> hoger percentage

Voorbeeld:
Voorbeeld
De CIA heeft volgens de Britse krant Mail on Sunday op
militaire luchthavens in Groot-Brittanni¨e vrije toegang genoten
voor het vervoer van van terrorisme verdachte gevangenen .

De/Art(bep, zijdofmv, neut) CIA/N(eigen, ev, neut)
heeft/V(hulp, ott, 3, ev) volgens/Prep(voor) de/Art(bep, zijdofmv,
neut) Britse/Adj(attr, stell, vervneut) krant/N(soort,
ev, neut) Mail//N(eigen, ev, neut) on/Misc(vreemd) Sunday/

5

Les avantages d'acheter des résumés chez Stuvia:

Qualité garantie par les avis des clients

Qualité garantie par les avis des clients

Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.

L’achat facile et rapide

L’achat facile et rapide

Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.

Focus sur l’essentiel

Focus sur l’essentiel

Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.

Garantie de remboursement : comment ça marche ?

Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.

Auprès de qui est-ce que j'achète ce résumé ?

Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur Klara123. Stuvia facilite les paiements au vendeur.

Est-ce que j'aurai un abonnement?

Non, vous n'achetez ce résumé que pour €3,49. Vous n'êtes lié à rien après votre achat.

Peut-on faire confiance à Stuvia ?

4.6 étoiles sur Google & Trustpilot (+1000 avis)

56326 résumés ont été vendus ces 30 derniers jours

Fondée en 2010, la référence pour acheter des résumés depuis déjà 14 ans

Commencez à vendre!
€3,49  2x  vendu
  • (1)
Ajouter au panier
Ajouté