Samenvatting The Conversational Interface: Talking to Smart Devices (+ extra artikelen Conversational Interfaces)
23 vues 2 fois vendu
Cours
Conversational Interfaces (800870B6)
Établissement
Tilburg University (UVT)
Dit document omvat een samenvatting van het volgende boek:
- The Conversational Interface: Talking to Smart
Devices (McTear et al., 2016): H1 t/m H4, H10, H12, H14 & H18
.... en een volledige samenvatting van de volgende 8 artikelen:
- Brandtzaeg, P. B., & Følstad, A. (2017). Why people use ...
H1, Introductie
- Conversational Interface: stel mensen in staat om op een natuurlijke manier te communiceren met
slimme apparaten door gebruik te maken van gesproken taal (zoals een gesprek aangaan met een
persoon)
Opbouw boek (conversatie = conversational)
1. Conversational-interfaces: voorbereidingen
- H2: De tekening van de conversatie-interface
- H3: Naar een conversatietechnologie
- H4: Conversatie-interfaces: verleden en heden
2. Het ontwikkelen van een spraakgebaseerde conversatie-interface
- H5: spraakinvoer en -uitvoer
- H6: implementatie van spraakinvoer en -uitvoer (web SAPI, SimpleTTS, RichTTS, SimpleASR,
RichASR, TalkBack)
- H7: een conversatie-interface creëren met behulp van chatbottechnologie (TalkBot)
- H8: gesproken taalbegrip
- H9: het implementeren van gesproken taalbegrip (Understand)
- H10: dialoogbeheer
- H11: dialoogmanagement implementeren (PizzaRules, PizzaStat)
- H12: respons genereren
3. Conversatie-interfaces en apparaten
- H13: conversatie-interfaces: apparaten, wearables, virtuele agenten en robots
- H14: emotie, affect en persoonlijkheid
- H15: affectieve gespreksinterfaces
- H16: implementatie van multimodale conversatie-interfaces met behulp van Android Wear
(MorningCoffee, CookingNotifications, WriteBack)
4. Evaluatie en toekomstperspectieven
- H17: evaluatie van de conversatie-interface
- H18: toekomstige richtingen
H2, The Dawn of the Converstional Interface (ochtendgloren)
- (Digital) personal assistants: Apple’s Siri, Google Now, Microsot Cortana, Amazon Alexa, Samsung S
Voice, Facebook’s M, and Nuance Dragon
- Conversational interface: de technologie die conversatie-interacties met VPA’s (virtuele persoonlijke
assistenten) ondersteunt door middel van spraak en andere modaliteiten (bv beeld of tekst)
* Bediening via spraak: een contactpersoon bellen, een sms sturen, een app starten vereist
minder stappen vergeleken met traditionele invoermethoden
- Internet of Things (IoT): een enorm netwerk van verbonden objecten, sensoren en apparaten die
met elkaar ‘praten’ en in sommige gevallen ook met mensen communiceren
* Smart watches
- Conversatie-interfaces op apparaten zoals smartwatches en sociale robots bieden veel van dezelfde
mogelijkheden die al beschikbaar zijn op smartphones, hoewel er verschillen kunnen zijn in termen
van het type interface dat ze bieden (kleiner scherm bijvoorbeeld)
Technologische ontwikkelingen
- De Renaissance van de Artificial Intelligence (1950):
* Knowledge-based approach: de overtuiging dat intelligent gedrag kan worden
gereproduceerd met behulp van modellen van symbolisch redeneren, gebaseerd op regels
van de formele logica (focus: problemen die moeilijk zijn voor mensen, maar gemakkelijk voor
, computers)
* Niet alles kon worden opgelost (spraak-/beeldherkenning) met behulp van deze
symbolische benaderingen, maar vereiste processen zoals het extraheren van patronen uit
gegevens en het leren van ervaringen
* Subsymbolic approaches: het gebruik van neurale netwerken en statistische leermethoden
(ontwikkelingen in grafische verwerkingseenheden (GPU's) die de enorme parallelle
berekeningen mogelijk maakten die nodig zijn om neurale netwerken te laten draaien,
beschikbaarheid van big data die AI-systemen in staat stellen te leren en steeds intelligenter
te worden, ontwikkeling van nieuwe algoritmen (deep learning) die op GPU's draaien en deze
big data verwerken
- Vooruitgang in de taaltechnologie
* De nauwkeurigheid bij snelheidsherkenning is sinds 2012 verbeterd als gevolg van de
adoptie van deep learning-technologieën
* Begrip van gesproken taal: machine learning-benaderingen van dialoogbeheer hebben
betere prestaties opgeleverd in vergelijking met traditionele, handgemaakte benaderingen
door systemen in staat te stellen optimale dialoogstrategieën uit gegevens te leren
- De opkomst van het semantische web
* Alle inhoud op internet moet gestructureerd en machinaal leesbaar zijn, zodat zoeken met
de traditionele benadering van trefwoorden als invoer is vervangen door semantisch zoeken
op basis van de betekenis van de invoer
* Het semantische web gebruikte coderingen en grote gestructureerde kennis die ervoor
zorgden dat zoekmachines de semantiek van de intentie van een gebruiker beter konden
interpreteren, gestructureerde antwoorden op vragen konden retourneren, en voor virtuele
persoonlijke assistenten om een vraag/antwoord-type interactie te ondersteunen
- Apparaat technologieën
* Omdat smartphones toegang hebben tot een breed scala aan contextuele informatie
(locatie van de gebruiker, tijd/datum, contacten en kalender), stelt de integratie van deze
contextuele informatie in conversatie-interfaces VPA's in staat hulp en ondersteuning te
bieden die relevant en gepersonaliseerd is voor de individuele gebruiker
- Verhoogde verbinding
* Hogere draadloze snelheden, bijna alomtegenwoordige beschikbaarheid van WiFi,
krachtigere processors in mobiele apparaten en de komst van cloud computing betekenen dat
resource-intensieve handelingen zoals spraakherkenning en zoeken in de cloud kunnen
worden uitgevoerd met behulp van grote banken krachtige computers
- De interesse van grote technologiebedrijven op het gebied van conversatie-interfaces
* Nu concurreren veel van de grootste bedrijven ter wereld om hun eigen VPA’s te creëren
* Met deze VPA’s kunnen bedrijven de gebruikers van hun VPA’s nauwkeuriger profileren,
waardoor ze hun e-commercediensten kunnen promoten en zo een concurrentievoordeel
kunnen behalen
* Er moet nog meer werk worden verzet voordat conversatie-interfaces een prestatieniveau
bereiken dat vergelijkbaar is met dat van mensen
Gebruikersacceptatie en adoptie
- Technologie heeft geen succes wanneer het niet geaccepteerd en overgenomen wordt door
gebruikers
- Evaluatie van VPA’s: showdowns of sureys
* Showdown: een grote reeks vragen wordt voorgelegd aan geselecteerde VPA's en de
antwoorden worden geanalyseerd
* VPA’s aantrekkelijk voor gebruikers die... onderweg webservices willen gebruiken (kracht en
, snelheid niet op een desktop-pc) en jongeren
Enterprise en gespecialiseerde VPA’s
- Geven assistentie in specifieke domeinen en voor specifieke gebruiken (bv assisteren van
professionals bij hun werk)
- Commercieel voordeel voor bedrijven: het genereren van advertentie-inkomsten en
verwijzingsvergoedingen door gebruikers naar specifieke diensten en websites te leiden die door de
assistent zijn ‘gekozen’
- Ze kunnen het merk en de diensten van een bedrijf op dezelfde manier promoten als de website van
het bedrijf, maar met de toegevoegde waarde van een meer persoonlijke en plezierigere interactie
De cyclus van stijgende rendementen
- De mondiale markt voor VPA’s zal de komende jaren dramatisch toenemen
- Cyclus van toenemende opbrengsten (geproduceerd door acceptatie en adoptie door gebruikers en
interactie met technologische ontwikkelingen): naarmate de prestaties verbeteren, zullen meer
mensen conversatie-interfaces gebruiken. Met meer gebruik zullen er meer gegevens zijn die de
systemen kunnen gebruiken om te leren en te verbeteren. En hoe meer ze verbeteren, hoe meer
mensen ze willen gebruiken
De technologieën waaruit een conversatie-interface bestaat
- Bij ontvangst van gesproken invoer van de gebruiker moet het systeem:
* Herken de woorden die door de gebruiker zijn gesproken (spraakherkenning)
* Interpreteer de woorden/ontdek wat de gebruiker bedoelde en bedoelde door deze
woorden uit te spreken (gesproken taalbegrip)
* Formuleer een antwoord, of als het bericht onduidelijk of onvolledig was, communiceer
met de gebruiker om opheldering te vragen en de vereiste informatie te verkrijgen
(dialoogbeheer)
* Construeer het antwoord, dat in de vorm van woorden kan zijn, of vergezeld kan gaan van
visuele en andere soorten informatie (reactiegeneratie)
* Spreek en toon het antwoord (tekst-naar-spraak-synthese)
Samenvatting
- Dankzij een conversatie-interface kunnen mensen op een intuïtieve en natuurlijke manier met
erfgenamen praten.
- Conversatie-interfaces zijn mogelijk gemaakt door recente technologische ontwikkelingen, met
name:
* Een renaissance in AI, waarin diepgaand leren heeft geleid tot dramatische verbeteringen in
de nauwkeurigheid van spraakherkenning en, meer recentelijk, in het begrijpen van
gesproken taal en dialoogbeheer
* De ontwikkeling van krachtige processors die de massaal parallelle berekeningen
ondersteunen die nodig zijn voor deep learning-algoritmen en die de verwerkingskracht
leveren op kleine apparaten zoals smartphones die een paar jaar geleden alleen beschikbaar
waren voor supercomputers
, * Vooruitgang in de technologieën van het Semantische Web die vrijwel onmiddellijke
toegang mogelijk maken tot de enorme hoeveelheid ongestructureerde en gestructureerde
kennis op internet
- Als gevolg van deze technologische vooruitgang is de gebruikersacceptatie van technologieën zoals
de conversatie-interface toegenomen, wat heeft geleid tot een grotere acceptatie en als gevolg
daarvan meer gegevens produceert waarvan systemen op hun beurt kunnen leren, wat resulteert in
verdere verbeteringen in de technologie
H4, Conversational interfaces: het verleden en de toekomst
- Sinds de jaren tachtig is het idee van een conversatie-interface waarmee mensen voor verschillende
doeleinden kunnen communiceren, een focus geweest van onderzoek en ontwikkeling in een aantal
verschillende gemeenschappen die grotendeels onafhankelijk van elkaar hebben gewerkt
* SDS (gesproken dialoogsystemen), VUI (stemgebruikersinterface, commerciële
ontwikkeling), ECA (belichaamde gespreksagent, animatie met uitdrukkingen en spraak)
Een typische interactie met een gesproken dialoogsysteem
- Gerichte dialoog (systeeminitiatief): wanneer je voor elk gegeven een aparte vraag stelt
- Gemengd initiatief: zowel het systeem als de gebruiker kunnen vragen stellen (meer natuurlijke
interactie)
- Een van de vroegst gesproken dialoogprojecten: ATIS (VS) en SUNDIAL (Europa)
Spraakgebruikersinterfaces (VUI)
- Een van de eerste VUI’s: VRCP (spraakherkenning oproepverwerking)
- Een van de eerste commercieel toegepaste interactieve spraaksystemen: HMIHY (hoe kan ik u
helpen)
SDS en VUI gebruiken dezelfde gesproken taaltechnologieën voor de ontwikkeling van interactieve
spraaktoepassingen, maar er is een verschil in nadruk tussen de twee gemeenschappen
* SDS: Academische onderzoekers richten zich op het leveren van nieuwe bijdragen aan de
kennis en op het publiceren van hun resultaten in wetenschappelijke tijdschriften en
conferenties
* VUI: meer bezig met het aanpakken van zakelijke behoeften, zoals het rendement op
investeringen, maar ook met kwesties van menselijke actoren, zoals bruikbaarheid en
gebruikerstevredenheid
Belichaamde gesprekspartner, metgezellen en sociale robots
- ECA: door de computer gegenereerde geanimeerde karakters die gezichtsuitdrukking,
lichaamshouding, handgebaren en spraak combineren om een meer mensachtige en boeiendere
interactie te bieden (commerciële toepassingen)
- Kunstmatige metgezellen en sociale robots kunnen de activiteiten van het dagelijks leven
ondersteunen en zelfstandig wonen thuis mogelijk maken voor ouderen en mensen met een
handicap, en ze kunnen een educatieve rol spelen voor kinderen
Chatbots
- Meestal op tekst gebaseerd, reageert doorgaans op de input van de gebruiker in plaats van het
initiatief te nemen in het gesprek
- Oorsprong in ELIZA-systeem- Chatbots worden steeds vaker gebruikt op gebieden als onderwijs, het
ophalen van informatie, het bedrijfsleven en e-commerce
Wat hebben we tot nu toe geleerd?
1. Systemen intelligenter maken
- Informatiestatusupdate (ISU): theoretisch gemotiveerde poging om de dynamiek van de dialoog te
karakteriseren een informatiestatus vertegenwoordigt wat bekend is in een bepaald stadium van een
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur KHnx. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €6,68. Vous n'êtes lié à rien après votre achat.