Hoorcollege 1 Informatie-Uitwisseling Introductie
Semiotiek
Semiotiek of tekenleer is de studie naar de werking van tekens. Het gaat daarbij om tekens die door de mens worden gebruikt,
maar ook om tekens in het rijk van dieren en planten. Beoogde tekens, die wel bedoeld zijn als communicatiemiddel, zijn
bijvoorbeeld:
letters (alfabet)
karakters (b.v. het Chinese schrift)
woorden (het systeem is het totale lexicon)
morsetekens, brailletekens
verkeersborden, pictogrammen
gebaren, iconen
voorwerpen (een witte vlag, een steen door de ruit, een sluier).
Semiotiek houdt zich bezig met elke activiteit, handeling of proces waarbij tekens worden gebruikt.
Een teken kan van alles zijn dat een boodschap communiceert van de zender naar de ontvanger.
Dit kunnen bewuste tekens zijn (zoals woorden) of onbewuste tekens (zoals het onbedoeld tonen van stress).
In dit college houden wij ons bezig met de semiotiek van informatie en informatiesystemen.
Fysieke tekens
Het fysieke niveau houdt zich bezig met alle mogelijke manieren om een teken te vormen, waaronder:
Klanken die je met de mond of op een andere manier kunt produceren (klinkers, medeklinkers, klikken, klappen,
stampen)
Gebaren, niet alleen gebarentaal, maar ook ondersteunende gebaren
Letters, karakters, symbolen
Inkt op papier, pixels op een beeldscherm
Licht (aan/uit), stroom (aan/uit), morsecode
Geuren (zweet, feromonen, parfum)
Deur (open, dicht, op slot)
De tekens kunnen op zichzelf al betekenis hebben, of in combinatie met elkaar (b.v. klanken die samen een woord vormen).
Het empirische niveau (1/2)
De manier waarop alle tekens (theoretisch) kunnen worden gecombineerd, geobserveerd of verstoord.
Patronen en combinaties, variatie, ruis, entropie, redundantie, efficientie, ...
Als je bijvoorbeeld een systeem hebt dat vier tekens kan produceren (zoals a, b, c, d), dan kun je op empirisch niveau
analyseren hoe vaak elk van die tekens voorkomt.
Let op: op dit niveau maken we ons nog niet druk om de betekenis van tekencombinaties, en zelfs niet of een combinatie zinvol
(of toegestaan) is.
Het empirische niveau (2/2)
Door het analyseren van (verwachte) frequenties, ruis en redundanties kun je bijvoorbeeld inschatten:
Of een bepaalde reeks tekens enigszins zinvol lijkt te zijn (of een zin bijvoorbeeld statistisch gezien Nederlands kan zijn,
op basis van letterfrequenties).
Of de hoeveelheid ruis op de lijn (telefoonverbinding, of ook achtergrondlawaai) de communicatie niet in de weg zit.
Welke waardes de letters voor Scrabble in verschillende talen moeten hebben.
Syntax
Het fysieke en empirische niveau zijn de ‘technische lagen’, die beschrijven hoe communicatie überhaupt plaats kan vinden. De
syntax bepaalt wat geldige (en niet-geldige) combinaties van tekens (woorden en zinnen) zijn.
1
,Morfologie is in het algemeen de leer van de woordstructuur en de woordvorming. De morfologie houdt zich bezig met
morfemen, de kleinste betekenisdragende eenheden in een woord.
Syntaxis is het meest uitgebreide deelgebied, waar traditioneel twee vormen van zinsontleding naast elkaar worden gebruikt:
taalkundige ontleding ofwel woordontleding
redekundige ontleding ofwel zinsontleding
Syntaxregels van het Nederlands
Algemene Nederlandse Spraakkunst
Syntax: generatieve grammatica
Moderne theorieën over syntax zijn sterk beïnvloed door de generatieve grammatica van de Amerikaanse taalkundige Noam
Chomsky (1957).
Voor het Nederlands gelden bijvoorbeeld o.a. de volgende contextvrije herschrijfregels:
• zin → NC VC • VC → PC V
• PC → P NC • NC → lidw N
(NC = noun phrase, VC = verb phrase, PC = prepositional phrase, V =verb, P = preposition, N = noun)
Syntax is vorm
Volgens (generatieve) syntaxregels wordt een geldige zin gevormd. Hoewel uiteindelijk een regel ook een N transformeert tot
b.v. ‘stoel’, is ‘stoel’ op syntactisch niveau een reeks tekens zonder betekenis.
De ‘betekenis’ van een zin op syntactisch niveau is als volgt gedefinieerd: twee formules hebben dezelfde betekenis als de ene
vanuit de andere kan worden afgeleid.
Vergelijk dit met propositie- en predicaatlogica, waarbij formules en predicaten volgens bepaalde regels worden
getransformeerd, waarbij de betekenis (in de ‘echte’ wereld) van het predicaat irrelevant is.
Semantiek
Semantiek houdt zich bezig met de betekenis van woorden, zinnen of langere teksten of andere talige uitingen. Die betekenis
kan een beschrijving zijn in een woordenboek zijn, een artikel in de krant, jouw kennis van een bepaald onderwerp, de persoon
of personen die jij associeert met de voornaam Pieter, of welke andere manier of combinatie van manieren ook. Dit is dus het
niveau waarbij een propositie PIETER een betekenis in de ‘echte wereld’ krijgt.
Twee semantische principes
Objectivisme: de vertaling van een syntactische structuur naar de fysieke wereld is voor iedereen hetzelfde.
• De wereld is principieel of daadwerkelijk objectief te kennen.
Constructivisme: legt nadruk op het feit dat kennis tot stand komt door een actieve constructie, eerder dan een passieve
representatie van de werkelijkheid.
• wij passen voortdurend de (subjectieve) betekenis van een woord of zin bij, vooral wanneer we beseffen dat er sprake is van
spraakverwarring of andere misverstanden.
Verschillende interpretaties
Op het semantische niveau maakt het niet uit met welke (fysieke) tekens, via welk medium, of zelfs in welke taal, we
communiceren.
• Hoe succesvol communicatie verloopt, hangt ervan af hoe dicht de vier interpretaties van de vier toehoorders ligt bij wat de
spreker eigenlijk bedoelde.
Pragmatiek
Doorgaans wordt een bepaalde communicatie-uiting gedaan met een bepaalde bedoeling, een bepaalde intentie. We
verwachten dan dat de andere partijen (mensen of systemen) reageren zoals wij het bedoeld hebben:
• Dat iemand het licht uitschakelt als je zegt dat het licht nog aan is.
2
,• Dat een gesprek wordt afgerond als jij demonstratief telkens op je horloge kijkt.
• Dat een zoekmachine je de meest relevante, informatieve websites voor de zoekopdracht ‘constructivisme’ toont
• Dat diezelfde zoekmachine je direct (globaal en locaal) nieuws, definities en statistieken toont voor de query ‘corona’
De intentie is vaak impliciet
Soms zeggen we expliciet dat iets een vraag, een verzoek, een suggestie, een mening of een oordeel is. Maar vaak ook niet: we
denken dat dit voldoende af te leiden is uit de context. Voor computerprogramma’s en algoritmes ligt het pragmatische niveau
niet voor de hand: voor zoekmachines is het een uitdaging om te raden waarom je een zoekopdracht als ‘pizza nieuwegein’
uitvoert.
Invloed op de ‘echte wereld’
Op pragmatisch niveau wordt geanalyseerd welk effect (voor de andere acteur, persoon of systeem) een communicatie-uiting
beoogt. Uiteindelijk hebben deze acties (kleine en/of grote) gevolgen in de echte wereld.
Stampers “organisatorische ui”
Communicatie in een bredere context
Informatiesystemen zijn sociale systemen. Communicatie vindt altijd in een min of meer informele, sociale context plaats. De
communicatie-handelingen van de acteuren (mensen en systemen) hebben bepaalde intenties (zijn pragmatisch).
Om de bovenstaande communicatie mogelijk te maken, zijn sommige zaken geformaliseerd.
• Op semantisch niveau zijn dit bijvoorbeeld domeinspecifieke definities, de keuze voor naslagnetwerken, ...
• Op syntactisch niveau is dit de keuze voor de standaardtaal (of-talen), het al dan niet gebruiken van emoji’s, ...
Het "IT-systeem" levert de manier om de tekens (dus de uiteindelijke, fysieke boodschap - die een bepaalde intentie heeft) te
formuleren en van zender naar ontvanger over te brengen.
Hoorcollege 2 Kennisbanken
Een kennisbank is een gespecialiseerde databank voor de opslag en het beheer van ’kennis’. Een kennisbank is de basis voor een
collectie van kennis. Normaliter bestaat een kennisbank uit specifieke kennis met betrekking tot een organisatie. [...] Voor
structuur en zoekmogelijkheden is classificatie van de data in een kennisbank onontbeerlijk.
Een boomstructuur of een boomdiagram is een veel gebruikte manier om hierarchische informatie, zoals een
organisatiestructuur, grafisch weer te geven. A tree structure or tree diagram is a way of representing the hierarchical nature of
a structure in a graphical form.
Een graaf bestaat uit een (eindige) verzameling van punten (of knopen), samen met:
Lijnen die deze punten symmetrisch met elkaar verbinden (ongerichte graaf)
Pijlen die de punten verbinden en ook nog een volgorde/richting impliceren (gerichte graaf)
De punten representeren entiteiten (personen, plaatsen, gebeurtenissen, films, ijssoorten, ...) en de lijnen of pijlen de relaties
tussen die entiteiten. Graafstructuren vind je in allerlei soorten en maten en ze worden veel gebruikt.
3
, Relationele databases
Een database, gegevensbank of databank is een (meestal digitaal opgeslagen) gegevensverzameling, ingericht met het oog op
flexibele raadpleging en gebruik. Databases spelen een belangrijke rol bij het archiveren en actueel houden van gegevens van
onder meer de overheid, financiële instellingen en bedrijven, in de wetenschap, en ze worden op kleinere schaal ook privé
gebruikt.
Verschillende databases die gedeeltelijk overlappende gegevens bevatten, kunnen worden gekoppeld. Technisch is dat niet altijd
even gemakkelijk, maar het principe is eenvoudig.
Data wordt opgeslagen in een of meer tabellen, waarbij elke tabelrij een unieke identificatie (een ‘key’) heeft.
Elke rij (of ‘record’) beschrijft een entiteit (zoals een klant of een product)
De kolommen staan voor de verschillende eigenschappen (of ‘attributes’) van die entiteit (naam, adres, kleur, prijs)
Wanneer zijn databases een nuttige opslagstructuur?
Informatie kan worden beschreven op een coherente, gestructureerde manier.
Alle entiteiten (zoals studenten, vakken, docenten) dmv dezelfde (beperkte) selectie eigenschappen kunnen worden
beschreven.
De relaties tussen die entiteiten zijn logisch, beperkt en consistent.
De benodigde informatie (voor bijvoorbeeld het roosteren van vakken) beperkt is en kan worden vertaald in simpele (of
ook complexe) vaste zoekvragen (queries).
Databasezoekopdrachten
SQL is een afkorting voor “Structured Query Language". De meest eenvoudige query ziet er als volgt uit:
SELECT <attribute list>
FROM <table list>
WHERE <condition>
Voorbeeld: SELECT StudentNumber FROM Grade_Report WHERE Grade = "B".
Niet-relationele databases
Ook bekend onder de naam ‘NoSQL’. Voor dit soort databases is het niet nodig dat entiteiten altijd (en alleen maar) dezelfde
eigenschappen hebben. Ze bieden de mogelijkheid tot consistentie, maar bieden vooral ook flexibiliteit (voorbeeld Amazon).
Dat is handig als een boekenwinkel besluit om ook DVDs te gaan verkopen, dan vervang je bijvoorbeeld ‘auteur’ door
‘regisseur’ (enzovoort)
Of als je niet alle DVDs op dezelfde manier kan beschrijven (film vs serie vs concert vs documentaire...)
Of als de ISBN langzaamaan wordt vervangen door de EAN
In theorie kan elk ‘record’ zijn eigen, unieke attributen hebben, maar dan zou het onmogelijk zijn zoekopdrachten te formuleren.
Faceted Search
De facetten waarmee je je zoekopdracht kunt verfijnen, kunnen vooraf vastgelegde attributen zijn, of automatisch zijn ontdekt.
Deze manier van stap-voor-stap filteren is erg populair (en makkelijk) in webshops (metadata zijn gegevens die de
karakteristieken van bepaalde gegevens beschrijven).
4