Informatiekunde
Voorwoord
Informatiekunde (information science) = de studie van informatie en hoe die beheerd, gecommuniceerd
en ontsloten kan worden, in het bijzonder met behulp van digitale middelen
Bijvoorbeeld in relationele gegevensbanken, XML en web technologieën als HTML en CSS
Distant reading = de statistische analyse van grote volumes van literaire en historische teksten
Geschreven tekst voorstellen op de computer
1 byte = 8 bits
Sequentie van lettertekens (individueel letterteken wordt voorgesteld als een byte) wordt voorgesteld
als een sequentie van bytes
Twee mogelijkheden van een bit: 0 en 1
Numerieke waarde = een uit te drukken hoeveelheid of aantal
Getal = representatie van die numerieke waarde in een bepaald talstelsel
Decimaal talstelsel maakt gebruik van tien cijfers: 0, 1, 2, 3, 4, 5, 6, 7, 8 en 9
Octaal talstelsel maakt gebruik van acht cijfers: 0, 1, 2, 3, 4, 5, 6 en 7
Hexadecimaal talstelsel maakt gebruik van zestien cijfers: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E en F
Decimaal getal 4 3 5
Intrinsieke cijferwaarde Vier Drie Vijf
w
Positie-index i Drie Twee Een
I min een Twee Een Nul
Gewicht g = tien tot de Honderd Tien Een
macht (i min een)
Waarde-in-context Vierhonderd Dertig Vijf
w’ = w maal g
1
, Binair getal 1 1 1 1 0 0
Intrinsieke Een Een Een Een Nul Nul
cijferwaarde
w
Positie- Zes Vijf Vier Drie Twee Een
index i
I min een Vijf Vier Drie Twee Een Nul
Gewicht Tweeëndertig Zestien Acht Vier Twee Een
g = twee tot
de macht (i
min een)
Waarde-in- Tweeëndertig Zestien Acht Vier Nul Nul
context
w’ = w maal
g
Octaal getal 7 4
Intrinsieke cijferwaarde w Zeven Vier
Positie-index i Twee Een
I min een Een Nul
Gewicht g = acht tot de macht (i Acht Een
min een)
Waarde-in-context w’ = w maal Zesenvijftig Vier
g
Hexadecimaal getal 3 C
Intrinsieke cijferwaarde w Drie Twaalf
Positie-index i Twee Een
I min een Een Nul
Gewicht g = zestien tot de Zestien Een
macht (i min een)
Waarde-in-context w’ = w maal Achtenveertig Twaalf
g
Bestandsextensie = het laatste deel van een bestandnaam
Een andere naam voor byte is octet
Er zijn 256 verschillende manieren om een byte in te vullen met énen en nullen (0, 1, 2, 3, …, 255)
De waarde tweehondervijfenvijftig wordt in het binair uitgedrukt als 11111111 en in het hexadecimaal
als FF. Het feit dat alle mogelijke waarden van één byte netjes met een tweecijferig hexadecimaal getal
kunnen worden uitgedrukt (wat een handige, compacte notatie is) is de belangrijkste reden waarom de
conventie ontstaan is om de inhoud van een byte te noteren als een hexadecimale code
Zie pagina 20
2
, Een tabel die binaire getallen afbeeldt op lettertekens noemt men een tekenset (character code, coded
character set, character set of code). Voorbeelden: EBCDIC, ASCII, ISO Laten 1…
ASCII (7 bits):
- Eerste niet-bedrijfsspecifieke tekenset
- American Standard Code for Information Interchange
- Belangrijke concurrent van EBCDIC
- 7 bits dus slechts 128 verschillende tekens kunnen worden voorgesteld
- De achtste bit, de meest linkse bit, staat daarbij in theorie altijd op 0
- Enkel de bytes 0 tot en met 127 worden dus benut in ASCII en al die bytes hebben de meest
linkse bit op 0 = parity bit en werd gebruikt als een test om bij ontvangen of verzonden data na
te gaan of er wel of geen datacorruptie is opgetreden. Op ogenblik van verzenden heeft de byte
een even aantal bits met waarde 1
- Printable characters (gewone tekens met een visuele representatie) en non-printable
characters (controletekens: op posities 0 tot 31 en positie 127; CR op positie 13 – carriage return
voor ga naar de kantlijn; LF op positie 10 – line feed voor ga naar de volgende regel; TAB op
positie 9 – horizontal tab voor ga naar de volgende kolom; een twijfelgeval is het teken spatie
op positie 32)
- Engels is de voertaal, van andere letters met accenten en diakritische tekens is geen sprake in de
tabel
8-bits codes die uitbreidingen zijn van ASCII (bijvoorbeeld ISO Latin 1):
- Om lettertekens uit te drukken die in het Engels misschien onbelangrijk zijn, maar in andere
talen wel gebruikt worden
- Posities 0 tot 127 zelfde als in ASCII en daarnaast ook extra tekens op de (door ASCII ongebruikt
gelaten) posities 128 tot en met 255
- Parity bit wordt hier niet meer toegepast
- Een eerste belangrijk voorbeeld van een 8-bits code die een extensie is van ASCII, is ISO Latin 1
- ISO = International Organisation for Standardisation
- ISO Latin 1 voor West-Europese talen
- ISO Latin 2 voor Centraal- en Oost-Europese talen
- Twee tekens uit de tabel zijn niet toonbaar en worden daarom omschreven. Het teken nbsp op
positie 160 staat voor non-breaking space en is een spatie waarvoor geldt dat de software die de
tekst toont op die positie geen word-wrap mag uitvoeren (de software mag op dat punt in de
tekst niet naar de volgende regel springen) en het teken shy op positie 173 staat voor soft
hyphen (de software mag op dat punt de tekst afbreken om naar de volgende regel te springen
op voorwaarde dat de software dan een koppelteken toevoegt aan het einde van de afgebroken
regel)
3