Samenvatting L-Dataverwerking
Hoofdstuk 1 Data Voorbereiden
Inleiding
Een database
= een gestructureerde verzameling gegevens waarin de data op zo’n manier zijn geordend
dat ze vlot toegankelijk zijn en gemakkelijk kunnen worden aangepast, ongeacht de omvang
van de dataset
Eigenschappen van goede database
- Persistentie
- Doorzoekbaarheid
- Gemakkelijk te delen
- Problemen met ontbrekende, onvolledige of foutieve gegevens goed behandelbaar
Verschillende instrumenten (types databases)
1. Mappen
2. Referentiemanagementprogramma’s
3. Content-managementsystemen
4. Uit digitale bibliotheek van universiteit
5. Repositoiries
6. Onderzoeksdatabanken
Datamodellen
1. Individuele tabellen
2. Relationele gegevensbanken
3. Hiërarchische structuren met mark-uptaal
4. Linked (open) data met RDF
SQL
= Standaard-zoektaal voor relationele databases
Data cleaning en data transformation
Criteria voor kwaliteit gegevens
- Intrinsieke criteria: correct, objectief, betrouwbare bron, ...
- Contextuele criteria: relevant, nuttig, …
- Representatieve criteria: duidelijk gedefinieerd, goed interpreteerbaar, ...
- Toegankelijkheid
Data cleaning
= het correct coderen van ontbrekende gegevens, het verwijderen van duplicaten en het
uitzuiveren van foutieve input
- Bij
Manuele invoer
Automatische collectie
Samenwerken met anderen
- Beslissingen over missing data
Data transformation
Je past structuur van verzameling gegevens aan in functie van de onderzoeksvraag die je
wil beantwoorden
Bv
, Rijen in kolommen omzetten en omgekeerd (= transponeren)
Automatisch informatie uit verschillende tabellen combineren
Omzetten schaal of meetniveau van eigenschap/variabele
...
SQL, draaitabellen, ...
Meetniveaus
Numerieke data Categorische data
- Binair
= resultaat van een telling Data kunnen = beperkt aantal waarden door onderzoeker
2 waarden gedefinieerd
- Interval
aannemen - Nominaal
Waarden zijn volwaardige
getallen, geen intrinsiek Waarden zonder betekenisvolle
nulpunt ordening ertussen
- Ratio - Ordinaal
Waarden zijn volwaardige Waarden op betekenisvolle
getallen met intrinsiek nulpunt manier geordend
Andere opdeling
- Discreet
Geen derde waarde tussen
twee elkaar opvolgende
waarden
- Continu
Altijd derde waarde tussen
twee andere waarden
Tabellen
Eendimensionele tabel
= eerste rij of eerste kolom gebruikt als hoofding
Kruistabel
= labels zowel in eerste rij als eerste kolom
Hiërarchische tabel
= meerdere labels combineren
, Hoe aanmaken in LibreOffice Base met SQL?
CREATE TABLE STUDENT (
ID int NOT NULL
VOORNAAM var
Een complexere databank ontwerpen
Redunantie
= overbodige gegevens
Herhalingen van bepaalde informatie in tabellen
- Databank wordt nodeloos groot
- Verhoogt kans op fouten
Relationele databases
Informatie uit elkaar trekken om redunantie te vermijden
Kruisverbanden leggen
Redunantie DUS
SID: identificeert student
PID: duidt project aan
Primaire sleutel (aangeduid met ‘*’) van een record (rij) identificeert dat record (die rij) zelf
uniek, d.i. de sleutel maakt dat record uniek binnen de huidige tabel
- Helpt om te voorkomen dat bepaalde informatie dubbel staat
- Laat toe om van overal in de database te verwijzen naar dat record
Kolom ID in student = primaire sleutel van die tabel
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper MKUL02. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €9,99. Je zit daarna nergens aan vast.