Samenvatting L-Dataverwerking
Hoofdstuk 1 Data Voorbereiden
Inleiding
Een database
= een gestructureerde verzameling gegevens waarin de data op zo’n manier zijn geordend
dat ze vlot toegankelijk zijn en gemakkelijk kunnen worden aangepast, ongeacht de omvang
van de dataset
Eigenschappen van goede database
- Persistentie
- Doorzoekbaarheid
- Gemakkelijk te delen
- Problemen met ontbrekende, onvolledige of foutieve gegevens goed behandelbaar
Verschillende instrumenten (types databases)
1. Mappen
2. Referentiemanagementprogramma’s
3. Content-managementsystemen
4. Uit digitale bibliotheek van universiteit
5. Repositoiries
6. Onderzoeksdatabanken
Datamodellen
1. Individuele tabellen
2. Relationele gegevensbanken
3. Hiërarchische structuren met mark-uptaal
4. Linked (open) data met RDF
SQL
= Standaard-zoektaal voor relationele databases
Data cleaning en data transformation
Criteria voor kwaliteit gegevens
- Intrinsieke criteria: correct, objectief, betrouwbare bron, ...
- Contextuele criteria: relevant, nuttig, …
- Representatieve criteria: duidelijk gedefinieerd, goed interpreteerbaar, ...
- Toegankelijkheid
Data cleaning
= het correct coderen van ontbrekende gegevens, het verwijderen van duplicaten en het
uitzuiveren van foutieve input
- Bij
Manuele invoer
Automatische collectie
Samenwerken met anderen
- Beslissingen over missing data
Data transformation
Je past structuur van verzameling gegevens aan in functie van de onderzoeksvraag die je
wil beantwoorden
Bv
, Rijen in kolommen omzetten en omgekeerd (= transponeren)
Automatisch informatie uit verschillende tabellen combineren
Omzetten schaal of meetniveau van eigenschap/variabele
...
SQL, draaitabellen, ...
Meetniveaus
Numerieke data Categorische data
- Binair
= resultaat van een telling Data kunnen = beperkt aantal waarden door onderzoeker
2 waarden gedefinieerd
- Interval
aannemen - Nominaal
Waarden zijn volwaardige
getallen, geen intrinsiek Waarden zonder betekenisvolle
nulpunt ordening ertussen
- Ratio - Ordinaal
Waarden zijn volwaardige Waarden op betekenisvolle
getallen met intrinsiek nulpunt manier geordend
Andere opdeling
- Discreet
Geen derde waarde tussen
twee elkaar opvolgende
waarden
- Continu
Altijd derde waarde tussen
twee andere waarden
Tabellen
Eendimensionele tabel
= eerste rij of eerste kolom gebruikt als hoofding
Kruistabel
= labels zowel in eerste rij als eerste kolom
Hiërarchische tabel
= meerdere labels combineren
, Hoe aanmaken in LibreOffice Base met SQL?
CREATE TABLE STUDENT (
ID int NOT NULL
VOORNAAM var
Een complexere databank ontwerpen
Redunantie
= overbodige gegevens
Herhalingen van bepaalde informatie in tabellen
- Databank wordt nodeloos groot
- Verhoogt kans op fouten
Relationele databases
Informatie uit elkaar trekken om redunantie te vermijden
Kruisverbanden leggen
Redunantie DUS
SID: identificeert student
PID: duidt project aan
Primaire sleutel (aangeduid met ‘*’) van een record (rij) identificeert dat record (die rij) zelf
uniek, d.i. de sleutel maakt dat record uniek binnen de huidige tabel
- Helpt om te voorkomen dat bepaalde informatie dubbel staat
- Laat toe om van overal in de database te verwijzen naar dat record
Kolom ID in student = primaire sleutel van die tabel
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller MDB02. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $10.72. You're not tied to anything after your purchase.