Overzicht van de slides in een tekstbestand.
Handig om mee te nemen naar het open boek examen. Dit tekstbestand beslaat minder pagina's dan wanneer je alle slides als plaatjes afdrukt.
ZSO 1 DATA MANAGEMENT
Inleiding
Gegevens verzamelen
o In klinische studie: protocol en Case Report Form (CRF)
o In epidemiologische studie: niet strikt gereguleerd, uiteenlopende bronnen
Data efficiënt opslaan op een computer Database design, normalisatie
Op een betrouwbare manier informatie uit een database management systeem halen Structured Query
Language (SQL)
Data analyseren Statistische software zoals SAS JMP, R, SPSS,…
Ontwikkelen van een database
1. Identificeren van de data items die moeten verzameld worden
Welke gegevens hebben we nodig om de wetenschappelijke hypothese te testen?
2. Keuze van een instrument om data te verzamelen
Hoe verzamelen we de data die we nodig hebben? Via metingen, vragenlijsten, opvragen medische
dossiers,…?
3. Opstellen van de database
Hoe slaan we de verzamelde gegevens op een slimme manier op in een computer?
Databases
Klinische studie
Clinical trial: A study involving the assessment of one or more regimens used in treating or preventing a
specific illness or disease (McFadden, 2007)
Het design, doel, aantal patiënten etc. hangen af van de fase van de klinische studie
Data items die verzameld moeten worden
Relevant voor de administratie van de studie
o Info om de patiënt uniek te identificeren (ID) + contact details
o Naam van de studie (+ naam van het centrum bij multicenter trials)
Onderzoeksdata
o Alle informatie die nodig is om onderzoeksvragen in het protocol te beantwoorden
Bv. Metingen van klinische eindpunten, relevante data (instappen in de studie, toedienen
van behandeling, …)
De hoeveelheid onderzoeksdata die moet verzameld worden varieert sterk
o Verzamel enkel relevante data
Niet alle klinisch relevante data zijn relevante onderzoeksdata
Bv. de exacte timing van de interventie kan relevant zijn voor klinische zorg (vermeld
in medisch dossier), maar niet om onderzoeksvragen te beantwoorden neem
deze data niet op in de database
Irrelevante data verhogen de tijd en moeite die nodig is om de data te verzamelen, in te
geven en te verwerken, en vergroten de complexiteit van de databank en het risico op
missing data etc.
Data items die moeten verzameld worden zijn geïdentificeerd → ontwikkel Case Report Form (CRF) = officieel
document gebruikt om alle relevante patiënt informatie die bekomen wordt in een klinische studie te noteren. Hoge
kwaliteit vereist: een zwak ontworpen CRF kan leiden tot onbetrouwbare data en mogelijk verkeerde conclusies van
de studie.
Epidemiologische studies
Epidemiology: “The study of the occurrence and distribution of health-related states or events in specified
populations, including the study of determinants influencing such states, and the application of this
knowledge to control the health problems” (Dictionary of Epidemiology, Porta 2008)
, Zeer brede en diverse lijn van onderzoek experimentele vs observationele studies
De verzamelde data is ook zeer divers: vragenlijsten, formulieren, metingen van medische apparatuur,
biologische data,…
2 settings van data
1. Secundaire data (uit bestaande databanken)
o Gemakkelijk om te op te nemen in nieuwe databank
o Opgelet met
Verschillende bronnen met verschillende structuren
Verschillende classificatie/codering van variabelen
Identifiers aanwezig?
2. Primaire data (nieuw verzameld)
o Zeer verschillende bronnen en types van gegevens
o Data management:
Gebruik identifiers om verschillende bronnen/types te linken
Definieer een classificatie/coderings-systeem
Complexe combinatie van verschillende bronnen/types van data
Zorg ervoor dat de uiteindelijke datastructuur duidelijk is voordat het verzamelen van gegevens begint
Maak een data dictionary of codebook
o Identificeert alle bronnen van data (alle verzamelde, afgeleide, getransformeerde,… variabelen)
o Maakt het data management inzichtelijk
o Reduceert fouten en verlies van data
Figuur 1. Voorbeeld van een data dictionary (Ahrens, W. et al. (2014): Handbook of epidemiology (Table 27.2))
Ontwerpen van een database
Vlakke database
Beschouw volgend eenvoudig voorbeeld
Men wil een databank opstellen voor het Master in Statistics programma die de volgende informatie bevat:
o Voornaam, familienaam, student ID
o Volgt de cursus Software & Data Management: Y (yes) of N (no)
De databank moet enkele eenvoudige queries aankunnen
o Query (vraagstelling): opdracht die aan een database wordt gegeven om een bepaalde actie uit te
voeren, die ook potentieel gegevens teruggeeft.
o Bv. Lijst van personen die de cursus volgen, aantal personen die de cursus volgen, etc.
Voor dit probleem volstaat een vlakke (flat) database: een enkelvoudige tabel die alle informatie bevat:
First name Last name Student ID Takes course
Martin Van Deun S0001 Y
Sarah Smith S0002 Y
Mary Kopals S0003 N
… … … …
,Beschouw nu de volgende setting
Een database is nodig voor het MSc. Statistics programma die bevat:
o Voornaam, familienaam, student ID
o Vakken die de student volgt (CPS, LinMod, S&DM, …)
Moet enkele eenvoudige queries aankunnen
o Bv. Lijst maken van personen die een bepaalde cursus volgen, het gemiddelde aantal studenten die
een cursus volgen, etc.
Vlakke database met meerdere kolommen (breed formaat):
First name Last name Student ID GLM LinMod CPS Bayesian S&DM … LDA
Statistics
Martin Van Deun S0001 Y Y N Y N … Y
Sarah Smith S0002 Y Y N Y Y … Y
Mary Kopals S0003 N N N Y Y … Y
… … … … … … … … … …
Problemen:
o Grote tabel, bijvoorbeeld 20 cursussen in Hasselt en 80 andere in andere universiteiten
Bij 50 studenten hebben we (3 + 100) * 50 = 5150 ‘cellen’ nodig om de data op te slaan
o Verspilde ruimte Bv vakken die niemand volgt
Vlakke database met meerdere rijen (lang formaat):
First name Last name Student ID Course Taken
Martin Van Deun S0001 REG
Martin Van Deun S0001 ANOVA
Martin Van Deun S0001 Bayesian
… … … …
Martin Van Deun S0001 LDA
Sarah Smith S0002 REG
… … … …
Problemen:
o Kleinere tabel
Bij 50 studenten die allemaal 10 vakken volgen: (4 * 10 * 50) = 2000 cellen nodig
o Maar: veel onnodige herhaling
Voornaam, familienaam, student ID wordt 10 keer herhaald
Indien we het adres van de studenten willen toevoegen (straat, huisnummer, postcode,
gemeente): (8 * 10 * 50) = 8000 cellen
Vlakke database, 1-cel aanpak:
First name Last name Student ID Courses
Martin Van Deun S0001 GLM, LinMod, Bayesian, …, LDA
Sarah Smith S0002 GLM, LinMod, Bayesian, S&DM, …, LDA
Mary Kopals S0003 Bayesian, S&DM, LDA
… … … …
Grootste probleem:
o Queries worden problematisch:
Bv. “Verkrijg een lijst van alle studenten die de LinMod cursus volgen.”
Of: “Bereken het gemiddelde aantal vakken dat een student volgt.”
Vlakke database: Enkel bruikbaar in zeer eenvoudige settings
In meer realistische settings (bv. Klinische studie, epidemiologische studie, industrie): gebruik relationele database
(Codd, 1970).
Relationele database
Concept van een relationele database: Verdeel de data in meerdere tabellen (= relaties) die verbonden zijn
gebaseerd op informatie binnen kolommen.
, Tabel 1. Studenten Tabel 2 Cursussen. Geen onnodige herhalening.
Student ID First name Last name Student ID Course name
S0001 Martin Van Deun S0001 GLM
S0002 Sarah Smith S0001 CPS
S0003 Mary Kopals S0001 Bayesian
… … … … …
S0001 LDA
S0002 GLM
… …
1. Hoe verdelen we de data over meerdere tabellen op een optimale manier?
Normalisatie
2. Hoe voegen we data van meerdere tabellen aaneen om gewenste informatie te verkrijgen?
Structured Query Language (SQL)
Relatie: een twee-dimensionale tabel die een titel heeft en
Rijen die individuele informatie bevatten = tupels
Kolommen die overeenkomen met eigenschappen die de individuele informatie beschrijft = attributen
Primaire sleutel: een verzameling attributen die een tupel in een relatie op een eenduidige manier identificeren (nu
en in de toekomst) Familienaam student? Voornaam en familienaam student? (composite key) Student ID?
meestal onderlijnd in tabel.
Relatie diagram (class diagram)
Diagram dat de structuur van een database beschrijft door de verschillende relaties te tonen met hun verbanden.
Studenten Cursussen
StudentID StudentID
First name Course Name
Last name
Abstracte weergave van de data
Nuttig voor SQL: welke info staat in welke tabel en hoe
kunnen deze samengevoegd worden?
o Bv., “Maak voor elke patiënt een lijst met de
neveneffecten (adverse effects) die deze
patient ervaren heeft”
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller biomedicalsciencestudent. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $3.81. You're not tied to anything after your purchase.