100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached
logo-home
Biostatistiek overzicht slides in tekstbestand 2e bach BMW UHasselt $3.81   Add to cart

Class notes

Biostatistiek overzicht slides in tekstbestand 2e bach BMW UHasselt

2 reviews
 371 views  10 purchases
  • Course
  • Institution

Overzicht van de slides in een tekstbestand. Handig om mee te nemen naar het open boek examen. Dit tekstbestand beslaat minder pagina's dan wanneer je alle slides als plaatjes afdrukt.

Preview 4 out of 31  pages

  • June 22, 2017
  • 31
  • 2016/2017
  • Class notes
  • Unknown
  • All classes

2  reviews

review-writer-avatar

By: cgeywitz • 5 year ago

review-writer-avatar

By: francisbeckers • 6 year ago

avatar-seller
ZSO 1 DATA MANAGEMENT
Inleiding
 Gegevens verzamelen
o In klinische studie: protocol en Case Report Form (CRF)
o In epidemiologische studie: niet strikt gereguleerd, uiteenlopende bronnen
 Data efficiënt opslaan op een computer  Database design, normalisatie
 Op een betrouwbare manier informatie uit een database management systeem halen  Structured Query
Language (SQL)
 Data analyseren  Statistische software zoals SAS JMP, R, SPSS,…

Ontwikkelen van een database
1. Identificeren van de data items die moeten verzameld worden
Welke gegevens hebben we nodig om de wetenschappelijke hypothese te testen?
2. Keuze van een instrument om data te verzamelen
Hoe verzamelen we de data die we nodig hebben? Via metingen, vragenlijsten, opvragen medische
dossiers,…?
3. Opstellen van de database
Hoe slaan we de verzamelde gegevens op een slimme manier op in een computer?

Databases
Klinische studie
 Clinical trial: A study involving the assessment of one or more regimens used in treating or preventing a
specific illness or disease (McFadden, 2007)
 Het design, doel, aantal patiënten etc. hangen af van de fase van de klinische studie

Data items die verzameld moeten worden
 Relevant voor de administratie van de studie
o Info om de patiënt uniek te identificeren (ID) + contact details
o Naam van de studie (+ naam van het centrum bij multicenter trials)
 Onderzoeksdata
o Alle informatie die nodig is om onderzoeksvragen in het protocol te beantwoorden
 Bv. Metingen van klinische eindpunten, relevante data (instappen in de studie, toedienen
van behandeling, …)
 De hoeveelheid onderzoeksdata die moet verzameld worden varieert sterk
o Verzamel enkel relevante data
 Niet alle klinisch relevante data zijn relevante onderzoeksdata
 Bv. de exacte timing van de interventie kan relevant zijn voor klinische zorg (vermeld
in medisch dossier), maar niet om onderzoeksvragen te beantwoorden  neem
deze data niet op in de database
 Irrelevante data verhogen de tijd en moeite die nodig is om de data te verzamelen, in te
geven en te verwerken, en vergroten de complexiteit van de databank en het risico op
missing data etc.

Data items die moeten verzameld worden zijn geïdentificeerd → ontwikkel Case Report Form (CRF) = officieel
document gebruikt om alle relevante patiënt informatie die bekomen wordt in een klinische studie te noteren. Hoge
kwaliteit vereist: een zwak ontworpen CRF kan leiden tot onbetrouwbare data en mogelijk verkeerde conclusies van
de studie.

Epidemiologische studies
 Epidemiology: “The study of the occurrence and distribution of health-related states or events in specified
populations, including the study of determinants influencing such states, and the application of this
knowledge to control the health problems” (Dictionary of Epidemiology, Porta 2008)

,  Zeer brede en diverse lijn van onderzoek  experimentele vs observationele studies
 De verzamelde data is ook zeer divers: vragenlijsten, formulieren, metingen van medische apparatuur,
biologische data,…

2 settings van data
1. Secundaire data (uit bestaande databanken)
o Gemakkelijk om te op te nemen in nieuwe databank
o Opgelet met
 Verschillende bronnen met verschillende structuren
 Verschillende classificatie/codering van variabelen
 Identifiers aanwezig?
2. Primaire data (nieuw verzameld)
o Zeer verschillende bronnen en types van gegevens
o Data management:
 Gebruik identifiers om verschillende bronnen/types te linken
 Definieer een classificatie/coderings-systeem

Complexe combinatie van verschillende bronnen/types van data
 Zorg ervoor dat de uiteindelijke datastructuur duidelijk is voordat het verzamelen van gegevens begint
 Maak een data dictionary of codebook
o Identificeert alle bronnen van data (alle verzamelde, afgeleide, getransformeerde,… variabelen)
o Maakt het data management inzichtelijk
o Reduceert fouten en verlies van data




Figuur 1. Voorbeeld van een data dictionary (Ahrens, W. et al. (2014): Handbook of epidemiology (Table 27.2))

Ontwerpen van een database
Vlakke database
Beschouw volgend eenvoudig voorbeeld

 Men wil een databank opstellen voor het Master in Statistics programma die de volgende informatie bevat:
o Voornaam, familienaam, student ID
o Volgt de cursus Software & Data Management: Y (yes) of N (no)
 De databank moet enkele eenvoudige queries aankunnen
o Query (vraagstelling): opdracht die aan een database wordt gegeven om een bepaalde actie uit te
voeren, die ook potentieel gegevens teruggeeft.
o Bv. Lijst van personen die de cursus volgen, aantal personen die de cursus volgen, etc.

Voor dit probleem volstaat een vlakke (flat) database: een enkelvoudige tabel die alle informatie bevat:
First name Last name Student ID Takes course
Martin Van Deun S0001 Y
Sarah Smith S0002 Y
Mary Kopals S0003 N
… … … …

,Beschouw nu de volgende setting

 Een database is nodig voor het MSc. Statistics programma die bevat:
o Voornaam, familienaam, student ID
o Vakken die de student volgt (CPS, LinMod, S&DM, …)
 Moet enkele eenvoudige queries aankunnen
o Bv. Lijst maken van personen die een bepaalde cursus volgen, het gemiddelde aantal studenten die
een cursus volgen, etc.

Vlakke database met meerdere kolommen (breed formaat):
First name Last name Student ID GLM LinMod CPS Bayesian S&DM … LDA
Statistics
Martin Van Deun S0001 Y Y N Y N … Y
Sarah Smith S0002 Y Y N Y Y … Y
Mary Kopals S0003 N N N Y Y … Y
… … … … … … … … … …
 Problemen:
o Grote tabel, bijvoorbeeld 20 cursussen in Hasselt en 80 andere in andere universiteiten
 Bij 50 studenten hebben we (3 + 100) * 50 = 5150 ‘cellen’ nodig om de data op te slaan
o Verspilde ruimte  Bv vakken die niemand volgt

Vlakke database met meerdere rijen (lang formaat):
First name Last name Student ID Course Taken
Martin Van Deun S0001 REG
Martin Van Deun S0001 ANOVA
Martin Van Deun S0001 Bayesian
… … … …
Martin Van Deun S0001 LDA
Sarah Smith S0002 REG
… … … …
 Problemen:
o Kleinere tabel
 Bij 50 studenten die allemaal 10 vakken volgen: (4 * 10 * 50) = 2000 cellen nodig
o Maar: veel onnodige herhaling
 Voornaam, familienaam, student ID wordt 10 keer herhaald
 Indien we het adres van de studenten willen toevoegen (straat, huisnummer, postcode,
gemeente): (8 * 10 * 50) = 8000 cellen

Vlakke database, 1-cel aanpak:
First name Last name Student ID Courses
Martin Van Deun S0001 GLM, LinMod, Bayesian, …, LDA
Sarah Smith S0002 GLM, LinMod, Bayesian, S&DM, …, LDA
Mary Kopals S0003 Bayesian, S&DM, LDA
… … … …
 Grootste probleem:
o Queries worden problematisch:
 Bv. “Verkrijg een lijst van alle studenten die de LinMod cursus volgen.”
Of: “Bereken het gemiddelde aantal vakken dat een student volgt.”

Vlakke database: Enkel bruikbaar in zeer eenvoudige settings

In meer realistische settings (bv. Klinische studie, epidemiologische studie, industrie): gebruik relationele database
(Codd, 1970).

Relationele database
Concept van een relationele database: Verdeel de data in meerdere tabellen (= relaties) die verbonden zijn
gebaseerd op informatie binnen kolommen.

, Tabel 1. Studenten Tabel 2 Cursussen. Geen onnodige herhalening.

Student ID First name Last name Student ID Course name
S0001 Martin Van Deun S0001 GLM
S0002 Sarah Smith S0001 CPS
S0003 Mary Kopals S0001 Bayesian
… … … … …
S0001 LDA
S0002 GLM
… …


 (3 * 50) + (2 * 10 * 50) = 1150 cellen nodig
versus
 vlak breed formaat: 5150 cellen
 vlak lang formaat: 2000 cellen



1. Hoe verdelen we de data over meerdere tabellen op een optimale manier?
 Normalisatie
2. Hoe voegen we data van meerdere tabellen aaneen om gewenste informatie te verkrijgen?
 Structured Query Language (SQL)

Relatie: een twee-dimensionale tabel die een titel heeft en

 Rijen die individuele informatie bevatten = tupels
 Kolommen die overeenkomen met eigenschappen die de individuele informatie beschrijft = attributen




Primaire sleutel: een verzameling attributen die een tupel in een relatie op een eenduidige manier identificeren (nu
en in de toekomst)  Familienaam student? Voornaam en familienaam student? (composite key) Student ID?
meestal onderlijnd in tabel.

Relatie diagram (class diagram)
Diagram dat de structuur van een database beschrijft door de verschillende relaties te tonen met hun verbanden.
Studenten Cursussen
StudentID StudentID
First name Course Name
Last name




 Abstracte weergave van de data
 Nuttig voor SQL: welke info staat in welke tabel en hoe
kunnen deze samengevoegd worden?
o Bv., “Maak voor elke patiënt een lijst met de
neveneffecten (adverse effects) die deze
patient ervaren heeft”

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

Quick and easy check-out

You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller biomedicalsciencestudent. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $3.81. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

79373 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy study notes for 14 years now

Start selling
$3.81  10x  sold
  • (2)
  Add to cart