Garantie de satisfaction à 100% Disponible immédiatement après paiement En ligne et en PDF Tu n'es attaché à rien
logo-home
Biostatistiek overzicht slides in tekstbestand 2e bach BMW UHasselt €3,50
Ajouter au panier

Notes de cours

Biostatistiek overzicht slides in tekstbestand 2e bach BMW UHasselt

2 revues
 371 vues  10 fois vendu

Overzicht van de slides in een tekstbestand. Handig om mee te nemen naar het open boek examen. Dit tekstbestand beslaat minder pagina's dan wanneer je alle slides als plaatjes afdrukt.

Aperçu 4 sur 31  pages

  • 22 juin 2017
  • 31
  • 2016/2017
  • Notes de cours
  • Inconnu
  • Toutes les classes
Tous les documents sur ce sujet (1)

2  revues

review-writer-avatar

Par: cgeywitz • 5 année de cela

review-writer-avatar

Par: francisbeckers • 6 année de cela

avatar-seller
biomedicalsciencestudent
ZSO 1 DATA MANAGEMENT
Inleiding
 Gegevens verzamelen
o In klinische studie: protocol en Case Report Form (CRF)
o In epidemiologische studie: niet strikt gereguleerd, uiteenlopende bronnen
 Data efficiënt opslaan op een computer  Database design, normalisatie
 Op een betrouwbare manier informatie uit een database management systeem halen  Structured Query
Language (SQL)
 Data analyseren  Statistische software zoals SAS JMP, R, SPSS,…

Ontwikkelen van een database
1. Identificeren van de data items die moeten verzameld worden
Welke gegevens hebben we nodig om de wetenschappelijke hypothese te testen?
2. Keuze van een instrument om data te verzamelen
Hoe verzamelen we de data die we nodig hebben? Via metingen, vragenlijsten, opvragen medische
dossiers,…?
3. Opstellen van de database
Hoe slaan we de verzamelde gegevens op een slimme manier op in een computer?

Databases
Klinische studie
 Clinical trial: A study involving the assessment of one or more regimens used in treating or preventing a
specific illness or disease (McFadden, 2007)
 Het design, doel, aantal patiënten etc. hangen af van de fase van de klinische studie

Data items die verzameld moeten worden
 Relevant voor de administratie van de studie
o Info om de patiënt uniek te identificeren (ID) + contact details
o Naam van de studie (+ naam van het centrum bij multicenter trials)
 Onderzoeksdata
o Alle informatie die nodig is om onderzoeksvragen in het protocol te beantwoorden
 Bv. Metingen van klinische eindpunten, relevante data (instappen in de studie, toedienen
van behandeling, …)
 De hoeveelheid onderzoeksdata die moet verzameld worden varieert sterk
o Verzamel enkel relevante data
 Niet alle klinisch relevante data zijn relevante onderzoeksdata
 Bv. de exacte timing van de interventie kan relevant zijn voor klinische zorg (vermeld
in medisch dossier), maar niet om onderzoeksvragen te beantwoorden  neem
deze data niet op in de database
 Irrelevante data verhogen de tijd en moeite die nodig is om de data te verzamelen, in te
geven en te verwerken, en vergroten de complexiteit van de databank en het risico op
missing data etc.

Data items die moeten verzameld worden zijn geïdentificeerd → ontwikkel Case Report Form (CRF) = officieel
document gebruikt om alle relevante patiënt informatie die bekomen wordt in een klinische studie te noteren. Hoge
kwaliteit vereist: een zwak ontworpen CRF kan leiden tot onbetrouwbare data en mogelijk verkeerde conclusies van
de studie.

Epidemiologische studies
 Epidemiology: “The study of the occurrence and distribution of health-related states or events in specified
populations, including the study of determinants influencing such states, and the application of this
knowledge to control the health problems” (Dictionary of Epidemiology, Porta 2008)

,  Zeer brede en diverse lijn van onderzoek  experimentele vs observationele studies
 De verzamelde data is ook zeer divers: vragenlijsten, formulieren, metingen van medische apparatuur,
biologische data,…

2 settings van data
1. Secundaire data (uit bestaande databanken)
o Gemakkelijk om te op te nemen in nieuwe databank
o Opgelet met
 Verschillende bronnen met verschillende structuren
 Verschillende classificatie/codering van variabelen
 Identifiers aanwezig?
2. Primaire data (nieuw verzameld)
o Zeer verschillende bronnen en types van gegevens
o Data management:
 Gebruik identifiers om verschillende bronnen/types te linken
 Definieer een classificatie/coderings-systeem

Complexe combinatie van verschillende bronnen/types van data
 Zorg ervoor dat de uiteindelijke datastructuur duidelijk is voordat het verzamelen van gegevens begint
 Maak een data dictionary of codebook
o Identificeert alle bronnen van data (alle verzamelde, afgeleide, getransformeerde,… variabelen)
o Maakt het data management inzichtelijk
o Reduceert fouten en verlies van data




Figuur 1. Voorbeeld van een data dictionary (Ahrens, W. et al. (2014): Handbook of epidemiology (Table 27.2))

Ontwerpen van een database
Vlakke database
Beschouw volgend eenvoudig voorbeeld

 Men wil een databank opstellen voor het Master in Statistics programma die de volgende informatie bevat:
o Voornaam, familienaam, student ID
o Volgt de cursus Software & Data Management: Y (yes) of N (no)
 De databank moet enkele eenvoudige queries aankunnen
o Query (vraagstelling): opdracht die aan een database wordt gegeven om een bepaalde actie uit te
voeren, die ook potentieel gegevens teruggeeft.
o Bv. Lijst van personen die de cursus volgen, aantal personen die de cursus volgen, etc.

Voor dit probleem volstaat een vlakke (flat) database: een enkelvoudige tabel die alle informatie bevat:
First name Last name Student ID Takes course
Martin Van Deun S0001 Y
Sarah Smith S0002 Y
Mary Kopals S0003 N
… … … …

,Beschouw nu de volgende setting

 Een database is nodig voor het MSc. Statistics programma die bevat:
o Voornaam, familienaam, student ID
o Vakken die de student volgt (CPS, LinMod, S&DM, …)
 Moet enkele eenvoudige queries aankunnen
o Bv. Lijst maken van personen die een bepaalde cursus volgen, het gemiddelde aantal studenten die
een cursus volgen, etc.

Vlakke database met meerdere kolommen (breed formaat):
First name Last name Student ID GLM LinMod CPS Bayesian S&DM … LDA
Statistics
Martin Van Deun S0001 Y Y N Y N … Y
Sarah Smith S0002 Y Y N Y Y … Y
Mary Kopals S0003 N N N Y Y … Y
… … … … … … … … … …
 Problemen:
o Grote tabel, bijvoorbeeld 20 cursussen in Hasselt en 80 andere in andere universiteiten
 Bij 50 studenten hebben we (3 + 100) * 50 = 5150 ‘cellen’ nodig om de data op te slaan
o Verspilde ruimte  Bv vakken die niemand volgt

Vlakke database met meerdere rijen (lang formaat):
First name Last name Student ID Course Taken
Martin Van Deun S0001 REG
Martin Van Deun S0001 ANOVA
Martin Van Deun S0001 Bayesian
… … … …
Martin Van Deun S0001 LDA
Sarah Smith S0002 REG
… … … …
 Problemen:
o Kleinere tabel
 Bij 50 studenten die allemaal 10 vakken volgen: (4 * 10 * 50) = 2000 cellen nodig
o Maar: veel onnodige herhaling
 Voornaam, familienaam, student ID wordt 10 keer herhaald
 Indien we het adres van de studenten willen toevoegen (straat, huisnummer, postcode,
gemeente): (8 * 10 * 50) = 8000 cellen

Vlakke database, 1-cel aanpak:
First name Last name Student ID Courses
Martin Van Deun S0001 GLM, LinMod, Bayesian, …, LDA
Sarah Smith S0002 GLM, LinMod, Bayesian, S&DM, …, LDA
Mary Kopals S0003 Bayesian, S&DM, LDA
… … … …
 Grootste probleem:
o Queries worden problematisch:
 Bv. “Verkrijg een lijst van alle studenten die de LinMod cursus volgen.”
Of: “Bereken het gemiddelde aantal vakken dat een student volgt.”

Vlakke database: Enkel bruikbaar in zeer eenvoudige settings

In meer realistische settings (bv. Klinische studie, epidemiologische studie, industrie): gebruik relationele database
(Codd, 1970).

Relationele database
Concept van een relationele database: Verdeel de data in meerdere tabellen (= relaties) die verbonden zijn
gebaseerd op informatie binnen kolommen.

, Tabel 1. Studenten Tabel 2 Cursussen. Geen onnodige herhalening.

Student ID First name Last name Student ID Course name
S0001 Martin Van Deun S0001 GLM
S0002 Sarah Smith S0001 CPS
S0003 Mary Kopals S0001 Bayesian
… … … … …
S0001 LDA
S0002 GLM
… …


 (3 * 50) + (2 * 10 * 50) = 1150 cellen nodig
versus
 vlak breed formaat: 5150 cellen
 vlak lang formaat: 2000 cellen



1. Hoe verdelen we de data over meerdere tabellen op een optimale manier?
 Normalisatie
2. Hoe voegen we data van meerdere tabellen aaneen om gewenste informatie te verkrijgen?
 Structured Query Language (SQL)

Relatie: een twee-dimensionale tabel die een titel heeft en

 Rijen die individuele informatie bevatten = tupels
 Kolommen die overeenkomen met eigenschappen die de individuele informatie beschrijft = attributen




Primaire sleutel: een verzameling attributen die een tupel in een relatie op een eenduidige manier identificeren (nu
en in de toekomst)  Familienaam student? Voornaam en familienaam student? (composite key) Student ID?
meestal onderlijnd in tabel.

Relatie diagram (class diagram)
Diagram dat de structuur van een database beschrijft door de verschillende relaties te tonen met hun verbanden.
Studenten Cursussen
StudentID StudentID
First name Course Name
Last name




 Abstracte weergave van de data
 Nuttig voor SQL: welke info staat in welke tabel en hoe
kunnen deze samengevoegd worden?
o Bv., “Maak voor elke patiënt een lijst met de
neveneffecten (adverse effects) die deze
patient ervaren heeft”

Les avantages d'acheter des résumés chez Stuvia:

Qualité garantie par les avis des clients

Qualité garantie par les avis des clients

Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.

L’achat facile et rapide

L’achat facile et rapide

Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.

Focus sur l’essentiel

Focus sur l’essentiel

Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.

Garantie de remboursement : comment ça marche ?

Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.

Auprès de qui est-ce que j'achète ce résumé ?

Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur biomedicalsciencestudent. Stuvia facilite les paiements au vendeur.

Est-ce que j'aurai un abonnement?

Non, vous n'achetez ce résumé que pour €3,50. Vous n'êtes lié à rien après votre achat.

Peut-on faire confiance à Stuvia ?

4.6 étoiles sur Google & Trustpilot (+1000 avis)

59804 résumés ont été vendus ces 30 derniers jours

Fondée en 2010, la référence pour acheter des résumés depuis déjà 15 ans

Commencez à vendre!
€3,50  10x  vendu
  • (2)
Ajouter au panier
Ajouté