Statistiek voor de gezondheidswetenschappen: Theorie
19 views 1 purchase
Course
Statistiek
Institution
Universiteit Gent (UGent)
Book
Inleiding in de toegepaste biostatistiek
De volledige lessen uitgeschreven, met handige voorbeeldjes. Je kan het vak studeren aan de hand van dit document zonder de lessen te bekijken. kernwoorden staan in het vet. Handige inhoudstafel achteraan in het document. Ik behaalde hiermee 19/20.
Statistiek voor de
gezondheidswetenschappen: Theorie
Handboek is verplichte leerstof. Wat niet in de les wordt gezien moet je niet kennen. Er is een lijst op
Ufora wat je niet moet kennen.
Lijst op Ufora wat je op het examen krijgt. Formules moet je niet kennen en je krijgt 3 statistische
tabellen op het examen. Je krijgt dat bij het examen. Je moet het niet zelf meenemen.
Math for Stat
E-learning statistiek faculteit geneeskunde (wel ook met dingen die je niet moet kennen bij ons)
Examen: gewone rekenmachine of wetenschappelijke, geen grafische rekenmachine. Geen GIS
correctie, maar hogere cesuur (16/25 van de vragen moeten juist zijn om te slagen). Vul alle vragen
in want gokken wordt dus niet afgestraft.
Werkcolleges: werken met een online stemsysteem. Zou moeten lukken van thuis uit ook.
H1: Inleiding
Toegepaste statistiek: we gaan onze data statistisch gaan analyseren om een onderzoeksvraag te
gaan beantwoorden, die voor ons vakgebied relevant is.
Data: zijn de gegevens die we verzamelen in ons onderzoek, waarnemingen, observaties die we doen
op variabelen (dit zijn de eigenschappen op onze onderzoekseenheden die variëren. Deze eenheden
zijn doorgaans personen.)
Doelpopulatie = de grotere populatie waarover we uiteindelijk een uitspraak willen doen.
Steekproef = we trekken een sample uit onze doelpopulatie om het onderzoek op uit te voeren. Die
steekproef wordt op een goeie manier afgenomen zodat deze representatief is. Het is op de
steekproef dat we de variabelen gaan waarnemen.
Onderzoeksvormen
Observationeel: je komt als onderzoeker niet tussen, maar je gaat observeren.
Prospectief: opvolgen in de tijd
Crossectioneel: op een meting
Retrospectief: variabelen in het verleden gaan opnemen
Case-Control: selectie van cases (bv met longkanker), controlegroep (bv zonder longkanker) en dan
vergelijken maken (bv hoeveel hebben er gerookt bij longkanker vroeger)
Experimenteel: je komt wel tussen als onderzoeker, je voert een interventie uit. Dit is altijd
prospectief. Je voert een interventie uit en gaat in de tijd gaan kijken welke invloed deze interventie
heeft.
Terminologie
Uitkomstvariabele: de variabele die we willen gaan voorspellen, die we onderzoeken. De
afhankelijke, dependent, outcome.
,Soorten variabelen
Categorische/kwalitatieve/categoriale variabelen: hebben als uitkomst een vast aantal mogelijke
uitkomsten hebben.
• Nominaal: je kunt ze niet ordenen (bv de 4 verschillende richtingen die de les volgen)
• Ordinaal: je kunt ze ordenen van laag naar hoog (TSO, BSO,…)
• Dichotoom: je hebt maar 2 uitkomsten. Deze gaan we vaak specifiek gaan coderen. Dummy
coderingen: 1 en 0.
Numerieke/kwantitatieve variabelen:
• Continue: oneindig aantal mogelijke waarden aannemen op een continuüm. (Bv
lichaamslengte zijn in theorie oneindig, maar in praktijk wel afgebakend)
o Interval-schaal: tussen elke afstand op het continuüm zijn altijd gelijk. (Bv verschil tussen
10 en
o Ratio-schaal: je hebt dan nog eens het natuurlijk nulpunt. Bij nul heb je geen
lichaamslengte dus ontbreekt. Bij Temperatuur is er geen ratio-schaal want bij 0°
ontbreekt de temperatuur niet.
• Discreet: deze niet zuiver continue. Het zijn enkel gehele getallen/aantallen. Bv: hoeveel keer
ben je naar huisarts geweest in laatste jaar. Je kan geen anderhalve keer geweest zijn. Het
kunnen enkel gehele getallen zijn. Ze zijn niet zuiver continue.
Een numerieke variabele kan een categorische worden.
Bv BMI gemeten (lichaamslengte en gewicht). BMI is een continue variabele (numerieke). Het kan
zijn dat je de BMI gaat bekijken in 3 niveaus: ondergewicht, normaal gewicht en overgewicht. Als je
hier meewerkt dan wordt het een categorische variabele. Dit kan ook bij leeftijd zo zijn (exacte
leeftijd → leeftijdscategorie). Je kunt eigenschappen vaak meten numeriek en categorisch.
Vaak heb je variabelen die worden aangeduid op een liquid schaal. Bv hoe sta je tegenover een
stelling. Je moet je houding aanduiden op een schaal van 1 tot 10. Op zich zijn dit categorische
variabelen. Je hebt vast aantal mogelijke uitkomstmogelijkheden. Vanaf minstens 5 mogelijkheden
gaan we vaak toch als een numerieke variabele ermee omgaan doordat we dan vaak gemiddelden
gaan berekenen.
Soorten statistiek
Beschrijvende statistiek: we gaan nog geen onderzoeksvraag behandelen, … We gaan onze gegevens
die we verzamelt hebben over de variabelen gaan we op een overzichtelijke manier gaan samen
vatten. In artikels heb je vaak als eerste tabel een overzicht van je steekproef. Dit is het eerste wat je
doet. Dit is een eerste stap!
H2: Beschrijvende statistiek
Cross-sectioneel: op 1 moment gemeten
Geslacht is gecodeerd in het voorbeeld als 0 en 1 dus is dichotoom, maar nu meestal gedefinieerd als
een categorische die onderverdeeld is in meer dan twee categorieën nu. Dus het is afhankelijk over
2
,hoe iets beschreven wordt. Kan verschillend zijn. Roken is ook zo. Je rook of je rookt niet. Maar kan je
ook als categorische: roker, niet roker of ex-roker. Maar je kan het ook zien als continue variabele
door het bereken van het aantal tabaksjaren.
Grafische weergaven
Categorische variabelen:
• Staafdiagram (bar chart)
Verschillende mogelijke uitkomsten op de x-as en de aantallen op de y-as.
specifieke vorm: geclusterd of gesegmenteerd. Associatie tussen 2 categorische variabele die
in een staafdiagram wordt weergegeven. Bv bijwerkingen na bepaald medicijn: vaak, zeer
vaak of weinig kun je uitkomsten hebben en de dichotoom geslacht.
• Taartdiagram
In wetenschappelijke uitdrukkingen minder gebruikt, wel veel in visuele presentaties en
rapporten.
Continue variabele:
• Histogram
Eenvoudig, maar krachtige manier om te zien hoe de variabele verdeeld is in de dataset.
Alle mogelijke waarden in dat continuüm op de x-as en de frequentie op de y-as.
Bv: cholesterolgehalte (groot gedeelte in het midden) of leeftijd (grilliger patroon).
• Tak-en-blad diagram (wordt weinig gebruikt in onze sector en bij een grote groep is het niet
zo duidelijk. De tak: 10 tallen, blad: eenheden. Dus je leest dit af: er zijn 2 personen met een
leeftijd van 19, 9 personen met een leeftijd van in de 20: 2x 21, 3x22, 1x23 en 3x24.
Combinatie van 2 continue variabelen:
• Puntenwolk = scatterplot
1 continue variabele op x-as en andere continue variabele op de y-as. Dan is iedere punt een
resultaat van een proefpersoon. Dan kun je de correlatie in de 2 variabelen bekijken.
Bv: leeftijd en cholesterol: hoe hoger de leeftijd dat er toch een zeker stijging is in
cholesterol.
Numerieke weergave
Categorische variabelen:
• Frequentietabel
Je moet weten hoeveel mensen er zitten in elke categorie. Bv geslacht: zoveel mannen of
vrouwen in percentages.
Voor de meeste variabelen heb je wel missende waarde = missing values doordat mensen
een vraag niet ingevuld werd. Dan kun je kijken hoeveel het ruwe percentage was en je kan
kijken wat het valid percentage is. Bv roken: er geeft 68% aan om niet te roken en 24% wel
roken, maar 8 niet ingevuld dus dan is dat eigenlijk 26,1% die rookt van al degene die het wel
ingevuld hebben. 24% is hierbij het ruwe percentage en 26?1 is de valid percentage.
En dan heb je het verschil die de cumulatieve percentage is. Dit zijn ook de relatieve
frequentie en cumulatieve frequentie.
Continue variabelen:
• Centrummaten = geeft een centrale waarde mee waardoor je je variabele goed kan
beschrijven
3
, o Modus = de waarde die het meest voorkomt in de dataset (voor hoeveel dit is of ligt
dit dicht bij gemiddelde, weet je niet. Weinig informatief)
o Rekenkundig gemiddelde = alle waarden in dataset optellen en delen door het totaal
aantal.
Meest gebruikt, meest informatief.
Maar je kunt het maar eigenlijk goed gebruiken als je variabele normaal verdeeld is.
Het hangt af van de distributie van je variabele of je het rekenkundig gemiddelde
mag gebruiken als centrummaat om je variabele te gaan beschrijven.
o Mediaan
Dit kun je gebruiken als je variabele te grillig verdeeld is en geen normale verdeling
hebt. Dan kun je op percentielpunten gaan baseren om een centrummaat te naar
voor schuiven. Percentielpunten zijn maten die geen berekening vergen. We gaan
niet alle info gaan gebruiken. Je gaat niet gaan rekenen, maar puur een ordening in
alle observaties. Van laag naar hoog en op basis daarvan bepaalde percentielpunten
gaan bepalen. Je ziet verschillende percentielpunten die opgevraagd zijn: p5: dit zijn
de laagste 5%. 5% van je steekproef heeft een cholesterol onder de 3.48. P75 wil bv
zeggen dat 25 % hoogste cholesterol waarde zit boven de 5,29. De centrummaat die
we op basis hiervan gaan gebruiken is de mediaan. Dit is de P50. Dit si de middelste
waarde. De helft heeft een cholesterol boven die waarde en onder die waarde. Dit
wordt dus gebruikt wanneer de variabele niet normaal verdeeld is. Maar het is
minder krachtig doordat het niet met een berekening is.
VB: Je ziet op het histogram dat de variabele leeftijd hier niet normaal verdeeld is.
Het gemiddelde wordt omhoog getrokken door de uitschieters die je rechts ziet in
het histogram. Het zijn er maar een paar die hogere leeftijd hebben, maar deze
worden meegenomen in rekenkundig gemiddelde. Hierdoor is het gemiddelde van
44 geen goede centrummaat. We gaan ons op de percentielpunten gaan baseren.
We gaan de leeftijd gaan ordenen. De mediaan is de middelste waarde. Dit is 38. De
helft is ouder, de helft is jonger. Dit is meer het centrum van de variabele.
Bekijken van de verdeling is cruciaal. Wat is een normale verdeling?
Geeft 2 grote kenmerken: ze is symmetrisch. Het gemiddelde is mooi in het midden.
Je hebt geen uitschieters links of rechts. Het is klokvormig, niet te hoog en niet te
plat. Dit betekent eigenlijk dat de meeste van de waarnemingen: 95% van de
waarnemingen ligt tussen 2 standaardeviaties onder het gemiddelde en 2
standaardeviaties boven het gemiddelde.
Het moet niet perfect zijn, maar het is een benadering.
Veel variabelen zijn scheef verdeeld: dit kan links of rechts zijn.
Bv veel bloedwaarden zijn skewed tot he right = scheef naar rechts. Hier gaan we de
mediaan gebruiken als centrummaat. Het gemiddelde wordt omhoog getrokken door
de uitschieters die rechts liggen.
Skewed tot he left = linkse scheef verdeeld, bv geboortegewicht of
zwangerschapsduur. Gemiddelde ligt veel lager dan de mediaan doordat je
uitschieters hebt aan de linker kant (vroeggeboortes). Uitschieters aan de rechter
kant heb je niet doordat de bevalling ingeleid wordt.
4
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller nathaliesoetaert. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $11.26. You're not tied to anything after your purchase.