Samenvatting van de volgende hoofdstukken van The Practice of Statistics in the Life Sciences: 1 t/m 6, 9, 11 t/m 15, 17 en 18. Gebruikt voor het tentamen van 'Inleiding Statistiek' van de premaster Klinische Gezondheidswetenschappen aan de Universiteit Utrecht. Uiteraard ook voor andere studies me...
Summary Research in Biomedical Sciences (AB_1142) partial exam 1+2
Summary Statistics and Methodology (AB_1201)
Research in Biomedical Sciences (AB_1142): Complete Summary (VU Amsterdam)
All for this textbook (6)
Written for
Universiteit Utrecht (UU)
Klinische Gezondheidwetenschappen
Inleiding statistiek
All documents for this subject (2)
3
reviews
By: marjetpoll • 1 year ago
By: lotte57 • 2 year ago
By: hildequicken • 3 year ago
Seller
Follow
aloeffen
Reviews received
Content preview
The Practice of Statistics in the Life Sciences
Hoofdstuk 1: Picturing Distributions with Graphs
Individuen en variabelen
Elke dataset bevat informatie over een groep individuen (een steekproef uit de populatie). Deze
informatie is georganiseerd in variabelen.
- Individuen: de objecten beschreven door een dataset. Dit kunnen mensen, dieren, planten
of dingen zijn.
- Variabelen: karakteristieken van een individu. Kan verschillende waarden voor verschillende
individuen aannemen. Dus de karakteristieken die onderzocht zijn onder de individuen.
In een spreadsheet kunnen de gegevens weergegeven worden. In elke rij staat dan een individu en in
elke kolom een variabele.
Variabelen
- Categorieke variabele: losse categorieën. Niet mee rekenen, maar in woorden. Plaatst een
individu dus in een groep of categorie. Bijv.: aantal muizen met uitzaaiingen categoriek;
wel/geen uitzaaiingen.
Nominaal: puur kwalitatief en in losse categorieën, bijv.: kleur.
Ordinaal: kwalitatief, wel rangorde. Bijv.: opleidingsniveau, Likertschaal. Niet mee te
rekenen. Geen gelijke verschillen tussen groepen.
- Kwantitatieve variabele (interval/ratio): meetgetallen. Hierbij kan bijv. een gemiddelde
berekent worden. Meestal in grootheden, bijv. seconden of kg.
Continue: elke waarde tussen twee getallen is mogelijk.
Discreet: bepaald en beperkt aantal getallen mogelijk, bijv. het aantal bloemblaadjes.
Goed interpreteren! Wel/niet obesitas is categoriek, maar het % obesen in een groep is kwantitatief.
Dus niet meteen door bepaalde woorden conclusies trekken.
Voorbeeld:
Subject Sekse Age PI Bias
1 M 6 -1.00 L
2 F 5 -0.95 L
3 F 4 1.00 R
4 F 1 0.13 A
-Geslacht: categoriek
-Leeftijd: kwantitatief, continue.
-PI (Pawedness Index): getallen tussen -1 en 1 o.b.v. het gebruik van linker of rechter pootje.
Kwantitatief en continue.
-Bias: voorkeurspootje. Links, rechts of beide. Dus categoriek.
Vraag jezelf af:
1. Wie zijn de individuen die zijn bestudeerd? Hoeveel individuen zijn er in de dataset?
2. Wat onderzoeken we? Hoeveel variabelen? Wat zijn de exacte definities, wat zijn de
meetniveaus? Welke grootheden worden er gebruikt?
3. Waarom? Wat is het doel van de data.
,Categorieke variabelen: cirkeldiagram en staagdiagram
Data analyse: verkennende data-analyse (exploreren) met grafieken en spreidings-/centrummaten:
1. Bestudeer eerst elke variabele apart en daarna de relatie tussen de variabelen;
2. Begin met grafieken, dan numerieke maten van specifieke aspecten van de data.
De verdeling van een variabele vertelt ons welke waarden nodig zijn en hoe vaak deze waarden
nodig zijn. De waarden van categorieke variabelen zijn labels voor de categorieën. De verdeling
wordt weergegeven in de categorieën en volgt met een aantal (frequentie) of percentage (relatieve
frequentie) van de individuen dat in iedere categorie valt.
Check op consistentie: kloppen de aantallen met het totaal en zijn de percentages opgeteld 100%? Zo
niet, zijn er afrondings-errors?
Cirkeldiagram
Goede visuele weergave. Kan slechts de categorieën van één variabele weergeven. Nuttig wanneer je
de relatie van elke categorie tot het geheel wil benadrukken.
Staafdiagram
Zijn bijzonder bedreven in het aangeven van de volgorde en het relatieve belang van de verschillende
categorieën. Dit kan bij een cirkeldiagram dus niet.
Kwantitatieve variabelen: histogram, dotplot en timeplot
Histogram
Meest voorkomende grafiek bij de verdeling van één kwantitatieve variabele.
1. Verdeel de data in klassen van gelijke wijdte;
2. Tel de individuen in elke klasse en check de consistentie;
3. Teken de histogram. Op de horizontale as komt de gekozen variabele en op de verticale as de
aantallen of percentages.
4. Wat zie je? Kijk naar het algemene patroon en naar duidelijke afwijkingen van dat patroon.
Het algemene patroon beschrijft je met:
- Vorm: het heeft één top (unimodaal).
Symmetrisch (ongeveer)
Scheef verdeeld naar rechts (positief
scheef)
Scheef verdeeld naar links (negatief scheef)
Maar de vorm kan ook twee toppen hebben, dan is er zowel geen sprake van symmetrie als
van scheefheid. We spreken dan van een bimodale verdeling. Je hebt dan twee clusters, je
moet deze beide clusters dan apart bekijken.
- Centrum: middelpunt
- Spreiding
Duidelijke afwijkingen zijn:
- Uitschieters: zoek bij grote uitschieters naar de oorzaak. Kunnen ook fouten zijn, maar hoeft
niet.
De keuze van de grootte van de klassen kan het uiterlijk van de histogram zodanig beïnvloeden.
Let op: zoek naar grote pieken, duidelijke uitschieters, duidelijke symmetrie of scheefheid. Niet voor
kleine dingen. Niet alle datasets hebben een mooie verdeling, probeer dit ook niet te forceren.
Dotplot
,Geeft iedere waarde uit de dataset weer. Er is slechts één as, met de variabele. Met (bijna) dezelfde
waarde worden opgestapeld. Laat de exacte locatie van iedere waarde zien. Hierdoor kun je de
uitschieters goed zien.
Timeplot
Om verandering in de tijd weer te geven bij variabelen die
gemeten zijn over een tijdsperiode (bijv. groei van
kinderen). Zet de tijd op de horizontale as en de gemeten
variabele op de verticale as. Door de punten kun je een lijn
trekken. Kijk naar een algemeen patroon en naar sterkte
afwijkingen van dit patroon. Je kunt dan veranderingen over
de tijd bekijken en ook cirkels of een trend herkennen:
lange-termijn (gestaag) stijgen of dalen.
Hoofdstuk 2: Describing Quantitative Distributions with Numbers
Numerieke maten zijn spreidings- en centrummaten.
Parameters: wanneer het over de hele populatie gaat;
Statistieken: wanneer het over de steekproef gaat.
Centrummaten
1. Mediaan (M): middelste waarneming. Bij oneven aantal waarnemen neem je het gemiddelde
van de middelste twee waarnemingen.
Locatie van de mediaan: (n + 1) / 2
In SPSS: 50th percentile
Niet gevoelig voor uitschieters.
2. Gemiddelde (X̄): alle waarnemingen optellen en delen door het totaal aantal waarnemingen.
Gevoelig voor uitschieters.
De mediaan en het gemiddelde kunnen allebei nuttig zijn in verschillende situaties.
Spreidingsmaten
1. Range: kleinste waarneming – grootste waarneming (bijv.: 0-250). Deze kunnen echter
uitschieters zijn.
2. Interkwartielafstand: afstand tussen het eerste en derde kwartiel.
Eerste kwartiel ligt op 25%, derde kwartiel op 75%. Dus: het eerste kwartiel (één
waarneming) is groter dan 25% van de waarnemingen en het derde kwartiel van 75%. Het
vijftigste percentiel (tweede kwartiel) is de mediaan. Het eerste kwartiel is eigenlijk de
mediaan van de helft kleinste waarnemingen en het derde kwartiel de mediaan van de helft
grootste waarnemingen (beter gezegd: de 50% rechts van de mediaan). Niet gevoelig voor
uitschieters.
Mediaan (2e kwartiel): 9.3
1e kwartiel: 8.5; 3e kwartiel: 10.9
3. Vijf-nummer maat: minimum – Q1 – M – Q3 – maximum
, 4. Standaarddeviatie (s):
De variantie (s2) is de gemiddelde gekwadrateerde afstand van iedere waarneming tot het
gemiddelde. Hoe groter de variantie, hoe groter de spreiding.
De standaarddeviatie van de steekproef is de wortel uit de variantie, dus de gemiddelde
afstand van iedere waarneming tot het gemiddelde.
Variantie:
Standaardafwijking:
1
s=
√ n−1
Σ ( x i−x )
2
Verschil van iedere observatie van het gemiddelde berekenen en deze vervolgens
kwadrateren. Deze uitkomsten van iedere observatie bij elkaar optellen en delen door n-1
(bij steekproef) dan ben heb je de variantie. Vervolgens trek je de wortel uit de variantie en
dan heb je de standaarddeviatie.
n-1 is het aantal vrijheidsgraden (bij 1 variabele, bij 2 variabelen is het Na+Nb-2).
S meet de afwijking van het gemiddelde en mag alleen gebruikt worden wanneer het
gemiddelde is gebruikt als centrummaat. S is altijd 0 of > 0. Bij 0 is er geen spreiding.
Wanneer de observaties meer verspreid zijn wordt s groter. S heeft dezelfde grootheid als de
observaties (de variantie is in vierkante…). S is niet resistent voor uitschieters en scheefheid.
Het gebruik van kwadratische afwijkingen maakt s nog gevoeliger dan x voor enkele extreme
waarnemingen. Wanneer het gemiddelde toeneemt vanwege een uitschieter, neemt x nog
extra toe.
Voordeel van de vijfnummer maat is dat hij uitschieters kan laten zien.
Grafische weergave van numerieke samenvattingen
Boxplot: grafische weergave van de vijf-nummer maat
Symmetrische verdeling: eerste en derde kwartiel liggen even ver van de mediaan.
Rechts scheef derde kwartiel verder boven de mediaan.
Links scheef eerste kwartiel verder onder de mediaan.
Bij de extremen zelfde principe, is slechts 1 waarneming, zegt minder over de hele verdeling.
Bij uitschieters kan de interkwartielenafstand (IQR) een goede maat zijn.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller aloeffen. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $6.98. You're not tied to anything after your purchase.