Medical statistics book samenvatten
Organization of the book
As discussed above, statistics is the science of collecting, summarizing, presenting and interpreting
data, and of using them to estimate the size and strengths of associations between variables.
Chapter 2 defining the data
2.1 POPULATIONS AND SAMPLES
Nemen een steekproef van een grotere groep, de populatie.
Met statistics gevolgtrekkingen over populatie waar steekproef uit komt.
Sampling variation, verschil in steekproef groepen
Target population, aandacht in bepalen sample die populatie representeert.
Als andere kenmerken hebben kan generaliseerbaarheid beïnvloeden.
Of studenten typical zijn hangt af van geïnformeerd oordeel.
2.2 TYPES OF VARIABLES
Sample size: aantal eenheden individuen.
Variable: elk aspect van individu dat gemeten is
Eerste stap is categoriseren van variabelen in types, verschillende methodes voor elk
Hoofd onderscheid tussen numerical, categorical en rates
1
, - Numerical variables
Is of continuous (gewicht) of discrete (limited aantal, zo als aantal keer diarree kind in een
jaar, altijd gehele getallen).
- Binary and other categorical variables
Non numerical. Place of birth, etnic group, drug type.
Binary heeft maar 2 mogelijke waardes -> sex man of vrouw.
Ordered categorical variables, zoals bijvoorbeeld een social class. Arm tot welvarend.
- Rates
Frequentie dat het voorkomt van ziekte over tijd.
Survival rates na verschillende behandelingen voor borstkanker
2.3 DERIVED VARIABLES
Worden afgeleid van origineel opgenomen data
- Variables derived from reference curves, based on standard population values
Voor individu afleiden met reference curve, gebaseerd op gemiddelde en bereik van
variabelen voor de hele populatie.
Vb: kinds groei plotten om gewicht naar growth curves te leggen.
- Transformed variables
Logarithmic transformation, op logaritmische schaal.
Vb: incubatie tijd, parasiet count, levels dosis, concentraties, ratios..
2.4 DISTINGUISHING BETWEEN OUTCOME AND EXPOSURE VARIABLES
Outcome variable: focus van
aandacht, willen hier van de
variatie of voorkomen van
begrijpen
Exposures: factoren identificeren
die invloed hebben op de grootte
of het voorkomen van outcome
variable
Doel statistische analyse is om te kwantificeren wat de grootte
van associatie is tussen 1 of meer exposure variables en de
outcome variable.
De exposure is de behandel (treatment) group. Exposure ook wel
risk factors genoemd. In case control is outcome de status
Chapter 3 displaying the data
Initial displays waardevol in identificeren van outliers (ongebruikelijke waardes) en tonen van
mogelijke fouten in de data die gechecked en eventueel gecorrigeerd moeten worden.
2
,3.2 FREQUENCIES, FREQUENCY DISTRIBUTIONS AND HISTOGRAMS
- Frequencies (categorical variables)
Tellen van aantal observaties in iedere categorie. Worden frequenties genoemd
Ook wel relative frequenties: proporties of percentages van totale nummer of individuen
Worden meestal geïllustreerd met een barchart/diagram of een piechart.
- Frequency distributions (numerical variables)
Eerste stap is frequency distribution maken. Tabel met aantal observaties voor verschillende
waardes of binnen een bereik.
->
Rough guide: 5-20 groepen. Afhankelijk van aantal observaties.
Als interval te breed is zal veel detail verloren gaan. Als te narrow is dan is unwieldy
Beginpunt van groepen hele getallen zijn. En als mogelijk interval groepen even groot. Geen
gaten tussen de groepen en labelen.
Om te tellen gebruik gemaakt van turfen, five bar gates of tallying.
- Histograms
Distributie van frequenties vaak weergegeven met histograms. Kan met freq of perc.
Rekening meehouden of groepen even wijd zijn. Anders verstoord beeld.
Regel: als intervals niet gelijk zijn is om de hoogte van de rechthoeken proportioneel te
maken voor de frequenties gedeeld door de breedte.
- Frequency polygen
Handig als je twee of meer frequentie distributies wil vergelijken en in zelfde diagram wil
tekenen. Polygen getekend door inbeelden histogram en verbinden van middelpunten van
de bovenkant van de rechthoek.
- Frequency distribution of population
fig hierboven data voor 70 vrouwen, deze dat gebruiken voor vrouwen in het algemeen.
Om generaliseren en vertrouwen hier in hangt af van hoe veel individuen gemeten waren
Hoe meer mensen, hoe fijner group interval en hoe gladder de distributie van de populatie
3
, - Shapes of frequency distributions
3 meest voorkomende. Hoge freq in het midden en laag aan de extremen.
Worden upper en lower tails genoemd. A. symmetrisch in het centrum (bell-shapes)
De andere twee zijn asymmetrisch of skewed. B is upper tail groter, wordt positively skewed
genoemd of skewed to the right. Voor c geldt negatively skewed, of skewed tot the left.
Alle drie zijn unimodel, hebben maar 1 piek. Hieronder bimodel, 2 pieken.
Laat zien dat de data een mix is van 2 aparte distributies.
De andere twee heten reverse J shaped en uniform distributie.
3.3 CUMULATIVE FREQUENCY DISTRIBUTIONS, QUANTILES AND PERCENTILES
- Cumulative frequency distributions; Start bij laagste waarde en laat zien hoe het aantal en
het percentage van de individuen optelt als de waardes toenemen.
Cum percentages for different observations in de range van de geobserveerde.
Cum freq distribution, getekend als trap functie. Verticaal omhoog is toename van cum
percentage bij elk waargenomen level. Kaplan Meier gebruikt ook step fucntions.
curves steep als concentratie van waarde is op dat punt.
Voordeel is dat je geen groepen nodig hebt, zoals dat het geval is bij histogram.
Maar in histogram is distributie vorm wel beter waarneembaar.
4