Introductie
Statistiek: een wetenschap waarbij conclusies worden getrokken over specifieke zaken willekeurige
verschijnselen op basis van een relatief beperkte steekproef materiaal.
Wiskundige statistiek: betreft de ontwikkeling van nieuwe methoden voor statistische gevolgtrekking en vereist
gedetailleerde kennis van abstract wiskunde voor de implementatie ervan.
Toegepaste statistiek: omvat de toepassing van wiskundig-statistische methoden naar specifieke vakgebieden
zoals economie, psychologie en volksgezondheid.
Biostatistiek: een tak van toegepaste statistiek die van toepassing is statistische methoden voor medische en
biologische problemen.
- Standaard statistische methoden hoeven niet noodzakelijkerwijs toepasbaar te zijn op alle studies
- Nieuwe biostatistische methoden worden ontwikkeld door biostatistici.
Kwaliteit = ja of nee Kwalitatieve waarden = getallen
Rol van biostatistiek in medisch onderzoek
Observatie: Bloeddrukmetingen van patiënt X verkregen met behulp van
o Automatisch meetapparaat = 115 mm Hg;
hoogste waarde = 130 mmHg
o Standaard bloeddrukmanchet = 90 mm Hg
Waarom is er een verschil in bloeddrukmetingen tussen een automatische machine versus een menselijke
waarnemer?
Zijn de twee methoden voor het bepalen van de bloeddruk vergelijkbaar?
Studievraag:
Zijn de methoden automatisch versus handmatig? bepaling van de bloeddruk vergelijkbaar?
Om deze vraag te beantwoorden, hebben we ontworpen en uitgevoerd uit een kleinschalig onderzoek naar
bloeddrukmonitoring machines.
Data analyse
Gegevens verkregen uit het onderzoek kunnen zijn samengevat met behulp van beschrijvende statistieken
Beschrijvend materiaal kan numeriek of grafisch zijn
- Als de gegevens numeriek zijn, kunnen ze in tabelvorm of gepresenteerd worden als
frequentieverdeling
- Als het grafisch is, kunnen de gegevens grafisch (picturaal) worden samengevat
Keuze uit numeriek of grafisch beschrijvend statistieken zijn afhankelijk van het type distributie Van de
gegevens.
1. Continue gegevens:
- Waar er een oneindig aantal mogelijke waarden zijn (bijvoorbeeld bloeddrukmetingen)
- Er mogen gemiddelden en standaarddeviaties worden gebruikt
2. Discrete gegevens:
- waar er slechts een paar mogelijke waarden zijn (bijvoorbeeld geslacht)
- Voor elke waarde kunnen percentages mensen in aanmerking worden genomen
Tabelresultaten van onderzoek
Let op het schijnbare verschil in bloeddrukmetingen tussen machinale
en handmatige metingen op locatie C en D.
Inferential statistics
Bepalen of het verschil in bloeddrukmetingen “echt” of
“toevallig” is
Steekproefgrootte = 98 mensen uit de generaalbevolking
Geschat gemiddeld verschil = 14 mm Hg
Fout in geschat gemiddeld verschil = ?
Werkelijk gemiddeld verschil = d = ?
,Het afleiden van de kenmerken van een populatie uit een steekproef is de centrale zorg van statistiek
gevolgtrekking. Om dit doel te bereiken, moeten we een waarschijnlijkheidsmodel, het is bedoeld om een
verschil van 14 mm Hg tussen de twee methoden te verkrijgen in een steekproef van 98 mensen als er geen
echt verschil zou zijn tussen de twee methoden over de gehele populatie gebruikers van de machine .
Een voldoende kleine waarschijnlijkheid zou daarop duiden het verschil tussen de twee methoden is reëel.
Voor ons onderzoek hebben we gebruik gemaakt van een waarschijnlijkheidsmodel op t-verdeling. De
waarschijnlijkheid bleek < 1 op 1000 te zijn elk van de machines op locatie C en D.
De lage waarschijnlijkheid gaf aan dat er sprake is van een reële waarde verschil tussen automatisch en
handmatig methode voor het bepalen van de bloeddruk.
Verdere data-analyses werden uitgevoerd met behulp van een statistisch pakket.
- Een statistisch pakket is een verzameling statistische gegevens programma's die gegevens beschrijven
en verschillende uitvoeren statistische tests op de gegevens.
- Een paar statistische pakketten omvatten R, SAS, SPSS, Stata, MINITAB en Excel.
Chapter 2: descriptieve statistics
Descriptive statistics, introductie
De eerste stap bij data-analyse is het beknopt beschrijven van de gegevens in sommige gevallen. Beschrijvende
statistieken waarbij numerieke of grafische weergave betrokken is zijn cruciaal bij het vastleggen en
overbrengen van de eindresultaten van onderzoeken in publicaties.
Kenmerken van een goede numerieke of grafische vorm van gegevens samenvatting:
- Zelfstandig
- Begrijpelijk zonder de tekst te lezen
- Duidelijk gelabelde attributen met goed gedefinieerde termen
- Geef de belangrijkste trends in gegevens aan
Voorbeeld: staafdiagram
Vit A minder opgenomen bij kankerptnt
Voorbeeld: scatterplot
Co die w gemeten bij verschillende
werkplekken
! Gegevens altijd proberen samenvatten: waar bevinden zich de meeste gegevens (spreiding) → kan gebeuren
door een aantal zaken = measures of location, geeft het centrum aan van een aantal bepaalde getallen (GEEN
GEMIDDELDE!!)
, (1) Metingen van locatie
Als er te veel monsterpunten zijn, kunt u gemakkelijk het totaalbeeld uit het oog verliezen. Het samenvatten
van gegevens is belangrijk voordat er conclusies kunnen worden getrokken over de populatie waaruit de
steekproefpunten zijn verkregen.
Locatiemaatstaf is een soort maateenheid die nuttig is voor het samenvatten van gegevens en die het midden
of midden van het monster definieert.
Het rekenkundig gemiddelde of gemiddelde
Rekenkundig gemiddelde of het “gemiddelde”: de som van alle waarnemingen gedeeld door het aantal
waarnemingen. Statistisch uitgedrukt als
Beperking: overgevoelig voor extreme waarden; in dat geval is het mogelijk niet representatief voor de locatie
van de meeste bemonsteringspunten.
Mediaan
Gemiddelde en mediaan vergelijken
Voor symmetrische verdelingen is het gemiddelde ongeveer hetzelfde als de mediaan
Voor positief scheve verdelingen is het gemiddelde meestal …groter……… dan de mediaan
Voor negatief scheve verdelingen is het gemiddelde meestal …kleiner……….. dan de mediaan
Mediaan is middelste waarde (niets te maken met grote waarde), er moeten evenveel
waarden groter als kleiner zijn dus. Je bent heel snel aan de mediaan want er zijn
weinig vrouwen in de eerste jaren die de pil niet nemen vergeleken met na de mediaan.
Gemiddelde neemt meer tijd in beslag, veel 0 opgeteld, dus zalnaar rechts opgetrokken
Positief / rechtscheef
worden omdat er ook veel grote getallen opgeteld worden.
Negatief/ links scheef
Mode
Modus: de meest voorkomende waarde onder alle waarnemingen in een steekproef.
Gegevensdistributies kunnen een of meer modi hebben.
Eén getallen = unimodaal
Twee getallen = bimodaal
Drie getallen = trimodaal enzovoort.
Voorbeeld
Geometrisch gemiddelde (ex!)
Veel soorten laboratoriumgegevens (bijvoorbeeld concentraties) kunnen worden uitgedrukt als veelvouden van
2 of als een constante vermenigvuldigd met een macht van 2, dat wil zeggen:
Voorbeeld
, In labo spreken we over concentraties
(mol/L, mg/L), maar je kan ook via een
macht voorstellen (door verdunnen van
concentratie) (getal niet kunnen schrijven als
een macht) ! Slide 23 wel !
Voor concentraties nuttig om
geometrisch gemiddelde te berekenen,
mbv formule
Alle log optellen en delen door n =
negatief getal en dan neem je dit getal
bv. 10^-2,789
Log nemen van originele concentraties,
Logconcentraties liggen op gelijke afstand van elkaar en de resulterende verdeling niet zo scheef is: nu kan het
gemiddelde worden berekend op de logschaal: verandert de X-as schaal
Voordeel van Log: Afstanden van
gegevens even groot
(2) Spreiding
Het gemiddelde verkregen door de twee methoden is hetzelfde. De variabiliteit of spreiding van de
Autoanalyzer-methode lijkt echter groter.
Percentiel/Kwantiel = waarde waarvan
zeker een % kleiner is dan die waarden, dus
mediaan ishet 50e perceentiel. 50% vd
gegevens is kleiner en 50% groter. 25e
percentiel is 25% kleiner dan het getal en
75% groter
Hoe berekenen? → range
Range = verschil grootste waarde en kleinste
- Het bereik is het verschil tussen de grootste en kleinste waarnemingen in een steekproef.
- Zodra het monster is besteld, is het heel eenvoudig om het bereik te berekenen.
- Het bereik is erg gevoelig voor extreme waarnemingen of uitschieters.
- Hoe groter de steekproefomvang (n), hoe groter het bereik en hoe
moeilijker de vergelijking tussen bereiken uit datasets van verschillende
grootte.
Een betere benadering om de spreiding in datasets te kwantificeren is
percentielen of kwantielen.
Percentielen zijn minder gevoelig voor uitschieters en worden niet sterk beïnvloed
door de steekproefomvang.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller Lorejansens123. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $14.50. You're not tied to anything after your purchase.