Samenvattingen statistiek 2
Hoofdstuk 1 Introduction
Statistieken helpen bij het begrijpen van de wereld. Informatie verzamelen leidt tot observaties die
gebruikt worden in statistische analyses. De observaties die verzameld wordt over de eigenschappen
heten data. Bestaande gearchiveerde collecties van data heten databases. Statistiek bestaat uit een
lichaam van methodes voor het verkrijgen en analyseren van data. Het levert methodes voor:
Design: plannen hoe je data moet verzamelen voor onderzoek studies;
Beschrijving: samenvatten van de data. Dit helpt bij het begrijpen van de informatie die data
levert. Rauwe data zijn complete lijsten van observaties, persoon bij persoon, maar zijn
moeilijk te begrijpen;
Inferentie: predicties maken gebaseerd op de data. Predicties die gemaakt worden vanuit
data heten statistische inferenties.
Descriptieve statistieken zijn grafieken, tabellen en numerieke samenvattingen. Het wordt gebruikt
om data te verminderen tot een simpelere en begrijpelijkere vorm zonder veel informatie te
verstoren of te verliezen. Samen met inferentie vormt het de twee typen van statistische analyse,
manieren om de data te analyseren.
Subjects zijn de entiteiten die een studie onderzoekt. De populatie is de totale set van subjecten
waarin we geïnteresseerd zijn in een studie. Een sample is de subset van de populatie waarover de
studie data verzameld. Inferentie is handig wanneer alleen data beschikbaar is voor een sample,
maar we een voorspelling willen maken over de hele populatie. Descriptief is handig wanneer data
voor de hele populatie beschikbaar is. Een parameter is een numerieke samenvatting van de
populatie. Een statistiek is een numerieke samenvatting van sample data. Over het algemeen ligt de
interesse bij de waarden van parameters, niet de waarde van de statistieken voor die sample.
Belangrijk bij statistische inferentie is het benoemen van de precisie van de sample statistiek dat de
populatie parameter schat. Een conceptuele populatie is een populatie die niet echt bestaat, maar
hypothetisch is. Een medische studie heet een klinische trial, de condities die hierbij vergeleken
worden heten de behandelingen, treatments.
Een data file heeft de volgende vorm:
Elke rij bevat observaties voor een specifieke persoon in een sample;
Elke kolom bevat observaties voor een specifieke eigenschap.
Het is belangrijk om een methode te begrijpen voordat je hem gebruikt, omdat computers niet kijken
of het wel juist is.
Hoofdstuk 2 Sampling and Measurement
Een meting moet validiteit hebben, beschrijven wat het moet meten en het concept juist reflecteren.
Ook moet het betrouwbaarheid hebben, consistent zijn in de mate dat een subject dezelfde
antwoorden zal geven wanneer ze opnieuw ondervraagt worden. Een eigenschap die we kunnen
meten voor een subject heet een variabele, een eigenschap die kan variëren tussen personen in een
sample of populatie. De waarden die een variabele kan aannemen vormt de meetschaal. Een
kwantitatieve variabele is wanneer de meetschaal numerieke waarden heet, die verschillende
groottes van de variabele representeren. Categorische variabele is wanneer de meetschaal een set
van categorieën is. Voor categorische variabelen verschillen onderscheden categorieën in kwaliteit,
niet in numerieke magnitude: categorische variabelen heten kwalitatieve.
Interval schaal heeft een specifieke numerieke afstand of interval tussen elk paar levels. Dit is een
kwantitatieve variabele. Categorische variabelen bestaan uit nominale schaal, geen hoog of laag
einde, categorieën zijn ongeordend. De ordinale schaal valt tussen nominaal en interval, met een
, natuurlijke volgorde van waarden. Een variabele is discreet als de mogelijke waarden een set van
losse nummers vormen, zoals 1, 2, 3 etc. Het is continu als het een oneindig continuüm kan
aannemen van mogelijke echte nummerwaarden (8.56493). Categorische variabelen (nominaal en
ordinaal) zijn discreet, met een vast aantal categorieën. Kwantitatieve variabelen kunnen discreet of
continu zijn.
Randomisatie is het mechanisme voor het verkrijgen van goede sample representatie. Simple
random sample is een methode voor het samplen waarbij elke mogelijke sample een gelijke kans van
selectie heeft. N is het aantal subjecten in de sample, de sample size. Het heet vaak een random
sample. Iedereen heeft evenveel kans om in de sample te komen, waardoor bias afneemt. Eerst
moet een sampling frame opgesteld worden, een lijst van alle subjecten in de populatie. Meestal
worden de mensen in de sampling frame genummerd (1), een set van deze nummers random
gegenereerd (2) en de subjecten van wie de nummers gegenereerd waren samplen (3). Random
nummers zijn nummers die computer gegenereerd zijn via een schema, die niet afhangt van de
andere gegenereerde cijfers.
Veel studies selecteren een sample van mensen vanuit een populatie en interviewen hen om data te
verkrijgen: sample survey. Condities heten treatments in een gepland experiment. Om het
experiment uit te voeren, moet de onderzoeker een plan hebben voor het toewijzen van
proefpersonen aan de treatments, deze plannen heten experimentele designs. Veel studies
observeren de uitkomsten van beschikbare proefpersonen op de variabelen alleen maar, zonder
experimentele manipulatie, observationele studies. Het is moeilijk om groepen te vergelijken, omdat
de groepen ongebalanceerd zijn op variabelen die de uitkomst beïnvloeden. Er is bovendien een
grote kans dat de sample de populatie niet goed weergeeft. Sampling error van een statistiek is de
error dat optreed wanneer we een statistiek gebruiken die gebaseerd is op een sample om de
waarde van een populatieparameter te voorspellen, hoe veel de statistiek verschilt van de parameter
die het voorspelt door de manier waarop resultaten natuurlijk variatie laten zien van sample tot
sample.
Bias soorten:
Sampling bias. Voor simpele random sampling heeft elk mogelijk sample van n subjecten
dezelfde waarschijnlijkheid van selectie. Dit heet probability sampling methode, de
waarschijnlijkheid dat een specifieke sample geselecteerd wordt is bekend. Nonprobability
sampling methodes zijn degenen waarvoor het niet mogelijk is om de waarschijnlijkheden
van de mogelijke samples te bepalen. Inferenties die zulke samples gebruiken hebben
onbekende betrouwbaarheid en resulteren in sampling bias. De meest voorkomende
nonprobability sampling methode is volunteer sampling, waar proefpersonen vrijwillig
meedoen in de sample, waardoor de populatie slecht gerepresenteerd wordt.
Undercoverage is dat een sample niet representatief is voor sommige groepen in de
populatie;
Respons bias, resulterend uit slecht verwoorde of verwarrende vragen. Ook eigenschappen
van de interviewer kunnen leiden tot respons bias, door sociaal wenselijk antwoorden;
Nonrespons bias, sommige proefpersonen die in de sample horen, weigeren mee te werken
of kunnen niet bereikt worden.
Missing data is een probleem in veel grote studies, sommige proefpersonen geven geen reacties
voor sommige van de variabelen die gemeten worden.
Andere probability sampling methodes:
Systematische random sampling selecteert een proefpersoon aan het begin van de sampling
frame lijst, slaat namen over en selecteert een volgende proefpersoon. Eerst moet de sample
size aangegeven worden door n en de populatiegrootte door n. k = N/n, het skipnummer.