Lecture 1
Statistiek is de wetenschap van het verzamelen, organiseren en interpreteren van numerieke
feiten, die gegevens of data worden genoemd.
Dus vaak numerieke feiten, óf kwalitatieve data die worden omgezet naar numerieke
indicatoren, beiden heten data. Het liefst natuurlijk in combinatie met theorie zodat je ook op basis
van theorie nadenkt wat is eigenlijk data die ik wil hebben.
Twee soorten wetenschap: 1. rationalisme (dat is logisch redeneren, zo kom je tot nieuwe kennis.
Hoef je geen data voor te verzamelen is gewoon puur op basis van logisch redeneren, syllogismen.
En je hebt empirisme: bij statistiek gaat het vooral om empirisme (2). zintuiglijk waarnemen. kijk om
je heen meet observeer en ga vervolgens die data met elkaar vergelijken om te leren. Vaak twee
kampen: tegenstanders van data en voorstanders.
Kansrekening gaat veelal uit van deductie, dwz. gegeven dat we alle details weten van een bepaalde
populatie, hoe waarschijnlijk is dan een bepaalde (steekproef-) uitkomst? (i.e. algemeen -> specifiek).
Vaas knikkers. algemeen -> specifiek, populatie -> steekproef, model -> data.
Statistiek gaat veelal uit van inductie, dwz. gegeven een bepaalde (steekproef-) uitkomst, wat
kunnen we dat met welke waarschijnlijkheid zeggen over de populatie? (specifiek -> algemeen).
specifiek -> algemeen, steekproef -> populatie, data -> model.
Overeenkomst 1: rekenen met toeval (randomness)
Overeenkomst 2: Statistische technieken worden gebruikt om hele populatie te beschrijven
(bijv. gemiddelde leeftijd van alle Olympische sporters).
Overeenkomst 3: Sommige statistische technieken maken eerst bepaalde aannames over de
populatie om vervolgens op basis van een steekproef te bepalen hoe onwaarschijnlijk het is
dat de aannames opgaan.
Beslisregel in het trekken van conclusies aangaande een populatie op basis van een steekproef is
gebaseerd op weerleggen, oftewel falsificatie : Als het onwaarschijnlijk is dat hypothese opgaat, dan
verwerpen we dat het waar is.
Beschrijvende Statistiek: summarize sample or population data with numbers, tables, and graphs.
Dus: gebruikmaken van bepaalde statistieken om een bepaalde dataset samenvattend weer te
geven. Dat kan dus op basis van een steekproef zijn, maar het kan ook gewoon op basis van de
populatie zijn (dus iedereen vragen). Beschrijvende statistieken zijn: het gemiddelde, de mediaan
(mate van central tendency, centrum maten). de spreiding van: de standaard deviatie, interkwartiel
afstand, minimum, maximum range.
Inferentiële Statistiek: make predictions about population parameters, based on sample data. Op
basis van een steekproef uitspraken doen over gehele (doel-)populatie. Onzekerder, maar ook
interessanter. Dus je weet alle gegevens (sd, gemiddelde enz) van steekproef, en wilt iets zeggen
over populatie. Inductie dus, en daar krijg je te maken met onzekerheid.
Probleem: Verschil tussen gemeten steekproefgrootheid en populatiegrootheid: 1. Door natuurlijke
variatie (toeval) tussen steekproeven. Dit kun je berekenen. 2. Door problemen/fouten met/binnen
de steekproef. Dit is veel problematischer.
Doel: betrouwbare en valide uitspraken over populatie op basis van een steekproef.
Steekproefgrootheden dienen dan niet te verschillen van populatiegrootheden
Problemen: 1. Steekproeffout (sampling error). 2. Steekproefvertekening (sampling bias). 3. Meetfout
(response bias). 4. Selectieve respons (non-response bias).
Oplossing: Een aselecte (of andere probabilistische) steekproef van voldoende omvang die informatie
(data) oplevert over iedereen die benaderd is, met correcte responses voor alle subjecten op alle
items.
,Methodologie: Systematische wijze van hoe je (empirisch kan, hoeft niet) onderzoek zou moeten
uitvoeren. Dus bouwplan, zulk onderzoek moet je het doen (longitudinaal etc).
Statistiek: Het instrumentarium om empirisch onderzoek uit te kunnen voeren. Gereedschapskist.
Dus plan uitvoeren. Hoe berekenen etc.
Dus: Methodologie en Statistiek zijn wel degelijk verschillend, maar kunnen in goed empirisch
onderzoek niet zonder elkaar.
Betrouwbaarheid= precisie, consistentie, een kleine foutenmarge, en
een kleine standaardfout. Steeds hetzelfde moeten meten. Voor
betrouwbaarheid geldt vaak: hoe groter je steekproef, hoe minder
veel steekproefresultaten verschillen van steekproef tot steekproef,
hoe betrouwbaarder resultaten. Validiteit = representativiteit. in
hoeverre steekproef representatief is voor de populatie van
interesse. Dus willekeurig getrokken, niet biased sample. Is hetgeen je meet ook representatieve
weergave van je construct. Dus construct validiteit: meet ik wat ik wil meten (dus IQ meten met cito
niet), en let op je steekproef die je trekt, dat ie niet heel selectief is. afbeelding 2: gemiddeld
genomen geeft ie geen vertekend beeld, dus valide.
Lecture 2 Stel je wilt geen inferenties, dan hoef je helemaal niet te letten op hoe je steekproef
samenstelt. Maar als je niet geïnteresseerd bent in populatie, dan maakt je sampling niet uit.
In het beschrijven van data zijn 3 dimensies van belang:
- centrum (centre) “typische observatie” centrummaten
- variatie (variability) “spreiding van observaties” spreidingsmaten
- positie (position) “relatieve positie van observaties” positiematen
Gemiddelde bij uitschieters niet handig.
Beschrijvende statistiek – univariaat – categorische variabelen
Tabel: Frequentieverdeling (frequency distribution) of Grafiek: Staafdiagram (bar graph)
Centrummaat: modus (mode): meest voorkomende waarde.
Spreidingsmaat: variantie-ratio (variance ratio). Fm=aantal observaties in
modale (grootste klasse).
Beschrijvende statistiek – univariaat – kwantitatieve variabele
Tabel: frequentieverdeling of Grafiek: histogram
Tabel/grafiek: stamdiagram (stem-and-leaf plot). Geeft iets meer inzicht in hoe vaak iets voorkomt.
Welke figuur en maat kiezen? Van belang: 1. Meetschaal van de variabele 2. Scheefheid van
verdeling 3. Uitbijters (outliers) in data.
Beschrijvende statistiek bivariaat
Bivariate statistieken geven de mate van samenhang (association) tussen twee variabelen weer:
Maten: 2 categorische variabelen: relative risk (H7) en odds ratio (H8) of 2 kwantitatieve variabelen:
covariantie (H9), correlatie (H7) en regressie-coëfficiënt (H9)
Lecture 3
Populatieverdeling van lengte NL vrouw (in cm):
Beschrijft variabele in populatie (parameters):
Gemiddelde μ
, Standaarddeviatie σ
Omvang N (# waarnemingen in populatie)
Steekproefverdeling van lengte NL vrouw (in cm):
Beschrijft variabele in steekproef (statistieken):
Mean: y (moet goeie schatter van μ zijn)
Standard deviation: s (moet goeie schatter van σ zijn)
Size n (# waarnemingen in steekproef)
Steekproevenverdeling van gemiddelde lengte NL vrouw (in cm):
Beschrijft statistiek over steekproeven:
Mean: μy
Standard deviation: σy
Size ∞ (oneindig aantal steekproeven van n)
Stel populatieverdeling niet normaal verdeeld. Centrale limietstelling: maakt niet uit wat verdeling is
in de populatie, hoe scheef die ook is, als jouw steekproefomvang groot genoeg is, zal de
steekproevenverdeling ALTIJD normaal verdeeld zijn. Dus dan zal de steekproevenverdeling zelf wel
convergeren naar een normaal verdeelde variabele, met een gemiddelde wat een goeie schatter is
van het echte gemiddelde. Natuurlijk zal je steekproef wel lijken op dat van populatie MAAR je
steekproevenverdeling is normaal verdeeld.
De centrale limietstelling (central limit theorem) stelt dat voor een populatie met gemiddelde μ en
standaarddeviatie σ, wanneer daaruit voldoende grote willekeurige steekproeven worden getrokken
met terugleg, dat de steekproevenverdeling dan bij benadering normaal verdeeld zal zijn
(approximately normally distributed). Dus: Gemiddelde van steekproevenverdeling (mean of
sampling distribution): μ y = 𝝁.
EN: Standaarddeviatie van steekproevenverdeling (i.e., standaardfout of standard error).
σ
Standaardfout σ y=
√n
Ongeacht de vorm van de populatieverdeling geldt dat de steekproevenverdeling bij benadering
normaal verdeeld zal zijn. Deze normaliteit wordt gebruikt voor significantie-toetsing en het
opstellen van betrouwbaarheidsintervallen.
Een grote steekproefomvang wordt belangrijk naarmate populatieverdeling relatief scheef verdeeld
is (skewed). Belangrijk voor de validiteit van steekproef-data voor inferentiële statistiek.
De standaarddeviatie van de steekproevenverdeling (standaardfout, standard error), neemt
toe als variantie in y toeneemt en af als steekproefomvang toeneemt (zie formule standaardfout).
Dus: verkleinen van variantie in steekproef en vergroten van steekproefomvang vergroot de
validiteit en betrouwbaarheid van steekproefdata voor inferentiële statistiek.
Kansverdelingen:
- Interpretatie van “lange-termijn relatieve frequentieverdeling”
- Verschil tussen discrete en continue variabelen
- Binomiale-, Student’s T-, Chi-kwadraat en (Standaard) Normale verdelingen
Discrete variabelen hebben een beperkte set aan mogelijke waarden: De kans voor elk van deze
aparte waarden kan berekend worden. E.g.: Q: “What do you think is the ideal number of children for
a family to have?”. Cumulatieve kans is altijd 1.
Continue variabelen hebben een oneindig aantal mogelijke waarden: in de praktijk gebeurt dat
natuurlijk niet, dat je mensen tot 10 cijfers achter de komma gaat meten. Maar als je voldoende
waardes hebt die een variabele aan kan nemen dan spreken we al gauw van een continue variabele
en dus een continue verdeling.De kans voor intervallen van waarden kan berekend worden. E.g. Q:
“What is your average commuting time to work?”. Dus bij continue variabele kun je eig niet
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller Sarahgb. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $5.83. You're not tied to anything after your purchase.