100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
statistiek 1 hoorcolleges/ samenvatting €5,39
In winkelwagen

Samenvatting

statistiek 1 hoorcolleges/ samenvatting

 14 keer bekeken  0 keer verkocht

statistiek 1 alle relevante info voor het tentamen in 1 document

Voorbeeld 3 van de 22  pagina's

  • 10 maart 2022
  • 22
  • 2021/2022
  • Samenvatting
Alle documenten voor dit vak (63)
avatar-seller
Sarahgb
Lecture 1
Statistiek is de wetenschap van het verzamelen, organiseren en interpreteren van numerieke
feiten, die gegevens of data worden genoemd.
Dus vaak numerieke feiten, óf kwalitatieve data die worden omgezet naar numerieke
indicatoren, beiden heten data. Het liefst natuurlijk in combinatie met theorie zodat je ook op basis
van theorie nadenkt wat is eigenlijk data die ik wil hebben.

Twee soorten wetenschap: 1. rationalisme (dat is logisch redeneren, zo kom je tot nieuwe kennis.
Hoef je geen data voor te verzamelen is gewoon puur op basis van logisch redeneren, syllogismen.
En je hebt empirisme: bij statistiek gaat het vooral om empirisme (2). zintuiglijk waarnemen. kijk om
je heen meet observeer en ga vervolgens die data met elkaar vergelijken om te leren. Vaak twee
kampen: tegenstanders van data en voorstanders.

Kansrekening gaat veelal uit van deductie, dwz. gegeven dat we alle details weten van een bepaalde
populatie, hoe waarschijnlijk is dan een bepaalde (steekproef-) uitkomst? (i.e. algemeen -> specifiek).
Vaas knikkers. algemeen -> specifiek, populatie -> steekproef, model -> data.
Statistiek gaat veelal uit van inductie, dwz. gegeven een bepaalde (steekproef-) uitkomst, wat
kunnen we dat met welke waarschijnlijkheid zeggen over de populatie? (specifiek -> algemeen).
specifiek -> algemeen, steekproef -> populatie, data -> model.
Overeenkomst 1: rekenen met toeval (randomness)
Overeenkomst 2: Statistische technieken worden gebruikt om hele populatie te beschrijven
(bijv. gemiddelde leeftijd van alle Olympische sporters).
Overeenkomst 3: Sommige statistische technieken maken eerst bepaalde aannames over de
populatie om vervolgens op basis van een steekproef te bepalen hoe onwaarschijnlijk het is
dat de aannames opgaan.
Beslisregel in het trekken van conclusies aangaande een populatie op basis van een steekproef is
gebaseerd op weerleggen, oftewel falsificatie : Als het onwaarschijnlijk is dat hypothese opgaat, dan
verwerpen we dat het waar is.

Beschrijvende Statistiek: summarize sample or population data with numbers, tables, and graphs.
Dus: gebruikmaken van bepaalde statistieken om een bepaalde dataset samenvattend weer te
geven. Dat kan dus op basis van een steekproef zijn, maar het kan ook gewoon op basis van de
populatie zijn (dus iedereen vragen). Beschrijvende statistieken zijn: het gemiddelde, de mediaan
(mate van central tendency, centrum maten). de spreiding van: de standaard deviatie, interkwartiel
afstand, minimum, maximum range.

Inferentiële Statistiek: make predictions about population parameters, based on sample data. Op
basis van een steekproef uitspraken doen over gehele (doel-)populatie. Onzekerder, maar ook
interessanter. Dus je weet alle gegevens (sd, gemiddelde enz) van steekproef, en wilt iets zeggen
over populatie. Inductie dus, en daar krijg je te maken met onzekerheid.
Probleem: Verschil tussen gemeten steekproefgrootheid en populatiegrootheid: 1. Door natuurlijke
variatie (toeval) tussen steekproeven. Dit kun je berekenen. 2. Door problemen/fouten met/binnen
de steekproef. Dit is veel problematischer.
Doel: betrouwbare en valide uitspraken over populatie op basis van een steekproef.
Steekproefgrootheden dienen dan niet te verschillen van populatiegrootheden
Problemen: 1. Steekproeffout (sampling error). 2. Steekproefvertekening (sampling bias). 3. Meetfout
(response bias). 4. Selectieve respons (non-response bias).
Oplossing: Een aselecte (of andere probabilistische) steekproef van voldoende omvang die informatie
(data) oplevert over iedereen die benaderd is, met correcte responses voor alle subjecten op alle
items.

,Methodologie: Systematische wijze van hoe je (empirisch kan, hoeft niet) onderzoek zou moeten
uitvoeren. Dus bouwplan, zulk onderzoek moet je het doen (longitudinaal etc).
Statistiek: Het instrumentarium om empirisch onderzoek uit te kunnen voeren. Gereedschapskist.
Dus plan uitvoeren. Hoe berekenen etc.
Dus: Methodologie en Statistiek zijn wel degelijk verschillend, maar kunnen in goed empirisch
onderzoek niet zonder elkaar.

Betrouwbaarheid= precisie, consistentie, een kleine foutenmarge, en
een kleine standaardfout. Steeds hetzelfde moeten meten. Voor
betrouwbaarheid geldt vaak: hoe groter je steekproef, hoe minder
veel steekproefresultaten verschillen van steekproef tot steekproef,
hoe betrouwbaarder resultaten. Validiteit = representativiteit. in
hoeverre steekproef representatief is voor de populatie van
interesse. Dus willekeurig getrokken, niet biased sample. Is hetgeen je meet ook representatieve
weergave van je construct. Dus construct validiteit: meet ik wat ik wil meten (dus IQ meten met cito
niet), en let op je steekproef die je trekt, dat ie niet heel selectief is. afbeelding 2: gemiddeld
genomen geeft ie geen vertekend beeld, dus valide.

Lecture 2 Stel je wilt geen inferenties, dan hoef je helemaal niet te letten op hoe je steekproef
samenstelt. Maar als je niet geïnteresseerd bent in populatie, dan maakt je sampling niet uit.

In het beschrijven van data zijn 3 dimensies van belang:
- centrum (centre) “typische observatie” centrummaten
- variatie (variability) “spreiding van observaties” spreidingsmaten
- positie (position) “relatieve positie van observaties” positiematen
Gemiddelde bij uitschieters niet handig.

Beschrijvende statistiek – univariaat – categorische variabelen
Tabel: Frequentieverdeling (frequency distribution) of Grafiek: Staafdiagram (bar graph)
Centrummaat: modus (mode): meest voorkomende waarde.
Spreidingsmaat: variantie-ratio (variance ratio). Fm=aantal observaties in
modale (grootste klasse).
Beschrijvende statistiek – univariaat – kwantitatieve variabele
Tabel: frequentieverdeling of Grafiek: histogram
Tabel/grafiek: stamdiagram (stem-and-leaf plot). Geeft iets meer inzicht in hoe vaak iets voorkomt.

Interkwartiel-afstand: Q1 (eerste kwartiel)-Q3. Middelste 50%.
boxplot.

Welke figuur en maat kiezen? Van belang: 1. Meetschaal van de variabele 2. Scheefheid van
verdeling 3. Uitbijters (outliers) in data.

Beschrijvende statistiek bivariaat
Bivariate statistieken geven de mate van samenhang (association) tussen twee variabelen weer:
Maten: 2 categorische variabelen: relative risk (H7) en odds ratio (H8) of 2 kwantitatieve variabelen:
covariantie (H9), correlatie (H7) en regressie-coëfficiënt (H9)

Lecture 3
Populatieverdeling van lengte NL vrouw (in cm):
 Beschrijft variabele in populatie (parameters):
 Gemiddelde μ

,  Standaarddeviatie σ
 Omvang N (# waarnemingen in populatie)
Steekproefverdeling van lengte NL vrouw (in cm):
 Beschrijft variabele in steekproef (statistieken):
 Mean: y (moet goeie schatter van μ zijn)
 Standard deviation: s (moet goeie schatter van σ zijn)
 Size n (# waarnemingen in steekproef)
Steekproevenverdeling van gemiddelde lengte NL vrouw (in cm):
 Beschrijft statistiek over steekproeven:
 Mean: μy
 Standard deviation: σy
 Size ∞ (oneindig aantal steekproeven van n)
Stel populatieverdeling niet normaal verdeeld. Centrale limietstelling: maakt niet uit wat verdeling is
in de populatie, hoe scheef die ook is, als jouw steekproefomvang groot genoeg is, zal de
steekproevenverdeling ALTIJD normaal verdeeld zijn. Dus dan zal de steekproevenverdeling zelf wel
convergeren naar een normaal verdeelde variabele, met een gemiddelde wat een goeie schatter is
van het echte gemiddelde. Natuurlijk zal je steekproef wel lijken op dat van populatie MAAR je
steekproevenverdeling is normaal verdeeld.

De centrale limietstelling (central limit theorem) stelt dat voor een populatie met gemiddelde μ en
standaarddeviatie σ, wanneer daaruit voldoende grote willekeurige steekproeven worden getrokken
met terugleg, dat de steekproevenverdeling dan bij benadering normaal verdeeld zal zijn
(approximately normally distributed). Dus: Gemiddelde van steekproevenverdeling (mean of
sampling distribution): μ y = 𝝁.
EN: Standaarddeviatie van steekproevenverdeling (i.e., standaardfout of standard error).
σ
Standaardfout σ y=
√n
Ongeacht de vorm van de populatieverdeling geldt dat de steekproevenverdeling bij benadering
normaal verdeeld zal zijn. Deze normaliteit wordt gebruikt voor significantie-toetsing en het
opstellen van betrouwbaarheidsintervallen.
Een grote steekproefomvang wordt belangrijk naarmate populatieverdeling relatief scheef verdeeld
is (skewed). Belangrijk voor de validiteit van steekproef-data voor inferentiële statistiek.
De standaarddeviatie van de steekproevenverdeling (standaardfout, standard error), neemt
toe als variantie in y toeneemt en af als steekproefomvang toeneemt (zie formule standaardfout).
 Dus: verkleinen van variantie in steekproef en vergroten van steekproefomvang vergroot de
validiteit en betrouwbaarheid van steekproefdata voor inferentiële statistiek.

Kansverdelingen:
- Interpretatie van “lange-termijn relatieve frequentieverdeling”
- Verschil tussen discrete en continue variabelen
- Binomiale-, Student’s T-, Chi-kwadraat en (Standaard) Normale verdelingen

Discrete variabelen hebben een beperkte set aan mogelijke waarden: De kans voor elk van deze
aparte waarden kan berekend worden. E.g.: Q: “What do you think is the ideal number of children for
a family to have?”. Cumulatieve kans is altijd 1.

Continue variabelen hebben een oneindig aantal mogelijke waarden: in de praktijk gebeurt dat
natuurlijk niet, dat je mensen tot 10 cijfers achter de komma gaat meten. Maar als je voldoende
waardes hebt die een variabele aan kan nemen dan spreken we al gauw van een continue variabele
en dus een continue verdeling.De kans voor intervallen van waarden kan berekend worden. E.g. Q:
“What is your average commuting time to work?”. Dus bij continue variabele kun je eig niet

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper Sarahgb. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €5,39. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 56326 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen
€5,39
  • (0)
In winkelwagen
Toegevoegd