Class notes

PDA samenvatting

72 views 11 purchases

Course
Practicum data-analyse (200300022)

Institution
Universiteit Utrecht (UU)

Samenvatting van hoorcolleges, sample sessies en practicums

[Show more]

Preview 4 out of 47 pages

View example

Uploaded on February 10, 2022
Number of pages 47
Written in 2021/2022
Type Class notes
Professor(s) Anne-rigt poortman
Contains All classes

pda
statistiek
blok 2
sociologie
utrecht university

Institution
Universiteit Utrecht (UU)
Education
Sociologie
Course
Practicum data-analyse (200300022)

sophiedelfgaauw

Member since 3 year 40 documents sold

$7.95

Add to cart

Add to wishlist

100% satisfaction guarantee
Immediately available after payment
Both online and in PDF
No strings attached

Practicum Data-Analyse
Blok 2, 2021-2022

Week 1
Toetsen en schatten
Schatten → op basis van een steekproef een gok doen over een waarde in een populatie.
- Als het gemeten wordt weten we de gemiddelde lengte (M) exact.
- Dit gemiddelde is ook onze beste gok voor de gemiddelde lengte van de populatie (µ)
- Dit is een schatting (estimation). Er blijft onzekerheid aanwezig.
Toetsen → vaststellen of de populatieparameter (waarschijnlijk) afwijkt van een verwachte
waarde.
→ beide vormen is binnen een steekproef.

Census → van alle eenheden een meting doen.
Steekproef fout / sampling error → het verschil tussen de schatting en het daadwerkelijke
meting. Op basis van te kleine steekproef schatting maken over gehele populatie, maar die
kan dus afwijken.

Populatieparameters schatten op basis van sample = als sample representatief is voor de
populatie dan kunnen we geïnformeerde gok doen over populatieparameter.

Verdeling van steekproefgemiddelden:
- Stel je voor dat ik alle mogelijke steekproeven van 5 studenten uit een populatie zou
trekken, en voor elke steekproef de gemiddelde lengte berekenen.
• Elke steekproef heeft een ander gemiddelde
• Er is een verdeling van steekproefgemiddelden
• De gemiddelde van ALLE steekproeven = het werkelijke populatiegemiddelde
• De standaardafwijking van deze sampling distribution (=steekproefverdeling)
kan je interpreteren als “de gemiddelde afwijking van steekproefgemiddelden
t.o.v. het populatiegemiddelde”.
• Dit heet de standard error, en het is een maat van onzekerheid over je
schatting. (verschil tussen M en µ)
• Deze kunnen we niet uitrekenen op basis van 1 steekproef.
• Standard error voor gemiddelde:

Steekproef is in Romeinse letters (geschatte waarde)
Populatie is in Griekse letters (werkelijke waarde).

Standaardafwijking → “gemiddelde” afwijking van observaties t.o.v. het gemiddelde. Geeft
weer hoe gespreid je data zijn. (s, σ, SD)

,Standard error → “gemiddelde” afwijking van steekproefgemiddelden tov het populatie
gemiddelde. Geeft weer hoe onzeker we zijn over onze schatting van het
populatiegemiddelde, op basis van de steekproef. (SE, Sem)

Steekproef is het meest representatief als een steekproef willekeurig wordt getrokken. Ze zijn
in de praktijk minder vaak representatief.

Categorische variabelen = populatie proporties schatten
Kwantitatieve variabelen = populatie gemiddelde schatten

DF = n-parameters. Parameters is de onbekende informatie over de populatie, zoals
gemiddelde. Hoe hoger, hoe meer je met zekerheid kan zeggen, dus hoe hoger de df is, hoe
beter.

Betrouwbaarheidsinterval
Confidence intervals (betrouwbaarheidsinterval) → een ‘venster’ om de schatting,
gebaseerd waarbinnen de populatieparameter waarschijnlijk valt. De buitenwaarden (1.96)
hebben te maken met toetsen. Te
berekenen door het percentage dat
je in het betrouwbaarheidsinterval
wilt laten zien. -> SE x staartkans

Elke waarde buiten deze interval is
vergelijkbaar met de nulhypothese
en zou je kunnen verwerpen.

Wat heb je nodig om betrouwbaarheidsinterval te berekenen?:
1. Sigma (SD van populatie)
→ Als steekproef groter is dan 30 = normaal verdeeld = SEgem = sigma
→ Als steekproef kleiner is dan 30 = gebruik t-verdeling (ipv normaalverdeling)
2. Steekproefomvang; hoeveel n heeft steekproef
3. Z-waarde tabel (boek)
4. Steekproefgemiddelde

CI95 % = steekproefgemiddelde – 1.96 x SE (ondergrens)
CI95 % = steekproefgemiddelde + 1.96 x SE (bovengrens)

Bij een tweezijdige toets betrouwbaarheidsinterval van 95% en bij een eenzijdige toets een
betrouwbaarheidsinterval van 90%.

Voor een n > 30 en (.30 < pi <.70) (pi = populatieproportie) kunnen we vertrouwen op een
normale benadering van een steekproefverdeling. Als pi buiten dit bereik (.30; .70) valt, dan
is de steekproefverdeling scheef voor een kleine n, en hebben we minstens 10 observaties
nodig in ZOWEL de 0 ALS de 1 categorie voor een goede/ juiste benadering van de
steekproefverdeling door de normaalverdeling.

,Meetniveaus
Meetniveaus (NOIR)
- Nominaal → categorisch, verschilt enkel in naam (man/vrouw, provincies)
- Ordinaal → categorieën met volgorde (socio-economische status, gewicht, politieke
voorkeur)
- Interval → continu met betekenisvolle afstanden (intervallen). Een stap van 1 tot 2 is
even “groot” als een stap van 2 tot 3. Waarde 0 is hier geen indicaite van afwezigheid
gemeten variabele. (IQ, temperatuur in graden)
- Ratio → heeft een absoluut 0-punt, en daarom zijn verhoudingen ook betekenisvol.
(%, leeftijd, lengte)

- Continue variabelen (ratio/interval) →
steekproefgemiddelde als schatting
voor populatiegemiddelde.
- Discrete variabelen
(nominaal/ordinaal) →
steekproefproportie van mensen met
bepaald kenmerk als puntschatting voor
populatiegemiddelde. Dichotome
variabelen vallen hier ook onder.

Puntschattingen

Puntschattingen voor gemiddelde/Prop, in de populatie = steekproefgemiddelde/prop.
- DESCRIPTIVES
- MEANS
- FREQ/STAT
- EXAMINE

Andere schattingen voor centraliteit zijn de puntschattingen Mediaan en Modus ook heel
interessant.
Mediaan het beste bij continue variabelen
Modus het beste bij discrete variabelen

, Toetsen stappenplan
Toetsen → omdat we geen data over de hele populatie hebben is het onmogelijk om de hele
populatie te testen. Wat is de kans om data te observeren die ‘minstens zo extreem zijn’ als
onze steekproef, ALS de nulhypothese waar zou zijn dat het populatiegemiddelde 0 nul is?
P(data|H0). (Voor een gemiddelde)
1. Assumpties
Als n groter is dan 30, dan is de kans groot dat ie normaal verdeeld is. Interval
variabele is dan dus M en 𝑆 2 zijn relevant.
2. Hypotheses formuleren (= toetsbare verwachting over populatieparameter)
H0: het populatiegemiddelde is kleiner of gelijk aan 0 (geen effect)
Ha: het populatiegemiddelde is groter dan 0 (wel effect)
Eenzijdige hypothese of tweezijdige hypothese.
3. Test-statistiek berekenen
a) Bereken gemiddelde van variabel M
b) Bekijk standaarddeviatie van variabel SD, s.
c) Bereken standaardfout SE
𝑠
Formule standaardfout: 𝑆𝐸 =
√𝑛
d) Bereken Z-waarde

Formule Z-waarde:
Deze beschrijft hoeveel standaarderrors het steekproefgemiddelde afligt van het
gemiddelde onder de nulhypothese. > Het cijfer van de Z-waarde zegt hoeveel
standaardfouten het gemiddelde van de steekproef valt boven het gemiddelde van de
populatie die wordt gespecificeerd onder de H0.
4. P-waarde uitrekenen
➢ Kans op deze data is nog extremer als H0 waar is.
➢ Bij eenzijdige hypothese en data in de goede richting (P-waarde/2). Bij eenzijdige
hypothese en data in de verkeerde richting (1 - P-waarde). Bij tweezijdige
hypothese (gewoon P-waarde).
5. Conclusie trekken over H0.

Hypothese
Hypothese → een toetsbare verwachting
over een populatieparameter.
Ha: alternatieve hypothese; wat we denken
dat er echt aan de hand is. Er is hier een
verband.
H0: nulhypothese; er is niks aan de hand.
Geen verband aanwezig. Sluit de
alternatieve hypothese uit.
➢ Toetsen = We proberen de
nulhypothese te verwerpen.

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller sophiedelfgaauw. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $7.95. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

48298 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy study notes for 15 years now

Start selling

Popular Universities in the United States

Popular books

Find notes and summaries for these qualifications

Seller