Samenvatting

Statistiek 2 Samenvatting

Name: Statistiek 2 Samenvatting
SKU: doc_733743
Rating: 3.67 (6 reviews)
Author: rooszeelen

Beoordeling

3,7

(6)

Verkocht

Pagina's

Geüpload op

07-06-2020

Geschreven in

2019/2020

Samenvatting voor het vak Statistiek 2 van de bachelor Psychologie jaar 2 op de VU. Mocht je nog op- of aanmerkingen hebben hoor ik dat graag. Heel veel succes met leren!! Liefs Roos

Instelling

Vak

Oeps! We kunnen je document nu niet laden. Probeer het nog eens of neem contact op met support.

Meld schending auteursrecht

Geschreven voor

Instelling: Vrije Universiteit Amsterdam (VU)
Studie: Psychologie
Vak: Statistiek 2

Alle documenten voor dit vak (37)

Documentinformatie

Geüpload op: 7 juni 2020
Bestand laatst geupdate op: 5 juli 2020
Aantal pagina's: 54
Geschreven in: 2019/2020
Type: Samenvatting

Onderwerpen

Voorbeeld van de inhoud

1

Statistiek 2
Hoorcollege 1
Beschrijvende statistiek:
- Samenvatten van de data middels tabellen en figuren.
- Samenvatten per variabele (verdeling), samenvatten voor meerdere
variabelen (samenhang).

De deviatie is de afwijking van de score van iemand, ten opzichte van de
gemiddelde score.
- Die afwijking kwadrateren we, omdat de afwijking onder en boven het
gemiddelde kan liggen. Maar of het eronder of erboven ligt, doet er niet zoveel
toe. Het gaat er meer om hoeveel het van het gemiddelde af ligt.
De standaarddeviatie is eigenlijk de gemiddelde deviatiescore, gemiddeld over al
die personen heen.

De empirische regel (bij een normaalverdeling):
- 68% van de waarnemingen ligt maximaal één SD van het gemiddelde af.
- 95% van de waarnemingen ligt maximaal twee SD’s van het gemiddelde af.
- 99% van de waarnemingen ligt maximaal drie SD’s van het gemiddelde af.

Hoe zat het ook alweer met interkwartielen etc:

Kansverdelingen:
- Discrete kansverdeling:

- Continue kansverdeling:

, 2

- Kansverdelingen in de statistiek:
o Scores omzetten naar Z-scores!

Hoe groot is de kans dat een volwassene de score van 120 of hoger haalt (bij
IQ-scores)?
- IQ-scores zijn normaal verdeeld.
- Gemiddelde van 100.
- Standaarddeviatie van 15.
à Dan ga je de scores omzetten naar Z-scores.
- Dat doe je door de observatie (de waarde op Y) – het gemiddelde / de
standaarddeviatie.
o Dan krijg je een Z-waarde.
§ Dan zoek je in het boek de Z-tabel op, en kijk je welke waarde
(overschrijdingskans) er bij die Z-waarde hoort.

Verdelingen:
Populatieverdeling: verdeling van de populatie.
Steekproefverdeling: verdeling van scores van mijn variabelen in de steekproef.
Steekproevenverdeling: verdeling van die steekproefgrootheid over verschillende
steekproeven heen.
- Het gemiddelde van de steekproevenverdeling blijkt uiteindelijk 𝜇 te zijn.
- De standaarddeviatie van de steekproevenverdeling heet de standaardfout.
o De steekproevenverdeling vertoont minder spreiding dan de verdeling
waaruit de steekproef getrokken is, dus de standaardfout is over het
algemeen kleiner dan de standaarddeviatie. Omdat:
§ Als je een steekproef hebt van een bepaalde grootte, dan is de
kans dat je een extreme waarde hebt, best wel klein.
§ Dus de verdeling van het steekproevengemiddelde wordt smaller
naarmate we meerdere proefpersonen hebben. Want hoe groter
je steekproef, des te kleiner de kans dat je met je schatting heel
ver afwijkt van de werkelijkheid.

Centrale limietstelling en de normale verdeling:
- Ook al is mijn verdeling van de populatie niet normaal verdeeld, als mijn
steekproevenverdeling groot genoeg is dan zal die uiteindelijk wel normaal
verdeeld zijn.

Hoorcollege 2
In een steekproef van 30 vrouwen die tijdens de zwangerschap roken, is de
gemiddelde lengte van de kinderen 50 cm met een standaardafwijking van 1 cm.
à Maar dit is het steekproef gemiddelde. We willen uiteindelijk het
populatiegemiddelde.
- We willen iets zeggen over het populatie gemiddelde (populatie gemiddelde
schatten).

, 3

o De punt schatting is de beste gok die je kunt doen.
§ Maar er is ook een intervalschatting om die puntschatting
heen. Die ligt om de puntschatting heen en bekijkt waar
ongeveer je parameter tussen zou moeten liggen.
o Hoe weet je of een schatter (zoals het steekproefgemiddelde) ook echt
een goede schatter is voor je populatiegemiddelde?
§ Die moet dan aan twee eisen voldoen:
• De zuiverheid van de schatting (hij moet unbiased) zijn.
• De doeltreffendheid (hij moet efficiënt zijn).
• à Het blijkt zo te zijn dat de beste schatter het
steekproefgemiddelde is. Dit blijkt een type
steekproefgrootheid te zijn die unbiased én efficiënt is.

- We willen dan ook iets zeggen over hoe zeker we zijn van dat gemiddelde
(betrouwbaarheidsinterval).
o Dan trekken we bij de puntenschatting de foutenmarge op en trekken
we de foutenmarge er af.
o Daar hoort ook het betrouwbaarheidsniveau bij: dat is de kans dat de
methode uit komt in een interval waar de parameter in valt. Meestal is
dit 95% of 99%.
o We weten volgens de empirische regel dat 95% van de verdeling
maximaal binnen twee standaardfouten van de parameter af ligt (naar
links en naar rechts).
o De breedte van het interval neemt ook toe als de betrouwbaarheid
stijgt. Bij 95% in het interval minder breed (aan iedere kant 2,5%) dan
bij 99% (aan iedere kant 0.5%).
o Maar de breedte van het interval neemt juist af als de steekproef groter
wordt.

- Je rekent die uit door:
o Puntschatting (steekproefgemiddelde) + de foutenmarge (daarvoor
neem je de Z score die correspondeert met de betrouwbaarheid van
95%) * de standaardfout.
o En puntschatting (steekproefgemiddelde) - de foutenmarge
(daarvoor neem je de Z score die correspondeert met de
betrouwbaarheid van 95%) * de standaardfout.
§ Alleen kennen we de standaardfout eigenlijk niet, net zoals we
het gemiddelde niet kennen.

, 4

§ We schatten dus 𝜎 aan de hand van s, maar dan gebruiken we
niet meer de standaard normaalverdeling maar de T-verdeling!

o Want bij een onbekende 𝝈 gebruiken we dus de T-verdeling.
§ De T-verdeling lijkt wel op de normaalverdeling.
o Op het moment dat we een T-toets willen gaan doen, moeten we de
vrijheidsgraden berekenen.
§ Die hangen af van de restricties op de observaties. Hoe meer
restricties, hoe minder vrijheidsgraden.
o We gaan dus de T-waarde gebruiken in plaats van de Z-waarde om het
betrouwbaarheidsinterval uit te rekenen, omdat we 𝜎 niet kennen en
het met s moeten doen.
§ Om die T-waarde te vinden die hoort bij het 95%
betrouwbaarheidsinterval moeten we het aantal vrijheidsgraden
weten. Dat is gegeven door N-1.
§ Dan zoek je in de T-tabel de T-waarde op, en die stop je in de
formule voor het betrouwbaarheidsinterval.

o Dus van het voorbeeld:
§ Vrijheidsgraden = N-1. Dus 29.
§ Steekproefgemiddelde (ȳ) = 50 en s = 1.
§ We gaan de T-score opzoeken die hoort bij 95%
betrouwbaarheid. Die blijkt bij 29 vrijheidsgraden .025 te zijn.
§ De standaardfout (se) moeten we uitrekenen: s/√𝑛 = 1/√30 =
.18257.
• Dan voer je dat in, in de formule voor
betrouwbaarheidsinterval: ȳ ± t.025 * se = 50 ± 2.045 *
.18257.
o Dan komt daar een betrouwbaarheidsinterval uit
van 49.63 < 𝜇 < 50.37.
o We geloven dus met 95% zekerheid dat 𝜇 in dit
interval ligt; 95 van de 100 bepaalde intervallen
bevat 𝜇.

- En dan willen we ook nog een statistische toets uitvoeren. We willen weten
of de gemiddelde lengte die we hebben gevonden bij vrouwen die roken, of
die significant afwijkt van de algemene populatie van vrouwen die niet roken.
o Je hebt de nulhypothese en de alternatieve hypothese.

o Dus van het voorbeeld:
o (In de algemene populatie blijkt het gemiddelde 52 te zijn).
§ Steekproefgemiddelde = 5
§ 0.
§ Standaarddeviatie = 1.
§ Sample size = 30, dus vrijheidsgraden = 29.
o T-waarde is dan = 50-/√30 = -10.95.
o Dan zoek je in de Tabel B in het boek van Agresti bij df=29, bij één- en
tweezijdig toetsen P <.001.

, 5

§ Dus we verwerpen de nulhypothese. Dus we concluderen dat de
gemiddelde lengte van baby’s van rokende vrouwen significant
afwijkt van de gemiddelde lengte van baby’s van de algemene
populatie.
• Dus dat roken wel degelijk een schadelijk effect heeft op
de groei van de baby’s.

Hoorcollege 3
Enkelvoudige lineaire regressie:
- Er zijn twee parameters nodig:
o De 𝜶 (oftewel de constante/ of het intercept).
§ De waarde voor y als x = 0.
o De 𝜷 (oftewel de regressie coëfficiënt).
§ Hoe steil de lijn is.
§ Als je op je x-as met 1 eenheid omhoog gaat, met hoeveel
neemt y dan toe.
- Regressiemodel is niet deterministisch maar stochastisch.
o Dat betekent dat we niet met zekerheid de y kunnen voorspellen als we
de x weten. Je kan alleen maar uitspraken doen over dat het
waarschijnlijk is dat iemand een bepaalde y-waarde heeft gebaseerd op
de x-waarde (stochastisch).

Sir Francis Galton is de grondlegger van de tweelingenmethode.
- Hij heeft ook regressieanalyse bedacht.

- De regressielijn is een voorspelling. De waarnemingen kunnen daarvan
afwijken.

- Notatie:
o In de steekproef is de notatie voor het regressiemodel als volgt:
§ y^ = a + b ∗ x, of y = a + b ∗ x + e
• y^ staat voor ‘voorspelde y’.

- De Kleinste Kwadraten methode:
o Zorgt ervoor dat we de best passende lijn vinden als het gaat over het
schatten voor de waarden van de populatie.
o Bepaalde kwadraten worden zo klein mogelijk gemaakt.
o De afstanden tussen de observaties (de puntjes) en de voorspelling (de
streep) moeten het liefst zo klein mogelijk zijn.
o De errorterm wordt weergegeven door ‘e’ en bereken je door y - ȳ.
§ De som van de gekwadrateerde errors worden geminimaliseerd
bij het uitvoeren van de Kleinste Kwadraten Methode.
§ Dus als je de ‘e’ uitrekent voor elk bolletje, die kwadrateert, alle
waardes van die bolletjes optelt, dan krijg je daar je Sum of
Squared Errors (SSE) uit.

, 6

o Bij de Kleinste Kwadraten Formule horen de volgende twee formules
om a en b te schatten:

o Toepassen in voorbeeld:
§ Stel je krijgt de volgende gegevens:
• Dat zijn de scores op een x variabele en de scores op een
y variabele van zes mensen (zes leerlingen):
• Daarnaast is er ook aan de leerkracht gevraagd hoe bang
dat hij denkt dat zijn leerlingen zijn voor het maken van
toetsen.

§ Handmatig kan je dan alle gegevens uitrekenen (in SPSS kan je
dat met één druk op de knop doen):
• Je gaat het gemiddelde uitrekenen voor x en voor y. Dus
dan heb je ȳ en x̄.
• Vervolgens ga je een tabel maken van alle scores die je
nodig hebt voor de formule voor b.

• Leerling 1 scoorde ‘3’ op de x variabele. Gemiddelde
scoorde de leerlingen 4.67, dus dan kan je de
deviatiescore uitrekenen: x – de gemiddelde x.
o 3 – 4.67 = -1.67.
§ Die waarde kan je kwadrateren. Dan heb je
het kwadraat van die deviatiescore. Die is
2.78.
• Je gaat hetzelfde doen voor y. Leerling 1 scoorde 5 en
het gemiddelde = 5. Dus daar komt ‘0’ te staan.
§ Vervolgens bereken je dan de som van al die dingen (zie
onderste regel in de tabel).
• De deviatiescores die moeten altijd optellen tot ‘0’.
Anders heb je en rekenfout gemaakt!
o Sommige scoren namelijk onder gemiddeld en
sommige boven gemiddeld, dat middelt elkaar uit
naar ‘0’.

, 7

§ In de derde verticale kolom zie je de som van de kruisproducten.
Die telt op tot 20.
• Dan kan je b zelf uitrekenen!

• Dus als je 1 eenheid om hoog gaat op de x, dan is de
voorspelling dat de leerkrachten met .42 stijgen als ze
moeten aangeven hoe bang hun leerling met de toets is.

• We kunnen a ook bepalen:
o De gemiddeldes hadden we al. De b stoppen we er
gewoon in:

§ De geschatte regressielijn is dan:

Marginale en conditionele variantie:
- De marginale verdeling is de verdeling van y, zonder dat er rekening
gehouden wordt met de x.
o Daar hoort een variantie bij. De variantie van y (sy2).
o Daar hoort een n-1 vrijheidsgraden bij onder de noemer.
- De conditionele variantie is de verdeling waarbij je wel rekening houdt met x.
o Hoeveel ‘error’ blijft er nog over als we x gebruiken om y te voorspellen.
Hoe variëren die y waarden rondom die y-gemiddeldes.
o Daar hoort een n-2 vrijheidsgraden bij onder de noemer.
§ Er zijn namelijk twee parameters die al geschat moeten zijn (a
en b). Dus die verlies je al op je ‘n’.

De kwadratensommen (het verschil tussen de
TSS en de SSE) kan je in een figuur inzichtelijk
maken:

Als je alleen kijkt naar de y-waarden, zonder
rekening te houden met de x:
De totale kwadratensom geeft alle verticale
afstanden van alle bolletjes ten opzichte van
de gemiddelde y (dus de horizontale lijn) weer.

, 8

Maar als we wel de informatie over x gaan gebruik om y te voorspellen, dan worden
die afstanden kleiner.
- De rode lijn is de voorspelling geconditioneerd op x.
o De SSE wordt dan een veel kleinere waarde dan de TSS.
§ We hebben dan ‘error’ gereduceerd.

Regressieschatter b heeft zelf ook een steekproevenverdeling:
- We berekenen aan de hand van steekproefdata, de b. We hopen dat die iets
zegt over de werkelijke waarde (de beta van de populatie).
o In de ene steekproef zit je hartstikke dicht bij de werkelijke waarde,
maar bij de andere steekproef zit je ernaast.
- à Dus b heeft zelf ook een steekproevenverdeling.
o Hij heeft dan een gemiddelde en een standaardafwijking.
§ Het gemiddelde is gewoon ‘beta’.
§ De formule voor de standaardfout van b is
o In 95% van de steekproeven ligt onze b in het blauwe vlak.

De spreiding in de b’tjes van de verschillende steekproeven
dat is de standaardfout.

Even op een rijtje en in vergelijking met het gemiddelde:
We hebben bij beide te maken met een puntschatting
en een intervalschatting die we voor de foutenmarge
gebruiken.
- Bij het gemiddelde is de puntschatting (de
beste gok die we kunnen doen voor mu): y-.
o Maar daar hoort ook een bepaalde
standaardfout bij. Een bepaalde
onzekerheidsmarge waar we mee te
dealen hebben.
§ Die werd gegeven door s / √𝑛.
- Nu hebben we b als beste puntschatting. Als beste gok voor beta.
o Maar ook hier hoort een bepaalde standaardfout bij.
§ Die formule ziet er iets ingewikkelder uit: zie tabel hier onder.

Wat bepaalt de standaardfout van b?
- De standaardfout wordt kleiner bij:
o Een afname in s (de residuele variantie van y).
o Een toename van n (grotere steekproeven).
o Een toename van sx (de spreiding van x).

€4,99

Krijg toegang tot het volledige document:

Gekocht door 35 studenten

100% tevredenheidsgarantie

Direct beschikbaar na je betaling

Lees online óf als PDF

Geen vaste maandelijkse kosten

Maak kennis met de verkoper

rooszeelen

3,8

(50)

Beoordelingen van geverifieerde kopers

Alle 6 reviews worden weergegeven

kadanoruc HBO Integrale Veiligheidskunde/security Management

3 jaar geleden

selin_6 Pedagogische Wetenschappen · 30 beoordelingen

2 jaar geleden

yasminslaw Pedagogische Wetenschappen · 109 beoordelingen

4 jaar geleden

sarisegers Psychologie · 56 beoordelingen

3 jaar geleden

rrs1 Psychologie · 29 beoordelingen

4 jaar geleden

bouchraacadii Pedagogische Wetenschappen · 25 beoordelingen

4 jaar geleden

3,7

6 beoordelingen

Betrouwbare reviews op Stuvia

Alle beoordelingen zijn geschreven door echte Stuvia-gebruikers na geverifieerde aankopen.

Maak kennis met de verkoper

rooszeelen Vrije Universiteit Amsterdam

Bekijk profiel

Volgen

Verkocht

334

Lid sinds

7 jaar

Aantal volgers

209

Documenten

Laatst verkocht

2 maanden geleden

3,8

50 beoordelingen

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper rooszeelen. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €4,99. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews) Afgelopen 30 dagen zijn er 43863 samenvattingen verkocht Opgericht in 2010, al 15 jaar dé plek om samenvattingen te kopen

Statistiek 2 Samenvatting

Geschreven voor

Documentinformatie

Onderwerpen

Voorbeeld van de inhoud

Meer vakken binnen Vrije Universiteit Amsterdam (VU) > Psychologie

Beoordelingen van geverifieerde kopers

Maak kennis met de verkoper

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Niet tevreden? Kies een ander document

Betaal zoals je wilt, start meteen met leren

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Tevredenheidsgarantie: hoe werkt dat?

Van wie koop ik deze samenvatting?

Zit ik meteen vast aan een abonnement?

Is Stuvia te vertrouwen?