Samenvatting

Samenvatting Statistische Modellen 2

33 keer verkocht

Vak
Statistische Modellen 2 (PABA2058)

Instelling
Rijksuniversiteit Groningen (RuG)

Boek
Statistical Methods for the Social Sciences, Global Edition

Dit is mijn samenvatting van de tentamenstof van het vak statistische modellen 2. Let op: het staat op de volgorde van de colleges en dus niet op (logische) volgorde van hoofdstukken. Er zijn veel elementen + voorbeelden uit de hoorcolleges toegevoegd.

[Meer zien]

Voorbeeld 3 van de 27 pagina's

Bekijk voorbeeld

Heel boek samengevat? Nee
Wat is er van het boek samengevat? H 7.3, 7.4, 9, 10, 11, 12, 13.5, 14.2, 14.3 & 15.1 t/m 15.3
Geupload op 15 maart 2021
Aantal pagina's 27
Geschreven in 2020/2021
Type Samenvatting

statistiek
aolb
groningen
spss
scriptie
statistische modellen
statistische modellen 2
pedagogische wetenschappen
pw
statistical methods for the social sciences

Titel boek:Statistical Methods for the Social Sciences, Global Edition

Auteur(s):Alan Agresti, Barbara Finlay

Uitgave:juli 2013
ISBN:9781292021669
Druk:4

Instelling
Rijksuniversiteit Groningen (RuG)
Studie
Academische Opleiding Leraar Basisonderwijs / AOLB
Vak
Statistische Modellen 2 (PABA2058)

Volgen

Wellie340

Lid sinds 8 jaar 1133 documenten verkocht

141

$5.84

In winkelwagen

Opslaan

100% tevredenheidsgarantie
Direct beschikbaar na je betaling
Lees online óf als PDF
Geen vaste maandelijkse kosten

Statistische modellen 2 – Agresti Finlay (4e editie)
Hoofdstuk 9.1
Bij een regressieanalyse gaat het over drie verschillende aspecten:
 Je kan zien of er een relatie is tussen twee of meerdere variabelen
 Je kan zien hoe sterk deze relatie is (met behulp van de correlatie)
 Je kunt een regressieformule opstellen en hiermee de waarden van de onafhankelijke
variabele voorspellen (op basis van een formule, denk aan y = bx + a)
Bovenstaande analyses samen, noem je een regressieanalyse.
 Enkelvoudige regressieanalyse = er is 1 voorspeller
 Multipele regressieanalyse = er zijn 2 of meer voorspellers

Allereerst gaan we kijken naar een lineair verband, dit betekent dat het gaat om een rechte lijn. We
kijken hierbij naar X en Y. Hoe verandert Y, als X verandert? Dit kun je uitdrukken in een formule 
Y = bx + a
 B = de helling (als X met één eenheid omhoog gaat, hoeveel stijgt/daalt Y dan?  helling. De
helling geeft de richting van de relatie weer en kan hiermee een interpretatie geven aan de
relatie (zie grafiek; positief, negatief, neutraal/geen relatie). Hoe steiler de lijn, hoe sterker
het verband.
 A = het y-intercept, punt waar de lijn de y-as snijdt  bij x=0.

Let op: je kunt met een lineaire verband geen causale voorspellingen doen (VB: het aantal
winkelovervallen in 2040 kan dus niet voorspeld worden op basis van informatie uit 2020). Je kunt
alleen informatie schatten/voorspellen op dit moment.

Hoofdstuk 9.2
Hiernaast zien we een scatterplot. Dit geeft de uitkomsten weer voor alle observaties.
Het aantal blauwe puntjes is dus gelijk aan je aantal observaties (n).

Door een scatterplot kun je een denkbeeldige lijn tekenen, de geschatte lineaire
functie. Maar waar moet je deze lijn precies tekenen?
 Bereken alle residuen (= afstanden van de punten tot de lijn = y - ŷ)
 Kwadrateer alle residuen
 Tel alle gekwadrateerde residuen op
 Kies een lijn waarmee de som van deze residuen zo klein mogelijk
is

,Elke observatie heeft een residu. De verwachte scores komen namelijk vrijwel nooit overeen met de
daadwerkelijke, geobserveerde scores. Als de verwachte lijn dichtbij alle puntjes ligt in de scatterplot,
zijn de residuen klein. We kunnen de grootte van de residuen samenvatten met de sum of squared
errors (SSE):

SSE = ∑(𝑦 − 𝑦̂)2

Dit is de kleinste som van de gekwadrateerde afstanden tussen de geobserveerde punten (y) en de
voorspelde punten (𝑦̂). Je wilt de residuen namelijk zo klein mogelijk, want dan is je verwachte lijn
het beste.

In SPSS wordt de sum of squared errors (SSE) ook wel de residual sum of squares genoemd. Raak hier
niet van door de war!

De least squares estimates zijn de waarden van a en b in de verwachte formule, waarbij de sum of
squared errors (SSE) het kleinst is. De residuen zijn dus het kleinst en de formule is dus de beste
voorspelling van de data. De bijbehorende lijn van de formule wordt de least squares line genoemd.
De least squares line is dus de denkbeeldige lijn die je door je data kunt trekken. Deze lijn heeft
positieve en negatieve residuen. De som van deze residuen (bij een perfecte lijn) is 0.

Let op: het is dus niet nodig dat alle punten exact op de regressielijn liggen. Een voorwaarde is:
homoscedasticiteit. Dit betekent dat de verticale spreiding (van onder naar boven) voor ongeveer
alle waarden van X gelijk is (zie grafiek hieronder). Het tegenovergestelde is heteroscedasticiteit (zie
grafiek ernaast).

Om te checken of je een goed voorspelde regressielijn hebt getekend, kun je de lineairiteit checken.
Bij lineairiteit cehck je of het gemiddelde van de gestandaardiseerde residuen van links naar rechts
rond de ei (de totale variatie rondom de best passende lijn (= ook wel residu of error)) = 0 ligt. Als dit
het geval is, is je lineairiteit goed (zie eerste afbeelding). Is het gemiddelde veel meer verdeeld, dan is
er sprake van niet-lineairiteit (zie afbeelding ernaast).

, In deze scatterplot zie je een voorbeeld van een regressielijn. Alle
puntjes liggen gecentreerd rondom deze lijn. Het verband tussen
lengte en gewicht (in het voorbeeld) is dus ongeveer lineair, want we
kunnen er een denkbeeldige lijn doortekenen.

In het plaatje eronder, wordt dit al veel lastiger. Hier liggen de puntjes
niet gecentreerd in één gebied. We kunnen er moeilijk één lijn
doortekenen, waardoor het verband dus waarschijnlijk niet lineair is.

Wanneer een scatterplot laat zien dat er een lineair verband mogelijk is
(wanneer je dus een lijn kunt tekenen), kun je dit invullen in een formule. Je
noemt dit dan een verwachte formule, omdat je er natuurlijk niet zeker van
bent of er een lineair verband is. Deze formule gaat voor het gemak wel uit
van een lineair verband: Ŷ = a + bx (het dakje op de y geeft aan dat het om
een verwachting gaat).

Soms heb je te maken met een extreme, afwijkende waarde. Dit noem je
een uitbijter (ook wel een outlier genoemd). Wanneer je te maken hebt met
een uitbijter heeft dit effect op je regressielijn. Het zorgt er namelijk voor dat je lijn naar de uitbijter
wordt getrokken, waardoor de lijn wegraakt van het centrum van de andere punten. Het kan dus
zeker een storend effect zijn!
Een observatie wordt invloedrijk genoemd, wanneer als je deze observatie/waarde er uit laat, je
verwachte formule heel erg verandert. Dit betekent namelijk dat de uitbijter veel invloed op de
verwachte formule (met name de helling) heeft, waardoor je de uitbijter er beter uit kunt laten. Het
geeft namelijk geen goede indicatie van de data.

Hoofdstuk 9.3
Deterministisch = iedere waarde voor x correspondeert met een unieke waarde van y zonder
rekening te houden met onzekerheid  𝑦̂ = 𝑎 + 𝑏𝑥
Probabilistisch = één waarde voor x correspondeert met een range van waardes op y  𝐸(𝑦̂) = α +
β𝑥  E” staat voor expected value, wat een ander benaming is voor gemiddelde

VB: Stel x is het aantal jaren van opleiding en y is het jaarlijks inkomen. Stel we nemen x = 12, je hebt
dus 12 opleidingsjaren gehad. Als dit deterministisch zou zijn, zou iedereen met 12 opleidingsjaren
dezelfde y waarde hebben en dus hetzelfde jaarlijks inkomen. Dat is in dit geval niet zo, want mensen
met 12 opleidingsjaren, kunnen een verschillende baan hebben en dus een verschillend jaarlijks
inkomen. Het is in dit geval dus een probabilistisch model. Dit betekent dat iedereen met 12
opleidingsjaren een andere y waarde kan hebben en y dus een range van waarden kan hebben.

Bij een probabilistisch model, is er variëteit in de y-waarden. De y-waarde kan variëren, ook al is de
X-waarde wel telkens hetzelfde. De door het model voorspelde waarde 𝑦̂ is het gemiddelde van dit
interval. Dit betekent dat bij x= 12, een geschatte y- waarde van bijvoorbeeld 36.000 hoort (ŷ =
36.000). Dit is dan het gemiddelde voor deze x-waarde.

De formule: 𝐸(𝑦̂) = α + β𝑥 is een regressie formule. Een regressieformule is een formule die
beschrijft hoe het gemiddelde van de afhankelijke variabele verandert aan de hand van de
onafhankelijke variabele. 𝐸(𝑦̂) betekent hierin het gemiddelde van het y-interval (zie uitleg
hierboven, bijvoorbeeld die 36.000).
De formule: 𝐸(𝑦̂) = α + β𝑥 is een lineaire regressie formule, omdat het uitkomt als een rechte
(lineaire) lijn. Deze rechte lijn geeft het gemiddelde van de y-waardes weer voor elke waarde van x.

Dit zijn jouw voordelen als je samenvattingen koopt bij Stuvia:

Bewezen kwaliteit door reviews

Studenten hebben al meer dan 850.000 samenvattingen beoordeeld. Zo weet jij zeker dat je de beste keuze maakt!

In een paar klikken geregeld

Geen gedoe — betaal gewoon eenmalig met iDeal, creditcard of je Stuvia-tegoed en je bent klaar. Geen abonnement nodig.

Direct to-the-point

Studenten maken samenvattingen voor studenten. Dat betekent: actuele inhoud waar jij écht wat aan hebt. Geen overbodige details!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper Wellie340. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor $5.84. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 77234 samenvattingen verkocht

Opgericht in 2010, al 15 jaar dé plek om samenvattingen te kopen

Begin nu gratis

Laatst bekeken door jou

Samenvatting ·

(4)

Eenmanszaak deel 1

College aantekeningen ·

(20)

Dictaat Histologie

Samenvatting ·

(0)

samenvatting verslaving

Samenvatting ·

(0)

Kindergeneeskunde week 4

College aantekeningen ·

(0)

Samenvatting

Samenvatting Statistische Modellen 2

Document informatie

Onderwerpen

Gekoppeld boek

Geschreven voor

Verkoper

Ontvangen beoordelingen

Voorbeeld van de inhoud

Dit zijn jouw voordelen als je samenvattingen koopt bij Stuvia:

Bewezen kwaliteit door reviews

In een paar klikken geregeld

Direct to-the-point

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Tevredenheidsgarantie: hoe werkt dat?

Van wie koop ik deze samenvatting?

Zit ik meteen vast aan een abonnement?

Is Stuvia te vertrouwen?

Laatst bekeken door jou

Samenvatting ·

Eenmanszaak deel 1

College aantekeningen ·

Dictaat Histologie

Samenvatting ·

samenvatting verslaving

Samenvatting ·

Kindergeneeskunde week 4

College aantekeningen ·

MTO-D Hoorcolleges