100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
Samenvatting Statistische Modellen 2 €4,99   In winkelwagen

Samenvatting

Samenvatting Statistische Modellen 2

 168 keer bekeken  33 keer verkocht

Dit is mijn samenvatting van de tentamenstof van het vak statistische modellen 2. Let op: het staat op de volgorde van de colleges en dus niet op (logische) volgorde van hoofdstukken. Er zijn veel elementen + voorbeelden uit de hoorcolleges toegevoegd.

Voorbeeld 3 van de 27  pagina's

  • Nee
  • H 7.3, 7.4, 9, 10, 11, 12, 13.5, 14.2, 14.3 & 15.1 t/m 15.3
  • 15 maart 2021
  • 27
  • 2020/2021
  • Samenvatting
book image

Titel boek:

Auteur(s):

  • Uitgave:
  • ISBN:
  • Druk:
Alle documenten voor dit vak (5)
avatar-seller
Wellie340
Statistische modellen 2 – Agresti Finlay (4e editie)
Hoofdstuk 9.1
Bij een regressieanalyse gaat het over drie verschillende aspecten:
 Je kan zien of er een relatie is tussen twee of meerdere variabelen
 Je kan zien hoe sterk deze relatie is (met behulp van de correlatie)
 Je kunt een regressieformule opstellen en hiermee de waarden van de onafhankelijke
variabele voorspellen (op basis van een formule, denk aan y = bx + a)
Bovenstaande analyses samen, noem je een regressieanalyse.
 Enkelvoudige regressieanalyse = er is 1 voorspeller
 Multipele regressieanalyse = er zijn 2 of meer voorspellers

Allereerst gaan we kijken naar een lineair verband, dit betekent dat het gaat om een rechte lijn. We
kijken hierbij naar X en Y. Hoe verandert Y, als X verandert? Dit kun je uitdrukken in een formule 
Y = bx + a
 B = de helling (als X met één eenheid omhoog gaat, hoeveel stijgt/daalt Y dan?  helling. De
helling geeft de richting van de relatie weer en kan hiermee een interpretatie geven aan de
relatie (zie grafiek; positief, negatief, neutraal/geen relatie). Hoe steiler de lijn, hoe sterker
het verband.
 A = het y-intercept, punt waar de lijn de y-as snijdt  bij x=0.




Let op: je kunt met een lineaire verband geen causale voorspellingen doen (VB: het aantal
winkelovervallen in 2040 kan dus niet voorspeld worden op basis van informatie uit 2020). Je kunt
alleen informatie schatten/voorspellen op dit moment.

Hoofdstuk 9.2
Hiernaast zien we een scatterplot. Dit geeft de uitkomsten weer voor alle observaties.
Het aantal blauwe puntjes is dus gelijk aan je aantal observaties (n).

Door een scatterplot kun je een denkbeeldige lijn tekenen, de geschatte lineaire
functie. Maar waar moet je deze lijn precies tekenen?
 Bereken alle residuen (= afstanden van de punten tot de lijn = y - ŷ)
 Kwadrateer alle residuen
 Tel alle gekwadrateerde residuen op
 Kies een lijn waarmee de som van deze residuen zo klein mogelijk
is

,Elke observatie heeft een residu. De verwachte scores komen namelijk vrijwel nooit overeen met de
daadwerkelijke, geobserveerde scores. Als de verwachte lijn dichtbij alle puntjes ligt in de scatterplot,
zijn de residuen klein. We kunnen de grootte van de residuen samenvatten met de sum of squared
errors (SSE):

SSE = ∑(𝑦 − 𝑦̂)2

Dit is de kleinste som van de gekwadrateerde afstanden tussen de geobserveerde punten (y) en de
voorspelde punten (𝑦̂). Je wilt de residuen namelijk zo klein mogelijk, want dan is je verwachte lijn
het beste.

In SPSS wordt de sum of squared errors (SSE) ook wel de residual sum of squares genoemd. Raak hier
niet van door de war!

De least squares estimates zijn de waarden van a en b in de verwachte formule, waarbij de sum of
squared errors (SSE) het kleinst is. De residuen zijn dus het kleinst en de formule is dus de beste
voorspelling van de data. De bijbehorende lijn van de formule wordt de least squares line genoemd.
De least squares line is dus de denkbeeldige lijn die je door je data kunt trekken. Deze lijn heeft
positieve en negatieve residuen. De som van deze residuen (bij een perfecte lijn) is 0.

Let op: het is dus niet nodig dat alle punten exact op de regressielijn liggen. Een voorwaarde is:
homoscedasticiteit. Dit betekent dat de verticale spreiding (van onder naar boven) voor ongeveer
alle waarden van X gelijk is (zie grafiek hieronder). Het tegenovergestelde is heteroscedasticiteit (zie
grafiek ernaast).




Om te checken of je een goed voorspelde regressielijn hebt getekend, kun je de lineairiteit checken.
Bij lineairiteit cehck je of het gemiddelde van de gestandaardiseerde residuen van links naar rechts
rond de ei (de totale variatie rondom de best passende lijn (= ook wel residu of error)) = 0 ligt. Als dit
het geval is, is je lineairiteit goed (zie eerste afbeelding). Is het gemiddelde veel meer verdeeld, dan is
er sprake van niet-lineairiteit (zie afbeelding ernaast).

, In deze scatterplot zie je een voorbeeld van een regressielijn. Alle
puntjes liggen gecentreerd rondom deze lijn. Het verband tussen
lengte en gewicht (in het voorbeeld) is dus ongeveer lineair, want we
kunnen er een denkbeeldige lijn doortekenen.

In het plaatje eronder, wordt dit al veel lastiger. Hier liggen de puntjes
niet gecentreerd in één gebied. We kunnen er moeilijk één lijn
doortekenen, waardoor het verband dus waarschijnlijk niet lineair is.

Wanneer een scatterplot laat zien dat er een lineair verband mogelijk is
(wanneer je dus een lijn kunt tekenen), kun je dit invullen in een formule. Je
noemt dit dan een verwachte formule, omdat je er natuurlijk niet zeker van
bent of er een lineair verband is. Deze formule gaat voor het gemak wel uit
van een lineair verband: Ŷ = a + bx (het dakje op de y geeft aan dat het om
een verwachting gaat).

Soms heb je te maken met een extreme, afwijkende waarde. Dit noem je
een uitbijter (ook wel een outlier genoemd). Wanneer je te maken hebt met
een uitbijter heeft dit effect op je regressielijn. Het zorgt er namelijk voor dat je lijn naar de uitbijter
wordt getrokken, waardoor de lijn wegraakt van het centrum van de andere punten. Het kan dus
zeker een storend effect zijn!
Een observatie wordt invloedrijk genoemd, wanneer als je deze observatie/waarde er uit laat, je
verwachte formule heel erg verandert. Dit betekent namelijk dat de uitbijter veel invloed op de
verwachte formule (met name de helling) heeft, waardoor je de uitbijter er beter uit kunt laten. Het
geeft namelijk geen goede indicatie van de data.

Hoofdstuk 9.3
Deterministisch = iedere waarde voor x correspondeert met een unieke waarde van y zonder
rekening te houden met onzekerheid  𝑦̂ = 𝑎 + 𝑏𝑥
Probabilistisch = één waarde voor x correspondeert met een range van waardes op y  𝐸(𝑦̂) = α +
β𝑥  E” staat voor expected value, wat een ander benaming is voor gemiddelde

VB: Stel x is het aantal jaren van opleiding en y is het jaarlijks inkomen. Stel we nemen x = 12, je hebt
dus 12 opleidingsjaren gehad. Als dit deterministisch zou zijn, zou iedereen met 12 opleidingsjaren
dezelfde y waarde hebben en dus hetzelfde jaarlijks inkomen. Dat is in dit geval niet zo, want mensen
met 12 opleidingsjaren, kunnen een verschillende baan hebben en dus een verschillend jaarlijks
inkomen. Het is in dit geval dus een probabilistisch model. Dit betekent dat iedereen met 12
opleidingsjaren een andere y waarde kan hebben en y dus een range van waarden kan hebben.

Bij een probabilistisch model, is er variëteit in de y-waarden. De y-waarde kan variëren, ook al is de
X-waarde wel telkens hetzelfde. De door het model voorspelde waarde 𝑦̂ is het gemiddelde van dit
interval. Dit betekent dat bij x= 12, een geschatte y- waarde van bijvoorbeeld 36.000 hoort (ŷ =
36.000). Dit is dan het gemiddelde voor deze x-waarde.

De formule: 𝐸(𝑦̂) = α + β𝑥 is een regressie formule. Een regressieformule is een formule die
beschrijft hoe het gemiddelde van de afhankelijke variabele verandert aan de hand van de
onafhankelijke variabele. 𝐸(𝑦̂) betekent hierin het gemiddelde van het y-interval (zie uitleg
hierboven, bijvoorbeeld die 36.000).
De formule: 𝐸(𝑦̂) = α + β𝑥 is een lineaire regressie formule, omdat het uitkomt als een rechte
(lineaire) lijn. Deze rechte lijn geeft het gemiddelde van de y-waardes weer voor elke waarde van x.

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper Wellie340. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €4,99. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 73216 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen
€4,99  33x  verkocht
  • (0)
  Kopen