100% tevredenheidsgarantie Direct beschikbaar na je betaling Lees online óf als PDF Geen vaste maandelijkse kosten 4,6 TrustPilot
logo-home
Samenvatting

Volledige samenvatting van Statistiek 2

Beoordeling
-
Verkocht
5
Pagina's
17
Geüpload op
19-04-2021
Geschreven in
2020/2021

Volledige samenvatting van Statistiek 2

Voorbeeld van de inhoud

Statistiek 2 samenvatting
Week 1 – H9.1 t/m 9.3: Enkelvoudige lineaire regressie
Enkelvoudige regressie
y is een lineaire functie van x. De formule y = 𝛼 + 𝛽x drukt de observaties van y als een lineaire
functie van de observaties van x uit. De formule heeft een rechte lijn als grafiek met regressie
coëfficiënten: helling 𝛽 (beta) en intercept 𝛼 (alpha). De horizontale as (x-as) laat de mogelijke
waarden van x zien. De verticale as (y-as) laat de mogelijke waarden van y zien. De assen kruizen op
het punt waar x en y = 0.

Als x = 0 laat de formule y = 𝛼 + 𝛽x zien dat y = 𝛼 + 𝛽(0). Dus dan is y = 𝛼. De helling 𝛽 staat gelijk
aan de verandering in y als x met 1 eenheid omhoog gaat. Dus als de x-waarde van x = 0 naar x =1
gaat, gaat de y-waarde met β omhoog/omlaag.

Een model is een simpele benadering van de relatie tussen variabelen in de populatie. Voor een
gegeven waarde van x, verwacht het model y = 𝛼 + 𝛽x een waarde voor y. Hoe beter deze
verwachtingen zijn, des te beter het model. De eerste stap tot ‘model fitting’ is het plotten van de
data. Om te laten zien of het model met een ‘rechte-lijn’ trend past. Kan door middel van een
spreidingsdiagram. Als deze suggereert dat de model y = 𝛼 + 𝛽x zou passen, gebruiken we de data
om de lijn te schatten. Dus; spreidingsdiagram > Rechte lijn lijkt goed te passen maar blijft een
vereenvoudiging van de werkelijkheid (in de populatie) > Waarden van de constante 𝛼 en de helling
𝛽 moeten geschat worden.

Regressie uitbijter (regression outlier) = als een data punt verder van de lijn lijkt te vallen dan de rest
van de data. Dit data punt/observatie is influential als het verwijderen er van resulteert in een grote
verandering in de verwachte vergelijking.

Marginale gemiddelde van y = onconditioneel, dit betekent y zonder invloed x. Dit geef je aan als
bijvb. y = 26,7. De afstand van elk punt tot de lijn ( y = 26,7) geeft de voorspelfout.

Formule y = 𝛼 + 𝛽x
Geschatte formule ^y = a + bx
Intercept 𝛼 vs. a Coefficents > B > constant
Helling 𝛽 vs. b Coefficents > B > variabele
naam
Gemiddelde vd steekproef y


Residual (e = y- ^y ): het verschil tussen geobserveerde en verwachte waarde. Bijvb: Massachusetts
heeft poverty rate x = 10.7 en y = 3.9. Volgens de verwachte vergelijking wordt het dan ^y = -0,86 +
0,58(10,7). ^y = 5.4. Dus 3.9 – 5.4 = -1.5.

Least squares principe
Least squares estimates = a en b. Bij deze waardes is de SSE = (y- Ŷ)2, het minimum.
Least squares line ( ^y = a + bx): de lijn met de kleinste SSE.




ANOVA

1

,Heeft als doel het splitsen van de marginale variantie van y in een verklaard (het model) en
onverklaard (de fouten) deel. Het verklaarde deel vind je onder regression. Het onverklaarde deel
vind je onder residual.

Sum of squared errors onverklaarde variantie
SSE (SSE = (y- ^y )2): van elke observatie is de residual uitgerekend, gekwadrateerd en dan bij elkaar
op geteld. Als de residuals kleiner zijn dan is de SSE ook kleiner en de verwachte vergelijking dus
beter. De SSE beschrijft de variatie van de data rondom de verwachte lijn. In SPSS: ANOVA tabel >
sum of squares > residuals.

Total sum of squared errors totale/marginale variantie
De TSS (TSS = (y- y )2) is de totale/marginale variantie. Dus de verklaarde en onverklaarde variantie
bij elkaar opgeteld.

Conditionele standaarddeviatie op basis van SSE
De lineaire regressievergelijking heeft ook een standaarddeviatie van elke conditionele verdeling. De
𝜎 is de conditionele SD = geeft de spreiding van de 𝑦-waarden rond hun (conditionele) gemiddelde
gegeven x. Dat wil zeggen, 𝜎 is de spreiding van de 𝑦-waarden rond de regressielijn. Er wordt
aangenomen dat de conditionele verdeling van 𝑦 een normale verdeling is.

De assumptie is dat 𝜎 constant is: dat wil zeggen, 𝜎 is voor elke waarde van x gelijk. Om 𝜎 te
schatten gebruik je de SSE. De conditionele standaarddeviatie geeft immers de spreiding aan van de
y-waarden rondom de regressielijn. Dat is eigenlijk het zelfde als residuen (= afstand van elk punt tot
de regressielijn > afstand van elk punt tot het conditionele gemiddelde van y).

SSE ( y −Ŷ ) 2
Dus de onverklaarde standaarddeviatie van de residuen is 𝑠 =

model summary > standard error of the estimate.
√ n−2
=
√n−2
. In SPSS: tabel



De onverklaarde variantie is s2. In SPSS: ANOVA tabel > mean square > residuals.

Degrees of freedom (df) = als een regressievergelijking k aantal onbekende parameters heeft (in dit
geval twee want E(y) = 𝛼 + 𝛽x) is de df = n – k. In SPSS: ANOVA tabel > df.

Marginale standaarddeviatie op basis TSS
Je hebt ook een standaarddeviatie voor de marginale verdeling van y (hierbij gebruik je alleen de y-
waarden omdat het een marginale verdeling is dus x er niet bij komt te kijken). Dit wordt aangegeven
als een sy in een steekproef en een 𝜎y in de populatie. Bij een conditionele verdeling is het s y|x in een
steekproef en een 𝜎y|x in de populatie.
TSS ( y −Ῡ ) 2
Om de marginale standaarddeviatie uit te rekenen gebruik je 𝑠y =
√ n−2
=
√ n−1
.


Root MSE
Root MSE is de wortel uit de MSE (Mean Square Error), wat een schatting van de onverklaarde
variantie is. De Root MSE is dus de onverklaarde SD, of wel de SD van de residuen (de spreiding van
de punten rond de regressielijn).



2

, Lineair regressie model
Deterministisch model = bij het lineaire model y = 𝛼 + 𝛽x komt elke waarde van x overeen met één
waarde van y. Dit is onrealistisch want niet iedereen met dezelfde x-score heeft dezelfde y-score.
Voor elke x-groep is er een (kans) verdeling van y-scores. Bijvb: x = aantal jaar educatie en y = jaarlijks
inkomen. De respondenten met x =12 hebben niet allemaal dezelfde y. Want y hangt niet compleet
af van x.

Probabilistisch model = dit model beschrijft hoe scores op y kunnen variëren voor elke waarde van x.
Dus in plaats van het deterministische model, beschrijft het probabilistische model een (kans)
verdeling voor het jaarlijkse inkomen voor individuen met x = 12. Dit is de conditionele verdeling van
de y-waarden bij x = 12. Er is dan bijvoorbeeld ook een andere conditionele verdeling voor de y-
waarden bij x = 13.

Dit model gebruikt 𝛼 + 𝛽x om de gemiddelde van de y-waardes te representeren. Voor een gegeven
waarde van x, representeert 𝛼 + 𝛽x de gemiddelde van de conditionele verdeling van y (E(y)) voor
observaties gegeven die waarde van x.

E(y) = 𝛼 + 𝛽x is dan de lineaire enkelvoudige regressievergelijking. Dit is de analyse van de
samenhang tussen een afhankelijke variabele en een onafhankelijke variabele met behulp van een
lineair model. De regressie coëfficiënten 𝛼 en 𝛽 weet je niet dus schat je volgens het least squares
principe: gebruik de least squares estimates a en b en vorm je de verwachte vergelijking ^y = a + bx.
Bij elke waarde van x, schat ^y = a + bx de gemiddelde voor y voor alle observaties in de populatie
met die waarde van x.

Week 2 – H9.4 + H9.5: Inferentie voor lineaire regressie 1
Correlatie enkelvoudig dus kleine r
Van twee kwantitatieve variabelen, kan je de samenhang meten. De helling b van de verwachte
vergelijking vertelt ons de richting van de samenhang (of de verwachte lijn omhoog of omlaag loopt
als x groter wordt, dus of de samenhang positief of negatief is). De helling vertelt ons echter niet hoe
sterk de samenhang is. Dit komt omdat de helling intrinsiek gelinkt is aan maat eenheden. De helling
b laat ons niet direct zien of de samenhang sterk of zwak is, omdat we b zo groot of klein kunnen
maken als we willen. Correlatie hangt niet af van maat eenheden en kan dus wel de samenhang
berekenen. De correlatie is de gestandaardiseerde versie van de helling.

Sx
De correlatie tussen variabelen x en y wordt aangegeven door correlatiecoëfficiënt r = ( ). Deze
Sy
hangt samen met de helling volgens de verwachte vergelijking y = 𝛼 + 𝛽x. Als de steekproeven
standaarddeviaties gelijk zijn (sx=sy) dan is r gelijk aan b.
Kenmerken van r:
 Relatie tussen twee continue variabelen en geeft richting sterkte van lineair verband aan
 r is tussen -1 en 1 & r= 0 als b = 0
 r > 0 als de variabelen positief samenhangen & r < 0 als de variabelen negatief samenhangen
 Hoe groter de absolute waarde van r, hoe groter de lineaire samenhang
 Gevoelig voor uitbijters

In SPSS: tabel model summary > R
In SPSS R-square = correlatie in het kwadraat




3

Documentinformatie

Geüpload op
19 april 2021
Aantal pagina's
17
Geschreven in
2020/2021
Type
SAMENVATTING

Maak kennis met de verkoper

Seller avatar
De reputatie van een verkoper is gebaseerd op het aantal documenten dat iemand tegen betaling verkocht heeft en de beoordelingen die voor die items ontvangen zijn. Er zijn drie niveau’s te onderscheiden: brons, zilver en goud. Hoe beter de reputatie, hoe meer de kwaliteit van zijn of haar werk te vertrouwen is.
nadiaschadenberg Rijksuniversiteit Groningen
Bekijk profiel
Volgen Je moet ingelogd zijn om studenten of vakken te kunnen volgen
Verkocht
52
Lid sinds
4 jaar
Aantal volgers
31
Documenten
16
Laatst verkocht
4 weken geleden

4,8

4 beoordelingen

5
3
4
1
3
0
2
0
1
0

Populaire documenten

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

Student with book image

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen