College en werkgroep aantekeningen biostatistiek 1 (AB_470231) Inleiding in de toegepaste biostatistiek
Zelfgemaakte cursus/samenvatting - statistiek theorie - Els Claeys
Samenvatting - statistiek theorie
Tout pour ce livre (17)
École, étude et sujet
Vrije Universiteit Amsterdam (VU)
Premaster Gezondheidswetenschappen
Methodologie en toegepaste biostatistiek 2
Tous les documents sur ce sujet (11)
2
revues
Par: minkebosma • 3 année de cela
Par: elemariekje • 4 année de cela
Vendeur
S'abonner
an1997
Avis reçus
Aperçu du contenu
Hc 1: ANOVA en lineaire regressie door Maria
College vandaag:
MTB2
Infertiele statistiek
Lineaire regressie
Achtergrond
T-toets en lin reg
Correlatie
ANOVA
Tentamenvragen
Leerdoelen:
- Onderzoekstechnieken kunnen kiezen, toepassen en resultaten interpreteren
- Theoretische achtergrond van technieken kunnen uitleggen
- Onderzoekstechnieken gebruiken in SPSS
- Methoden- en resultatenparagraaf schrijven
- Kritisch reflecteren over methode, resultaten etc.
Korte inleiding:
Inferentiële statistiek:
• We hebben een verwachting over de populatie
• Maar omdat we geen data over de gehele populatie kunnen verzamelen nemen we een steekproef om de hypothese
te toetsen
• Op basis van de uitkomst van de toets kunnen we wel/niet uitspraken doen over de populatie
Bekend en nieuw:
• Bekend: T-toetsen
• Hieraan voegen we toe:
• Regressie
o Een universele oplossing voor al onze (toetsings-)problemen (Een regressie analyse kan je voor bijna al je
problemen gebruiken.)
• ANOVA
o Vergelijking van meer dan 2 groepen
• Correlatie
o Verband tussen twee variabelen
Lineaire regressie:
- In zijn meest eenvoudige vorm beschrijft een regressievergelijking een lineaire relatie van een ziekteparameter
(afhankelijke variabele, uitkomst) met 1 determinant (onafhankelijke variabele)
- Het analyseren van de relatie tussen een continue uitkomstvariabele en een andere variabele
- Met lineaire regressie analyse kan je 2 groepen of meer dan 2 groepen met elkaar vergelijken
- Waar een t toets geschikt is om 2 onafhankelijke groepen te vergelijken (een dichotome determinant) en een
variantieanalyse geschikt is om meer groepen te vergelijken (een categoriale determinant), kunnen met een lineaire
regressieanalyse alle soorten determinanten worden geanalyseerd.
- Om na te gaan of groepen van elkaar verschillen, wordt vaak gekeken naar het gemiddelde. Als de gemiddelden van
elkaar verschillen, zegt men dat de groepen van elkaar verschillen. De t-toets gebruik je om de gemiddelden van twee
groepen met elkaar te vergelijken. De ANOVA (ANalysis of VAriance of op zijn Nederlands variantieanalyse) is een
toets die wordt gebruikt om na te gaan of er een verschil is tussen de gemiddelden van drie of meer groepen.
- Op de x as de determinant op de y as de uitkomstvariabele
- Enkelvoudige lineaire regressie analyse= met 1 determinant
- Intercept= de constante, b0
- Richtingscoëfficiënt= voor de determinant, de helling, b1
- B1 heeft een interessante interpretatie: bij ieder verschil van 1 jaar in leeftijd (in voorbeeld tussen leeftijd en
cholesterol) is het verwachte verschil in cholesterolconcentratie 0,021 (zie blz 87)
Bijv. cholesterol= B0 + B1 x leeftijd
- B0 is de waarde van de uitkomstvariabele als de determinant (hier leeftijd) gelijk is aan 0.
B1 is het verschil in uitkomstvariabele als de determinant 1 eenheid verschilt
1
,Bij een lineair verband ga je uit dat er een rechtlijnig verband is tussen de (in dit geval continue) determinant en de
uitkomst. In een voorbeeld: bij een lineair verband tussen BMI en systolische bloeddruk ga je uit van de aanname dat bij
elke toename per eenheid BMI de (geschatte) systolische bloeddruk met dezelfde grootte verandert. Ofwel de toename
van systolische bloeddruk is identiek als je van BMI 16 naar 17 gaat als van 40 naar 41. Deze aanname dien je natuurlijk te
verifiëren.
Determinant staat op x as van scatterplot de uitkomst staat op de y as
Lineaire regressie:
• Onafhankelijke variabele (determinant):
o Alle meetniveau's: dichotoom (=geval t-toets), categoriaal (`dummy'; =geval ANOVA), interval/ratio (=geval
correlatie)
• Afhankelijke variabele (uitkomst):
o Min. interval meetniveau
De determinant kan alle verschillende meetniveau ’s hebben.
De uitkomstvariabele bij lineaire regressie is altijd continue: ratio of interval (vandaag een continue determinant, BMI)
• Zoals de naam al zegt: we schatten een lineair verband
• Met bivariate regressie schatten we het verband tussen twee variabelen (X en Y)
• We schatten Y als lineaire functie van X (We schatten een lineair verband tussen determinant en uitkomst)
• Hoeveel neemt variabele (Y) (afhankelijke) toe of af als andere variabele toeneemt (X) (onafhankelijke).
• We maken op basis van de onafhankelijke X-variabele een voorspelling voor de waarde op de afhankelijke Y-variabele
(Hoe y veranderd als x verandert).
o Vandaag bivariate regressie: het voorspellen van Y op basis van X
o Volgende week multiple regressie: het voorspellen van Y op basis van meerdere onafhankelijke variabelen
(X1, X2, X3, enz.)
De (on)mogelijkheden van regressie:
• De meeste onderzoekers willen verklaren waarom bepaalde groepen van elkaar verschillen, of waarom er een
bepaalde samenhang bestaat tussen twee variabelen.
• We kunnen bijvoorbeeld observeren dat mensen met een hogere BMI gemiddeld een hogere bloeddruk hebben. We
weten dan nog niet waarom dat zo is.
• Waarom-vragen kunnen we niet beantwoorden, gewoon door statistiek toe te passen.
• Uiteindelijk moet theorie en eerder onderzoek leidend zijn bij de verklaringen die wij zoeken.
• De statistiek is ervoor om verschillende verklaringen te toetsen (bijv. d.m.v. regressie).
We kunnen alleen kijken is het zo. Het geeft geen antw. Op waaromvragen. Je moet dus altijd theorie of eerder onderzoek
gebruiken om waarom vragen te beantwoorden. Als iemand een BMI heeft van… heeft hij een hoge bloeddruk= dit kunnen
we niet stellen met lineaire regressie. We kunnen alleen toetsen of 2 dingen met elkaar in verband staan. Met een RCT kan
je het beste causaliteit (oorzaak-gevolg) bewijzen
• In het dagelijks leven: aan de lopende band verklaringen zoeken voor waarom bepaalde dingen gebeuren en andere
niet.
• Wees bewust van de uitspraken die je wel en niet kunt doen op basis van je onderzoeksresultaten
o bijv. causale uitspraken.
• Het vaststellen van causaliteit is een ingewikkelde tak van sport, wij doen dat hier niet!
2
,Bivariate regressie:
• Met bivariate regressie schatten we het verband tussen twee variabelen (X en Y)
• We schatten een lineair verband tussen X en Y
• X is de onafhankelijke variabele waarmee we proberen...
• te verklaren waarom er variantie is in de afhankelijke variabele Y
met x proberen we te verklaren waarom er variantie is in y
we willen de variantie in de uitkomstmaat verklaren. Bovenstaande basis voor regressie
voor het woord variantie wordt ook wel variatie gebruikt
lineair verband:
• We schatten een bivariaat en lineair verband tussen X (BMI) en Y (bloeddruk)
• We willen de variantie in Y verklaren met behulp van X
Het lijkt erop dat mensen met een hogere BMI ook een hogere bloeddruk
hebben. mogelijk is BMI een verklaring voor de variantie die we in de
bloeddruk vinden.
Lineair verband, bloeddruk bij BMI 25?
Lijn schat in hoeverre BMI een voorspeller is voor bloeddruk
Bij een BMI van 25 ligt 1 persoon precies op de voorspelling. Hiervoor
kunnen we precies voorspellen wat de bloeddruk is. Er zijn veel mensen die
niet op de lijn zitten. We doen een voorspelling. Er zijn ook mensen met BMI
25 met een andere bloeddruk
Maar ook (en nog veel meer)
➔ We doen een voorspelling voor het gemiddelde. Voor mensen met een
BMI van 25 weten we niet wat het gemiddelde precies is. We kijken hoe
hoog de bloeddruk gemiddeld genomen is.
Voorspellingen voor het gemiddelde:
• Gegeven BMI maken we een voorspelling voor een `gemiddelde'
bloeddruk
Gegeven x maken we een voorspelling voor een gemiddelde y
• Dit is de lijn die we door de puntenwolk kunnen leggen
Kenmerken van de regressievergelijking: de constante:
• Als X=0 is, dan hebben we een voorspelde Y-waarde. Dit is de
`startwaarde'.
• We noemen dit de constante, intercept, a of b0
De constante geeft aan hoe hoog de y waarde is als x 0 is. Startpunt van de
regressievergelijking. 1e kenmerk van regressievergelijking is de constante.
Hoe hoog is de uitkomst als de determinant 0 is.
• Hier: voor een persoon met BMI=0 voorspellen we een bloeddruk van
57.75
• Een BMI=0 is natuurlijk onzin (hoe dit te verbeteren, later!)
3
,Een regressieanalyse laat zien hoe een verband eruit ziet door een lijn te trekken door een puntenwolk. Een negatieve
regressielijn betekent een negatief verband en een positieve regressielijn een positief
verband.
Kenmerken van de regressievergelijking: richtingscoëfficiënt:
• Als we op de X-as een eenheid omhoog gaan, correspondeert dat met een
bepaalde voorspelde toename voor Y
• Het maakt niet uit of ik van 0 naar 1 ga, of van 24 naar 25. De voorspelde Y gaat
altijd evenveel omhoog
• Hoeveel de voorspelde Y omhoog gaat als ik 1 eenheid op X omhoog ga...
• noemen we de richtingscoëfficiënt, hellingscoëfficiënt, slope (de helling, geeft
aan hoe stijl de lijn is), b of b1
richtingscoëfficiënt: geeft aan wat er gebeurd met de uitkomst als we 1 eenheid
omhoog gaan bij de determinant, als onze BMI met 1 omhoog gaat wat gebeurd er
dan op de y as?
• Een stapje omhoog bij X, correspondeert met een toename van 2.56 in de
voorspelde Y
• D.w.z. voor een toename van BMI met 1 eenheid, neemt de voorspelde
bloeddruk met 2.56 toe
Kijk naar oranje driehoekjes. Van BMI 0 naar 1, hoeveel ga ik dan omhoog in bloeddruk. Bij BMI van 25 komt ong. bij een
bloeddruk van 120.
Voorspellingen:
• En met de constante en het richtingscoëfficiënt kunnen we dus nu voorspellingen doen
• Bijvoorbeeld: Wat is de verwachtte bloeddruk voor iemand met een BMI van 25?
Ŷ = 57.75 + 2.56 * BMI
Ŷ = 57.75 + 2.56 * 25 = 121.75
Ŷ is verwachte waarde op de y variabele. Hier dus de voorspelde bloeddruk. dakje staat voor voorspelling.
57,75 is constante. 2,56 is richtingscoëfficiënt
Als BMI 1 hoger wordt gaat bloedruk met 2,56 omhoog.
Regressie: de vergelijking:
Regressievergelijking:
Ŷ = b0 + b1 * X
In woord:
We voorspellen Y ( Ŷ )
• op basis van de constante (b0)
• en het richtingscoëfficiënt (b1)
• vermenigvuldigd met de waarde op de onafhankelijke
variabele X
x is de waarde op de determinant
Regressie: SPSS-output:
(analyze- regression-lineair)
je krijgt er 4, maar 3 tabellen waar we wat mee kunnen. De
regressievergelijking staat bij coëfficiënts. Je ziet de waardes
terugkomen die net al in de vergelijking stonden. In het 1e deel van
de kolom staat dus altijd de constante en de richtingscoëfficiënt.
Wanneer de BMI 0 zou zijn zou de systolische bloeddruk 57,750
zijn.
Ŷ (Bloeddruk) = 57.75 + 2.56 * X
Ŷ (Bloeddruk) = 57.75 + 2.56 * BMI
De voorspelde bloeddruk voor iemand met een BMI van 35 is
147.35
4
,interpretatie constante:
De constante b0 geeft aan hoe groot de voorspelde Ŷ is als X nul is
• Over de constante formuleren we geen hypothese
• Als de p-waarde van de constante p <0.05 is, dan weten we dat
de constante significant afwijkt van nul. Niet meer, niet minder.
Geeft waarde op de uitkomst weer als de waarde voor de
determinant 0 is we formuleren geen hypothese.
➔ We willen weten hoe het verband tussen x en y eruit ziet.
P waarde geeft aan of de constante significant afwijkt van 0.
Significantie zegt niets meer dan is dit groter dan 0 ja of nee.
• Constante: 57.75, p< 0.05
• De bloeddruk voor een persoon met een BMI van 0 is significant
hoger dan nul
• De toets is uitgevoerd op basis van een t-verdeling (zie t-
waarde)
T waarde staat ook in de tabel. Op basis van t waarde wordt
significantie gegeven.
(Wat zegt de std. Error in de tabel van coefficients? Niet hoeven weten)
Constante/richtingscoëfficiënt : std. Error= t
Interpretatie richtingscoëfficiënt:
• De richtingscoëfficiënt b1 geeft aan hoeveel de voorspelde Ŷ toe- of afneemt als X met een eenheid toeneemt.
• Over de richtingscoëfficiënt formuleren we wel een hypothese (want hier zijn we eigenlijk in geïnteresseerd: bestaat er
een verband tussen BMI en bloeddruk?)
• Als de p-waarde van de richtingscoëfficiënt p <0.05 is, dan mogen we de nulhypothese afwijzen.
• Richtingscoëfficiënt: 2.557, p< 0.05
• Als BMI met een eenheid toeneemt, dan stijgt de voorspelde bloeddruk gemiddeld met 2.56
• De toets is uitgevoerd op basis van een t-verdeling (zie t-waarde)
• Als we een negatief verband zouden vinden (bloeddruk daalt bij toenemende BMI), dan zou de richtingscoëfficiënt
negatief zijn
Wijkt significant af van 0.
Als we een negatief verband verwachten staat er in de tabel een – teken bij de
richtingscoëfficiënt. De lijn loopt dan dalend. Als de determinant x toeneemt neemt
de uitkomst y af.
Voorspelling voor gemiddeld effect:
• We maken voorspellingen voor een `gemiddeld' effect
• In het echt is er (soms meer, soms minder) variatie: sommige observaties
liggen boven de lineaire lijn die wij voorspellen, andere eronder
Niet zeggen: voor mensen met een BMI van 25 is de bloeddruk 121. Dat is niet zo.
We hebben er veel spreiding omheen. We kunnen een voorspelling maken voor
een gemiddeld effect:
We voorspellen dat..
Gemiddeld zien we… Aangeven dat je een bepaalde onzekerheid hebt!
Relatie tussen voorspelling en observatie:
• De voorspelde Y wijkt (bijna) altijd af van de geobserveerde Y
Voorspelde y= regressielijn
Geobserveerde y= bolletje
• Want: niet alle waarden liggen precies op een lijn
• We hebben dus te maken met een (voorspellings-) fout (= `residu')
5
,• Dus: Y (Bloeddruk) = 57.75 + 2.56 * BMI +
• Waarbij: Y = Ŷ +
• Daarom is de regressievergelijking niet Y (Bloeddruk) = 57.75 + 2.56 * BMI
• Maar: Ŷ (Bloeddruk) = 57.75 + 2.56 * BMI
De afstand die er is tussen de geobserveerde waarde en de voorspelling noemen we onze voorspellingsfout of het residu.
Het is de ruimte tussen de lijn en de observatie (bolletje). Zie formule. We houden rekening met een fout. Voor de ene
persoon zal het residu groter zijn dan voor de andere. (hoe verder van de lijn hoe groter het residu). Daarom altijd Ŷ:
voorspelde bloeddruk. De echte bloeddruk kunnen we achterhalen door te kijken wat is de voorspelling en hoe groot is de
fout die we hebben.
Relatie tussen voorspelling en data:
De voorspelde bloeddruk (Ŷ) wijkt af van de geobserveerde bloeddruk (Y).
Ruimte tussen observatie en voorspeld= = voorspellingsfout/ residu
We hebben het over de voorspelde bloeddruk. dakje boven y staat voor
voorspelde waarde, niet de werkelijke.
Werkelijk= voorspelde + residu/ fout (zie formule)
Als residu 0 is heb je een perfecte voorspelling
Verklaarde variantie: 1e tabel:
R square (R kwadraat) is de verklaarde variantie. Cijfer geeft aan
hoeveel van de variantie in bloeddruk, uitkomst verklaard wordt
door de variabele die ik meeneem in mijn model. (Deze maat geeft
uitdrukking aan hoe goed de geobserveerde data clusteren rond de
geschatte regressielijn.)
Mensen hebben verschillende bloeddruk er is variantie. Mijn
verwachting is dat de BMI iets kan verklaren voor die variantie. Ong.
18% van die variantie wordt verklaard door BMI. in het model op te
nemen. Zonder BMI mee te nemen was de variantie nog groter
geweest. We hebben variantie kunnen reduceren door te denken
dat BMI er wel iets mee te maken heeft.
Verklaarde variantie, R square= Hoeveel % van de variantie in de
uitkomstvariabele wordt verklaard door de determinant/
onafhankelijke variabele
Adjusted R square= aangepaste maat voor verklaring variantie.
Houdt rekening met het aantal variabelen.
We hebben nu maar 1 variabele om bloeddruk te verklaren: BMI.
Bij meer variabele zit er meer verschil tussen adjusted R square en R
square.
Adjusted houdt rekening met dat je meer variabele meeneemt. Elke variabele die je meeneemt zal een gedeelte van de
variantie verklaren. Met elke variabele die je toevoegt wordt adjusted r square groter.
Geeft het % van de variantie in de afhankelijke variabele (uitkomst) die wordt verklaard door de onafhankelijke variabelen
Hoe meer determinanten hoe hoger R square. Adjusted R square stop met omhoog gaan als je variabele toevoegt die er
niet toe doen. R square blijft omhoog gaan. Maria adviseert gewoon te kijken naar R square.
R-square veranderd altijd als meer variabelen worden toegevoegd (R-square wordt groter). Alleen, het kan zo zijn, dat je
variabelen toevoegt die er eigenlijk niet toe doen, die dus eigenlijk nauwelijks meer extra variantie verklaren. Je hebt dan al
een goed model en meer variabelen helpen niet meer om de voorspelling te verbeteren. In zo'n geval wordt R2 nog steeds
(minimaal) groter, maar beetje ten onrechte omdat de voorspelling eigenlijk niet beter wordt. Onder deze omstandigheden
zou je de vergelijking met de adjusted R2 laten zien dat er eigenlijk geen toename meer is.
R= pearson R= correlatiecoëfficiënt.
Bij een bivariate lineaire regressie de correlatiecoëfficiënt tussen de 2 variabele. Geeft aan hoe groot het verband is tussen
BMI en bloeddruk. Precies hetzelfde getal staat ook onder standardized coeficients, beta. Alleen bij bivariate lineaire
regressie is dit het geval. Wanneer we het hebben over multipele zijn het niet meer dezelfde getallen R en standardized.
➔ Bij een bivariate lineaire regressie is pearson correlatiecoëfficiënt R (in tabel model summary), gelijk aan standardized
coefficients beta (in tabel coefficients)
6
,Als je R in het kwadraat doet krijg je de R square (bij enkelvoudige lineaire regressie)
Bij anova regression: total = R square= verklaarde variantie/ total- residual : total
• Het doel van regressieanalyse is, de variantie die in de afhankelijke
variabele/ uitkomst bestaat te verklaren
• Hoeveel van de variantie in bloeddruk wordt verklaard door BMI?
• R2 = 0.183 = 18%
• `Adjusted R Square' houdt rekening met het aantal determinanten in het
model
• Want, hoe meer variabelen je in je model opneemt, hoe meer van de
variantie in Y je zult verklaren, maar: is het het wel waard?
Gestandaardiseerde regressiecoëfficiënt:
• R = 0.427; Beta = 0.427
• In een bivariate lineaire regressieanalyse zijn R en Beta de
correlatiecoëfficiënt tussen X en Y (zometeen)
• Interpretatie standardized coefficients, beta: Als BMI met een
standaarddeviatie toeneemt, neemt de voorspelde bloeddruk met 0.427
standaarddeviaties toe.
Standardized coeficients, beta: Het is gestandaardiseerd. We interpreteren
het o.b.v. standaarddeviatie. We zeggen niet meer als BMI met 1 toeneemt,
maar als BMI met 1 SD toeneemt hoeveel SD veranderd dan de bloeddruk. in dit geval 0,423. Als x 1 SD… hoeveel SD gaat
mijn Y variabele omhoog of omlaag
Achtergrond
Total sum of squares:
De meest eenvoudige voorspelling voor y: Ŷ = ȳ (het gemiddelde)
• Maar dan maken we een best grote voorspellingsfout
• TSS = Total Sum of Squares:
• De som van alle gekwadrateerde afwijkingen van iedere observatie (y) tot het gemiddelde Ŷ (of: de kwadraatsom,
variantie berekenen!)
➔ TSS is ook wel de kwadraatsom
we hebben variatie in de uitkomstvariabele. Die willen we verklaren m.b.v. determinant/onafhankelijke Variabele
2 maten voor variatie (ANOVA output table):
1. total sum of square TSS: (geobserveerd- gemiddelde)2 (kwadraatsom)
ik heb de bloeddruk van alle personen, is er veel variatie?
De gemiddelde bloeddruk is de beste voorspelling die ik heb als ik verder geen aanvullende info heb. We maken de
grootst mogelijke voorspellingsfout= total sum of square. Grootst
mogelijke afwijking die je kan hebben van observaties t.o.v. gemiddelde.
We kijken bij elke observatie hoe ver die afwijkt van het gemiddelde die
afwijking wordt gekwadrateerd. De total sum of square is de som van alle
gekwadrateerde afwijkingen, de observatie wijkt af van het gemiddelde.
ȳ is gemiddelde, weergegeven met rechte lijn
2. Residual sum of square RSS: (geobserveerd – voorspelde)2
Voorspelde is de regressielijn
TSS:
Rechte lijn geeft aan wat de gem bloeddruk is ong 120. Voor elke observatie wordt
gekeken wat de afwijking tot het gemiddelde is. Alle afwijkingen worden
gekwadrateerd en opgesomd. Total in tabel= 118554.
Geeft voor elke observatie de afwijking tot het gemiddelde, gekwadrateerd en bij
elkaar opgeteld.
De grootste mogelijke variatie die er is in de data. Die variatie willen we nu
verklaren.
7
, Betere voorspelling dan Ŷ:
• ... krijgen we (hopelijk) nadat we rekening hebben gehouden met de determinante(n)/ onafhankelijke variabele(n) die
we gebruiken om de variantie in Y te voorspellen
• Wat doet lineaire regressie eigenlijk?
• Methode heet: “Ordinary Least Squares" regression
• Betekend: Voor ieder observatie wordt de kleinste gekwadrateerde afstand tot de
regressielijn gezocht
Ordinary least squares OLS:
De lineaire regressie schat door puntenwolk een lijn. Voor elke observatie wordt de
afwijking tot de regressielijn berekend. De lijn is zo berekend dat we in totaal een
kleinst mogelijke afwijking voor elke observatie hebben. Best fitting line. (kleinste
kwadratenmethode)
Sum of squared errors:
• Een betere voorspelling op basis van de (ordinary least squares) regressielijn
SSE = Sum of Squared Errors:
• De som van de gekwadrateerde afstanden tussen voorspelde en geobserveerde waarden (lijkt op kwadraatsom!)
geobserveerd- voorspeld
• In SPSS: Residual sum of squares
Waarom TSS en SSE:
• De Total Sum of Squares is de afwijking van ieder punt tot het gemiddelde, oftewel de bestaande variantie in de
uitkomstmaat Y
• Deze variantie willen we verklaren,
• ...door een variabele te gebruiken die Y beter voorspelt dan het gemiddelde alleen
• Maar de voorspelling is niet perfect:
• Ŷ wijkt nog steeds af van Y: Sum of Squared Errors.
➔ M.b.v. total en residual kunnen we de verklaarde variantie berekenen.
Verklaarde variantie R2 (=R square):
• De totale gekwadrateerde afwijkingen (TSS) reduceren we door een
voorspelling te doen
• Er blijft een voorspellingsfout, de kwadraatsom van de errors (SSE, sum of
squared errors)
Want de sum of squared errors SSE/ residual sum of squares RSS is het
gekwadrateerde verschil tussen geobserveerd en voorspelde (verschil tussen observatie en de lijn)
• Maar we hebben wat variantie verklaard. Hoeveel?
•
Met bovenstaande formule bereken je R square.
Totaal- residual: totaal
(Bij bivariate lineaire regressie kan je ook R kwadrateren voor R square)
Standaarddeviatie van errors:
• Even zoals we de afwijking van observaties tot het gemiddelde (uitgedrukt in de kwadraatsom,
variantie of standaarddeviatie) kunnen berekenen kunnen we bij regressieanalyse de
standaarddeviatie van observaties tot de regressielijn (de errors) berekenen
• Hoe goed kunnen we onze afhankelijke variabele voorspellen?
• Hoe kleiner de standaarddeviatie van de errors, hoe beter de voorspelling
• Want, dan wijken de geobserveerde waarden minder af van de voorspelde waarden
Kan gezien worden als een indicatie hoe goed de geobserveerde punten op de geschatte regressielijn liggen,
Hoeveel de residuals van elkaar afwijken. Hoeveel variatie hierin zit. Hoe
kleiner de SD is, hoe beter onze voorspelling van de afhankelijke variabele.
Kleine SD geeft aan dat we iets nauwkeuriger weten. Bij residuals kleine SD=
betere voorspelling
8
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur an1997. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €3,89. Vous n'êtes lié à rien après votre achat.