Uitgebreide samenvatting van ALLE hoorcolleges Research Methods in CS (RMSC)
40 views 3 purchases
Course
Research Methods in CS (RMSC)
Institution
Vrije Universiteit Amsterdam (VU)
Dit is een samenvatting van alle hoorcolleges van het vak Research Methods van de master Communicatiewetenschap aan de Vrije Universiteit. Er staan voorbeelden van SPSS output in en de stof is goed en uitgebreid uitgetypt, perfect om te leren voor een tentamen. ;)
Video: Pearson's r Basic Statistics Correlation and Regression
● sterke correlatie: meer chocolade is meer gewicht in kg, maar hoe sterk?
● pearson’s r: altijd tussen -1 en 1. 0 = geen correlatie
● een scatterplot vertelt of de correlatie sterk of zwak is, maar niet hoe sterk of zwak
deze is, dat doet de pearson’s r.
● pearson’s r vertelt direction & strength
● pearson’s r uitrekenen: aantekeningen vorig jaar
Video: Finding the regression line Basic Statistics Correlation and Regression
● je hebt positieve en negatieve residuals
● de lijn met kleinste kwadraten residuals is de regressielijn (kwadraat want negatief en
positief kan elkaar anders opheffen)
● je minimaliseert de sum of squared residuals!
Video: Describing the regression line Basic Statistics Correlation and Regression
● regressielijn is handig om te voorspellen
● 𝑌dakje = a+𝑏𝑋
○ 𝑌dakje = predicted value of Y
○ a = intercept. Is the predicted value of Y when the line crosses de Y as. De
waarde van Y bij X = 0
○ b = slope (richtingscoëfficiënt): helling van de lijn met toename/afname van Y als
X 1 toeneemt
● je kan a (intercept) en b (slope) zelf uitrekenen:
,Wat jullie al weten
● B, constante en coëfficiënt = gevonden in de steekproef. We hebben de t-test nodig om
iets over de populatie te zeggen.
● Beta = als leeftijd met 1 standaard deviatie toeneemt, wat het uurloon dan toeneemt
(dat is 0.247 st dev). Dit is niet afhankelijk van de meeteenheid! Daarom handig in
multipele regressie om effecten met elkaar te vergelijken, bv geld en uur.
● Rode linker formule = hoe je de 𝑏 uitrekent
○ st dev X / st dev Y
● b - 0 / st error = de t-toets
○ H0 = 𝑏 = 0
○ HA = 𝑏 = geen 0
Wat vertel ik vandaag? Residuen!
● Residuen is wat overblijft in een regressie. Hoe bedoel ik dat?
● We schrijven: 𝑌=𝑏0+𝑏1∙𝑋 (of: 𝑌= a+𝑏𝑋)
● Wij bedoelen: 𝑌dakje=𝑏0+𝑏1∙𝑋 (of: 𝑌dakje = a+𝑏𝑋)
● 𝑌dakje = de expected value, verwachte waarde. Deze ligt precies op de regressielijn
● Met andere woorden: de regressie is een lijn, maar je observatie ligt eigenlijk buiten die
lijn!
● De werkelijkheid is 𝑌=𝑏0+𝑏1𝑋+𝜀 (𝜀 = een fout, de residu). De werkelijkheid is de lijn + een
fout. In de regressie maken we een fout, dat is de residu. Het is het verschil tussen
werkelijkheid en predicted Y
● 𝑌streepje = gemiddelde Y
● 𝑌dakje = voorspelde Y
Verschil regressielijn - onze observatie: residu
● Wat is dan 𝑌dakje=𝑏0+𝑏1∙𝑋? Een ‘Model’!
● Model = een benadering van de werkelijkheid
,Hoe werkt dit model?
● Verband tussen continue afhankelijke variabele (𝑌) en een of meerdere onafhankelijke
(𝑋)
● Dat doen we met een lijn (𝑌=𝑏0+𝑏1*𝑋𝑋=) ipv een scatterplot!
● De scatterplot (met de puntjes) geeft de werkelijkheid aan, door alle puntjes (onze
observaties); iemand van 14 met laag en hoog inkomen. Daar houden we niet van, met
de relatie tussen het lage en hoge inkomen van de 14 jarigen kunnen we niet veel.
Daarom gebruiken we een lijn! De lijn is: 𝑌=𝑏0+𝑏1∙𝑋
● Regressie = verband tussen continue afhankelijke variabele (𝑌) en een of meerdere
onafhankelijke (𝑋), dus de relatie tussen experience en inkomen
● Met een lijn (𝑌=𝑏0+𝑏1∙𝑋) ipv een scatterplot kunnen we wel de relatie beschrijven!
○ 𝑏0 = constante
○ 𝑏1 = helling
● De lijn moet een goede afspiegeling zijn van de werkelijkheid
Maar welke lijn?
● Maar welk model (lijn) benadert best de werkelijkheid? In ons geval: welke lijn verklaart
het best het verband tussen onze onafhankelijke en afhankelijke variabelen?
● Welke lijn verklaart het verband tussen onze afhankelijke variabele (Y) en onze
onafhankelijke variabele (X) het beste?
● Welke waarden voor 𝑏0 en 𝑏1 passen het best voor onze data?
○ welke constante en welke slope past het best bij de puntjes?
● Welke 𝑏0 en 𝑏1 past het best bij onze data? Die oplossing is de kleinste kwadraten
methode! Dus met kleinste residuen. Die moeten we samen minimaliseren.
, De oplossing is: kleinste kwadraten methode
● The method of least squares is used in a linear regression to find out which of the
following? The line of best fit. The least squares method is a method to find the 'best
fitting' line, so the straight line minimizes the mistake that we make in predicting the Y
variable when using the regression model.
● Welk model (lijn) maakt de kleinste fout?
● Oplossing: laagste fout (fout = residu)
○ Alle residuen samen moeten zo klein mogelijk zijn!
● Dat doen we met de som van de residuen ( ), maar er zijn positieve en negatieve
residuen en ze schakelen elkaar uit...
● Dus, wij focussen op de som van de kwadraten van de residuen:
● Doel van regressie: we zoeken 2 getallen, voor de 𝑏2 en 𝑏1, die deze som zo klein
mogelijk maken! Om deze som te minimaliseren:
○ Kleinste Kwadratenmethode (Least Squares method)
● De oplossing (staat buiten het doel van dit vak)
○ De covariantie geeft aan of, en indirect in welke mate, de waarden van de ene
variabele toe- dan wel afnemen bij toenemende waarden van de andere.
Residuen - verder
● Dus, residuen helpen ons dus om de oplossing (best model) te vinden, want het is de
kleinste som van de gekwadrateerde residuen die we moeten hebben om de
regressielijn te bepalen.
● Maar ze doen nog meer… Let’s play!
a) 𝑌𝑖 = een observatie van de variabele Y (afhankelijke variabele, uurloon), voor 1
persoon, daarom de 𝑖! Het loon van 1 iemand in de steekproef.
b) 𝑌streepje = gemiddelde loon van iedereen in steekproef
c) 𝑌dakje = de verwachte waarde, mijn verwachte loon volgens de regressielijn
(𝑌=𝑏0+𝑏1∙𝑋)
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller DaphneJGR. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $6.51. You're not tied to anything after your purchase.