Aantekeningen college 1 Statistiek II
08-09-2020 – Casper Albers
Introductiecollege / Simple Lineair Regression I: Estimation
▪ Regressie – puntenwolk tekenen, met rechte lijn
▪ Multiple regressie (eerste 7 weken)
Overzicht van cursus
▪ Inhoud
▪ Enkelvoudige lineaire regressie
▪ Karen Siebenga – voor praktische zaken
JASP software (gelijkwaardig aan SPSS)
▪ JASP – gratis software
o JASP-tutorial van 10 pagina’s op Nestor
o http://jasp-stats.org/how-to-use-jasp/ - video tutorials
▪ Practicum vervangen voor JASP toets
o Practicumassistent – dinsdag van januari ook geen practicum
▪ 13 oktober en 18 dec
▪ Opdracht zelf thuis met JASP van18.00 tot 19.00
Tentamen
▪ Tentamen is online
▪ Hertentamen kan uitzondering zijn (mogelijk wel fysiek – afhankelijk van Corona)
▪ Tentamen bestaat uit twee delen
o Via nestor maken.
o Eerste deel: conceptuele theorie vragen: goed meegedaan (pass/fail)
o Tweede deel: rekenvragen, statistics, toetsingsgrootheid, p-waarde
▪ Vormt eindcijfer
▪ Iedereen krijgt net iets andere (reken) vragen
▪ Toetsduur: 2 uur
▪ Datum toets: 18 januari – datum kan veranderen tentamen, zie Ocaysis voor
definitieve datum
Bladeren door de inhoud van de cursus
▪ Statistische methoden in een notendop:
▪ Regressie
o Eenvoudig – simple
▪ Hoe kan je de lijn schatten (estimate)
▪ Inferentie – kansuitspraken doen
▪ Hoe significant is het stijgende effect (voorbeeld interferentie)
▪ Onzekerheidsmarge voor lijn (met 95% zekerheid zeggen dat het
tussen deze waarden zit, toetsen met significantie en p-waarde)
o Meerdere – multiple (eerste blok)
▪ Multivariate relaties (meer dan 2 variabelen)
o Meer dan twee dingen meten
, o Voorspellen van studiesucces in het tweede jaar (voorbeeld, voorspellers
studiesucces)
o Hoe maak je een model voor al deze variabelen (basis multiple regressie)?
o Interacties (onderliggende variabelen ook samenhang hebben en invloed)
▪ Modelaannames: diagnostiek en modelvaliditeit (t-toets)
o Aannemen binnen beide groepen data normaal verdeeld
o Diagnosticeren of het klopt
o Klopt het model wel? Slaat het ergens op wat ik aan het doen ben?
o Aannemen variantie is gelijk en bij de lineaire regressie is een puntenwolk
rond de rechte lijn (voorbeeld van een aanname)
▪ Onderzoek: mag je dit aannemen?
▪ Code variabelen
o Categorische data (geslacht, studierichting) omzetten in variabele die continu
is
▪ ANOVA (Variantieanalyse) – tweede blok – uitbreiden t-toets
o One-way ANOVA.
o Two-way ANOVA.
▪ Inleiding tot Bayesiaanse statistiek (kansen)
▪ De replicatiecrisis
o Statistisch verkeerd uitgevoerd
o Fouten herkennen en voorkomen
De focus zal op beide liggen tijdens cursus
▪ Theorie: begrijpen hoe en waarom de methoden werken
▪ Oefenen: begrijpen hoe de methoden moeten worden gebruikt
Eenvoudige lineaire regressie (SLR) – simple lineair regression – schatten
▪ Bijbehorende literatuur: paragraaf 9.1 tot 9.4
▪ Hoe kan je de lijn schatten (estimate)?
▪ Type variabelen die betrokken zijn bij eenvoudige lineaire regressie:
o Eén continue voorspeller (predictor) (onafhankelijk, of x, variabele)
▪ Dus alleen x continu
o Eén continu resultaat (afhankelijk of y, variabel).
▪ Allebei continu
▪ Belangrijkste aspecten van regressieanalyses:
o Onderzoek het bestaan van een lineaire relatie tussen voorspellende
variabelen en uitkomstvariabelen.
o Bestudeer deze relatie (bijv. kracht, richting).
o Voorspel waarden van de uitkomstvariabele uit waarden van de voorspeller.
▪ Hoofddoel: kijken of er een lineair verband is tussen predictor en uitkomst variabele?
o Hoe sterk is het verband?
o Welke richting?
o Gebruiken om y zo goed mogelijk te voorspellen
,Voorbeeld SLR: Crime data
▪ X = armoedecijfer, % van de populatie met een inkomen onder de armoedegrens
▪ Y = gewelddadige criminaliteit (serieuze misdaad), aantal ernstige misdrijven per
100.000 mensen
▪ N= 50 Amerikaanse staten (VS)
o Hoeveel % onder armoedegrens
▪ Op x-as armoedecijfer
o In grafiek te zien dat laagste armoedegrens
zit rond 7-8%
▪ Op y-as gewelddadige criminaliteit (zware
misdaad)
o Op grafiek te zien dat dit ongeveer tussen de 200 en 1000 zit
▪ De lijn geeft aan dat de beste voorspeller is 210 + 25X
o Dus als de lijn wordt doorgetrokken dat 0 er ook bij zit dan, dan verwachten
we bij x=0 dat er ongeveer 210 zware misdaden per 100.000 inwoners zijn
o Voor elk % extra armoede 25 extra misdaden
SLR: vergelijking
▪ y = 210 + 25x = α + βx
o Hoe komt je aan 210 en 25?
▪ De vergelijkingscoëfficiënten interpreteren:
o α is het snijpunt (intercept):
▪ α = 210 is het aantal ernstige criminaliteitscijfers per 100.000 wanneer
x, het armoedecijfer, 0 is.
▪ Als x (armoede percentage) gelijk is aan 0
o β is de helling (slope):
▪ Het aantal ernstige criminaliteitscijfers per 100.000 neemt toe met β =
25 wanneer x, het armoedecijfer, met één eenheid (procent)
toeneemt.
▪ Verandering aantal zware misdaden per 100.000 als x met 1
omhooggaat
▪ Het teken van de helling β bepaalt de richting van de regressielijn:
o β > 0 → stijgende lijn, d.w.z. positieve relatie tussen x en y.
o β = 0 → horizontale lijn, d.w.z. geen verband tussen x en y.
o β < 0 → dalende lijn, d.w.z. negatieve relatie tussen x en y.
▪ Wanneer alfa/beta en wanneer a/b
o Alfa & beta → populatie
o a & b → steekproef
PAUZE
SLR: Schatting van regressielijn
▪ Gebruik een feit over een steekproef om de waarheid
over de hele populatie te schatten.
o Schatten met 𝑦̂ (steekproefschatting) – conventie → Griekse letter voor
constructie voor populatie
▪ Y gebruiken voor steekproef
, o Met de steekproef een zo goed mogelijk uitspraak doen over de populatie
▪ a: Steekproefschatting van α.
▪ b: Steekproefschatting van β.
▪ Moet wel een goede steekproef zijn:
o Willekeurig uit populatie (essentieel)
o Elke persoon dezelfde kans om in de steekproef te zitten
o Grote steekproef - steekproeffluctuaties (zoveel mogelijk) vermijden (hoe
kleiner invloed individuele metingen)
o Voor alles hierna komende gaan we er voor het gemak vanuit dat het gaat om
een goede steekproef
▪ Maar hoe bereken je a en b uit de steekproef?
o Kijken welke lijn is het beste?
SLR: OLS method – Ordinairy least squares – kleinste kwadraten methode
▪ Welke lijn is het beste? Wat is een objectieve manier om 1 lijn te krijgen?
o Kleinste kwadraten methode
o Reguliere kleinste kwadraten (zijn ook
andere manieren)
o OLS-methode (standaard)
▪ Elke observatie projecteren door lijnen, dan krijg je
geschatte metingen.
o y1 te laag voorspeld
o y2 en y3 te hoog voorspeld
▪ Bepalen beste lijn:
o Kijken verschil voorspeld en geobserveerd
(𝑦 − 𝑦̂) = residu = E van error (liever residu noemen)
▪ Goal hoe zo goed mogelijk
▪ Beste lijn maken: alles E’s Kwadrateren (negatief wordt positief)
▪ Vervolgens bij elkaar optellen
▪ En dan vinden welke lijn de zo klein mogelijke residuen som heeft
o Som van residu zo klein mogelijk houden
SLR: OLS method – Ordinairy least squares – vervolg
▪ Het uitrekenen van alle residuen en de som van kwadraten en dan de kleinste
waarde vinden is natuurlijk heel veel werk, gelukkig makkelijkere manier:
minimaliseren van kwadraten som (opschrijven als 𝑦 𝑒𝑛 𝑦̂)
o Kwadratensom hangt af van a en b
▪ Zoek a, b die de som van de gekwadrateerde afstanden tussen de waarnemingen en
de regressielijn minimaliseren:
o Geleider gelijkstellen aan 0 (min of max)
o Gemiddelde weergeven met streepje erboven = conventie
▪ Wiskundige oplossing:
o Waar:
▪ rxy = steekproefcorrelatie tussen x en y.
▪ sx, sy = standaarddeviatie van het monster van x, y.
▪ 𝑥̅ , ̿𝑦 = steekproefgemiddelde van x, y.
▪ Elke observatie projecteren door lijnen, dan krijg je geschatte metingen.