Garantie de satisfaction à 100% Disponible immédiatement après paiement En ligne et en PDF Tu n'es attaché à rien
logo-home
Samenvatting ALLE HOOFDSTUKKEN Toegepaste biostatistiek + RStudio €13,39   Ajouter au panier

Resume

Samenvatting ALLE HOOFDSTUKKEN Toegepaste biostatistiek + RStudio

 0 vue  0 fois vendu

In deze samenvatting staat heel de cursus in het Nederlands uitgewerkt inclusief de oefeningen van in de les en de opnames van RStudio! Bij het kopen van deze samenvatting hoeft u de lesopnames van zowel Toegepaste biostatistiek als RStudio niet meer te bekijken. Alles staat ordelijk weergegeven en...

[Montrer plus]

Aperçu 4 sur 42  pages

  • 26 novembre 2024
  • 42
  • 2024/2025
  • Resume
Tous les documents sur ce sujet (8)
avatar-seller
Lorejansens123
Regression and Correlation Methods

Introductie → wat zullen we in dit hoofdstuk bespreken?
1. Methoden van regressie- en correlatieanalyse waarbij 2 verschillende variabelen binnen dezelfde steekproef met elkaar in
verband worden gebracht.
2. Meervoudige regressie-analyse, waarbij de relatie tussen meer dan 2 variabelen tegelijkertijd wordt bekeken.
3. Lineaire regressiemethoden, waarin we leren hoe we een uitkomstvariabele y lineair kunnen relateren aan één of meer
voorspeller-variabelen (x_1, ..., x_k), waarbij de x-variabelen zowel continu als categorisch kunnen zijn.

General Concepts
Als x het estriolniveau is en y het geboortegewicht, dan kunnen we een lineaire relatie tussen y en
x postuleren: E(y|x) = a + bx
De regressielijn wordt dan uitgedrukt als: y = a + bx
Waarbij:
- a: het intercept is (de plaats waar de lijn de y-as snijdt, oftewel het voorspelde geboortegewicht
bij een estriolniveau van 0),
- b: de helling is (hoeveel het geboortegewicht verandert per eenheid toename in estriolniveau),
- x: de onafhankelijke variabele (estriolniveau),
- y: de afhankelijke variabele (geboortegewicht).

→ Hiermee kun je y (geboortegewicht) voorspellen als een functie van x (estriolniveau).
→Om een rechte lijn te fitten tussen het estradiolniveau (X) en geboortegewicht (Y in gram) kun je een lineaire regressie
uitvoeren:
1. Data voorbereiden: Vermenigvuldig geboortegewichten met 100 om mg → gram
2. Regressieformule: De rechte heeft de vorm Y = a + bX, waarbij:
- Y het geboortegewicht is
- X het estradiolniveau,
- a het intercept is (waar de rechte de Y-as snijdt),
- b de helling van de lijn is (de verandering in geboortegewicht per eenheid estradiol).
3. Fitten: Gebruik een methode zoals least squares om de best passende lijn te berekenen. Het intercept a is het punt waar
de lijn de Y-as snijdt (dus bij X = 0).

De formule y = a + bx geeft een schatting van het geboortegewicht op basis van het estriolniveau. Omdat deze relatie niet
perfect is voor elke vrouw, voegen we een foutterm e toe aan de vergelijking om de variabiliteit te verklaren: y = a + bx + e
→ De foutterm e vertegenwoordigt het verschil tussen het voorspelde gewicht en het werkelijke gewicht. Bv. als het
voorspelde gewicht van de baby 2,3 kg is, maar de baby in werkelijkheid 2,6 kg weegt,
→ fout e = 2,6 - 2,3 = 0,3 kg.
→Deze foutterm is normaal verdeeld met een gemiddelde van 0, wat betekent dat sommige voorspellingen hoger en
sommige lager dan de werkelijke waarde kunnen zijn, maar de afwijkingen compenseren elkaar gemiddeld.

• Foutterm e: Normaal verdeeld met gemiddelde 0 en variantie σ2, wat betekent dat de voorspelde waarden rondom
de werkelijke waarden liggen. Sommige voorspellingen zullen te hoog zijn, anderen te laag, maar gemiddeld is het
verschil nul.
• Variantie σ2: Hoe kleiner de variantie, hoe dichter de voorspellingen bij de werkelijke waarden liggen.
• Normale verdeling: Een veelvoorkomende kansverdeling, met een klokvorm waarbij de meeste waarden rond
het gemiddelde liggen. De kans op extreme waarden neemt af naarmate de afstand tot het gemiddelde groter
wordt.
In een grafiek met Gauss-curves van verschillende datasets kan de vorm dezelfde zijn, maar de spreiding
(variantie) kan verschillen.

Belangrijke eigenschappen van de normale verdeling:
- Symmetrisch: rond het gemiddelde.
- Gemiddelde = Mediaan = Modus: De piek van de verdeling ligt bij het gemiddelde.
- 68-95-99.7 regel: Ongeveer 68% van de waarden ligt binnen één standaardafwijking van het gemiddelde, 95% binnen
twee standaardafwijkingen, en 99.7% binnen drie.
→ De foutterm e wordt verondersteld deze eigenschappen te volgen in het regressiemodel, wat betekent dat de
afwijkingen van de voorspellingen normaal verdeeld zijn.

Fitting Regression Lines—The Method of Least Squares
De kleinste-kwadratenlijn, of geschatte regressielijn, is de lijn y = a + bx die de som van de
gekwadrateerde afstanden van de steekproefpunten tot de lijn minimaliseert. Deze afstanden zijn
de verticale verschillen tussen de werkelijke waarden van y en de voorspelde waarden door het
model.

De methode van kleinste kwadraten werkt door:
1. Voor elk punt in de data de verticale afwijking (fout) van de lijn te berekenen: ei = yi - (a + bxi)
2. Vervolgens kwadrateert men deze afwijkingen: ei^2. Dit kwadrateren zorgt ervoor dat positieve en negatieve afwijkingen
elkaar niet opheffen.



3. Daarna worden alle gekwadrateerde afwijkingen bij elkaar opgeteld: sum e_i^2.

,The raw sum of squares for x : (formules staan in formularium)
The corrected sum of squares for x :

4. De parameters a (het intercept) en b (de helling) worden gekozen zodat deze som van de kwadraten minimaal is.

Deze techniek, bekend als de methode van de kleinste kwadraten, zorgt ervoor dat de regressielijn zo goed mogelijk past bij
de data door de fouten (afstanden) tussen de waargenomen en voorspelde waarden zo klein mogelijk te maken.
Dit proces omvat de volgende stappen:
1. Definities:
o Laat xi het hormoonniveau zijn.
o Laat yi het werkelijke geboortegewicht zijn.
o Laat ^yi het voorspelde geboortegewicht zijn.
2. Foutenterm e: De afwijking (fout) voor elk datapunt kan worden gedefinieerd als:
Hier is di positief als het voorspelde gewicht onder het werkelijke gewicht ligt en negatief als het daarboven ligt.
3.Som van de afwijkingen: We willen de som van deze afwijkingen zo klein mogelijk maken. In plaats van direct met di te
werken, maken we ze allemaal positief door te kwadrateren:
4.Kleinste kwadraten: De totale fout wordt dan de som van de gekwadrateerde afwijkingen:
→Het doel is om deze totale fout te minimaliseren.
5.Bepaling van intercept en helling: Door de waarden van a (intercept) en b (helling) te optimaliseren, kun je de beste rechte
lijn vinden die door de gegevens past. De optimale waarden zorgen ervoor dat de som van de gekwadrateerde afwijkingen
zo klein mogelijk is.

Door deze stappen te volgen, vind je de waarden voor a en b die de beste schatting geven van het geboortegewicht op basis
van het hormoonniveau, met de kleinste foutenterm.

The raw sum of cross products :
The corrected sum of cross products :

→ som maken van eerste observatie tot laatste. n = 32 zwangere vrouwen. (1e deel van formule)
→ gelijkaardig ook voor y-waardes. (2e deel van formule)

Er kan worden aangetoond dat een korte vorm voor de gecorrigeerde som van kruisproducten wordt gegeven door



Estimation of Least-Squares Line
The coefficients van de ‘least-squares line’ y = a + bx gegeven door b = Lxy/Lxx (b = concrete berekende waarde)


Soms wordt de lijn y = a + bx de geschatte regressielijn of regressielijn genoemd.
Eens je b kent, kan je vervolgens a berekenen.

Voorbeeld (EXAMEN!) → schrijf vergelijking van rechte op
• Video: Hoe maken we een regressielijn met de losse hand?
1) Ga naar de gegevens (tabel 11.1 (op examen obv 3 punten, eerste 3 rijen).
a. Gebruik je meer dan 3 rijen → Gebruik Excel
2) Bereken Lxx, Lxy en Lyy
3) Y = a + bx met slope b = Lxy/Lxx
4) Intercept a = y(avg) – b . x(avg) → met avg = average
5) Bereken vervolgens mbv formularium.

• Hoe maken we een regressielijn in Excel?
1) x = oestriol en y = birthweight
2) =average (select all the X) → 17 (paars)
3) =average (select all the Y) → 32 (blauw)
4) =7 -17 = -10 → Sleep tot onder voor de hele kolom
5) Zelfde voor y: 25 – 32 = -7 → sleep tot onder voor de hele kolom
6) =(select xi – xavg)^2 → sleep tot onder voor de hele kolom
7) Zelfde voor y: (select yi – yavg)^2
8) Vermenigvuldig de kolommen met elkaar (oranje)
9) Lxy = som van alle waardes uit stap 8 (rood)
10) Vermenigvuldig de kolommen met elkaar (oranje) = 412 = Lxy
11) Vermenigvuldig de kolommen met elkaar (groen) = 679 = Lxx
12) Slope b = 412/679 = 0,608
13) Intercept a = y avg – slope b * x avg = 21,54

, Voorbeeld
Toepassing: Identificeren van vrouwen die een baby met een laag geboortegewicht dragen
De regressievergelijking is: y = 21.52 + 0.608x → = a + bx

Interpretatie van de helling b = 0.608: (slope = snelheid van stijgen of dalen)
- De helling b geeft aan dat voor elke toename van 1 mg/24 uur in het estriolniveau, het voorspelde geboortegewicht y met
ongeveer 0,61 eenheden toeneemt.

De voorspelde of gemiddelde waarde van y voor een gegeven waarde van x, zoals geschat op basis van de aangepaste
regressielijn, wordt aangegeven door ^y = a + bx
Poll 1:
y = 21,52 + 0,608x
met y = geboortegewicht (in hg) en x = estriolniveau (in mg/24 uur)
Wat is het voorspelde geboortegewicht als een zwangere vrouw een estriolniveau van 10 mg/24 uur heeft?
→ x vervangen door 10 → y berekenen

Poll 2:
y = 21,52 + 0,608x
met y = geboortegewicht (in hg) en x = estriolniveau (in mg/24 uur)
Voor welk estriolniveau zou het voorspelde geboortegewicht 4,5 kg (45hg) zijn?
→ y = 4,5 naar juiste eenheid dus 45 en x = 21 overbengen en dan delen door 0,6

Inferences about parameters from regression lines
Het punt (x, y) valt op de regressielijn. Bewijs? Is het nuttig om experiment te fitten, experiment herhalen en bevestigen dat
we te maken hebben met een stijgende richting.
→ Moeten conclusie trekken over significantie van a (richtingscoëfficiënt).

Dus bv. de 0,6 dat we als b hadden, is die significant? Geen groot getal, dus kan zijn dat het niet significant verschillend is van
0.
→ Grootte van getal zegt niets over significantie van getal!!
1) Eerst hypothese test afleiden!
H0: Beta = 0 → volgt een bepaalde verdeling
H1 Beta ≠ 0
2) Kijken naar de P (kans) dat H0 zich voordoet → klein? < 0,5
Dan toeval. Niet geloven dat hyptohese H0 correct is → verwerpen!

► Voor elk steekproefpunt (xi,yi) wordt het residu of de residucomponent van dat punt rond de regressielijn gedefinieerd
door yi – ÿi . Dus voor elk punt!

3 componenten (kaders), geeft fouten
weer. Dat willen we niet graag…




- we willen dat residual component zo klein mogelijk.
- Gevolg: regression component moet zo groot mogelijk zijn!
→ regression/residual = groot/klein = breuk groot → p-waarde met H0 hypothese verworpen kan worden.

Voor elk steekproefpunt (xi,yi) wordt het residu of de residucomponent van dat punt rond de regressielijn gedefinieerd door
yi – .
Voor elk steekproefpunt (xi,yi) wordt de regressiecomponent van dat punt rond de regressielijn gedefinieerd door – y.

rechts onder: niet ideaal → kleine breuk
Links boven: ideaal → grote breuk
Rechts boven: tussenin
Links onder: tussenin




De regressiesom van de kwadraten of Reg SS = de som van de kwadraten van de regressiecomponenten:

Ontleding van de totale som van de kwadraten in regressie- en restcomponenten:

De totale som van de kwadraten (Total SS) wordt opgesplitst in:
- Regressiesom van de kwadraten (Reg SS): verklaarde variatie door het model.
- Restsom van de kwadraten (Res SS): onverklaarde variatie (residuen).
Formule: Total SS (DIT IS LY) = Reg SS + Res SS

, F Test for Simple Linear Regression
Goodness-of-fit = de regressiesom van kwadraten gedeeld door de residuele som van kwadraten. (Hoe goed is de rechte,
significant of niet?)

• Regressiegemiddelde kwadraten, of Reg MS = Reg SS/k met k het aantal voorspellende variabelen in het model (exclusief
de constante), ook bekend als de vrijheidsgraden voor de regressiesom van kwadraten of Reg df.
• Residugemiddelde kwadraten, of Res MS = Res SS/(n – k - 1) = S2y,x met n het aantal observaties in de steekproef
(n – k - 1) is ook bekend als de vrijheidsgraden voor de residuele som van kwadraten of Res df.
• Regressiegemiddelde kwadraten, of Reg MS = Reg SS/k met k het aantal voorspellende variabelen in het model (exclusief
de constante), ook bekend als de vrijheidsgraden voor de regressiesom van kwadraten of Reg df.
• Resultaatgemiddelde kwadraten, of Res MS = Res SS/(n – k - 1) = s2y.x met n het aantal observaties in de steekproef (n –
k - 1) is ook bekend als de vrijheidsgraden voor de residuele som van kwadraten of Res df.
k = aantal x-variabelen

Hypothese test → F-test

𝛽 𝛽




Definition p-value

De p-waarde kan ook worden beschouwd als de waarschijnlijkheid om een teststatistiek te verkrijgen die even
extreem/extremer is dan de daadwerkelijk verkregen teststatistiek, uitgaande dat de 0-hypothese waar is.

Short Computational Form for Reg SS and Res SS

! EX; 3 kolommen met x en y bv bloeddruk vs leeftijd. Uit opgave uithalen wat x en y is. Zelf aan slag om alpha en beta te
berekenen. Daaruit Lxy,… en vervolgens F berekenen. → vertrokken om hypothese test uit te voeren. (zie oefening eerder
uitgevoerd)

Reg SS = L2xy/Lxx
Total SS = Lyy
Res SS = Total SS – Reg SS = Lyy – L2xy/Lxx
So to compute the test statistic:

Back to example Obstetrics → significantie van regessielijn testen

We testen de goodness-of-fit door de significantie van de regressielijn
te testen. Dus we testen of β (de helling) significant verschilt van nul.




𝛽 𝛽




→ Kijk in tabel

Les avantages d'acheter des résumés chez Stuvia:

Qualité garantie par les avis des clients

Qualité garantie par les avis des clients

Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.

L’achat facile et rapide

L’achat facile et rapide

Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.

Focus sur l’essentiel

Focus sur l’essentiel

Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.

Garantie de remboursement : comment ça marche ?

Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.

Auprès de qui est-ce que j'achète ce résumé ?

Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur Lorejansens123. Stuvia facilite les paiements au vendeur.

Est-ce que j'aurai un abonnement?

Non, vous n'achetez ce résumé que pour €13,39. Vous n'êtes lié à rien après votre achat.

Peut-on faire confiance à Stuvia ?

4.6 étoiles sur Google & Trustpilot (+1000 avis)

67866 résumés ont été vendus ces 30 derniers jours

Fondée en 2010, la référence pour acheter des résumés depuis déjà 14 ans

Commencez à vendre!
€13,39
  • (0)
  Ajouter