Hoorcollege statistiek les 1
Soorten metingen:
- Continue: concentraties, absorptie, grootte
- Discreet/ aantallen: gevallen, frequenties
- Ordinaal: volgorde, zoals klein middel groot, hoog en laag
- Nominaal: bijvoorbeeld een naam, salmonella
Factoren: verklarende variabelen of x waarden
VB. 5 oplossingen met verschillende concentraties, 0.1-0.2-0.3 …. Hierbij is telkens de absorptie
gemeten in triplo.
Hierbij is Y = absorptie -> continu
Hierbij is X = concentratie -> continu
VB 2. Ik heb van twee groepen hagedissen van ieder dier de lichaamstemperatuur gemeten.
Y = temperatuur -> continu
X= groep nummer -> nominaal
Aandachtspunten:
- Overall statistische significantie = p waarde, is er een aantoonbaar verband tussen x en y
- Praktische significantie= effectsterkte, hoe sterk is het verband tussen x en y
- Post- hoc test, wat is de aard van het verband
Bij regressie, anova en X^2 : statistische significantie
Analyse Statistiek Significant al
Regressie P waarde (anova tabel) P < 0,05
Anova P waarde per factor P < 0,05
X^2 P waarde P <0,05
Praktische significantie:
Analyse Statistiek Sterk als
Regressie R2 R2 > 0,25
Anova N2 per factor N2> 0,25
X^2 Cramér’s V V> 0,15
,Post-hoc
Analyse Statistiek Significant als
Regressie P waarde per parameter P < 0,05
Anova P waarde per groepsverschil P <0,05
X^2 E waarde per cel E > e krit.
Toepassingen van regressie
- Kalibratielijnen
- Standaard additie methode
- Methoden vergelijken
- Optimalisatie
Soorten regressie:
- Lineaire regressie: het model, dus functie y, is lineair in de parameters Ai
o Y = A0 * F0 (x) + A1 * F1 +……
o Hierbij is y = A0 + A1x een rechte lijn
o En is y = A0 + A1x + A2 X^2 een parabool
▪ ALTIJD een unieke oplossing
- Niet lineaire regressie: de functie van Y is niet lineair in de parameters Ai
o Y = A1x / 1+ A2x
o Y = A0 + A1e ^a2x : exponentiële afname
▪ GEEN unieke oplossing
VB. lineaire regressie
x (ppm) y
1 0,1
2 0,18
3 0,29
4 0,42
5 0,55
6 0,68
7 0,78
8 0,89
9 0,95
Vraag = Wat zijn de parameters van de regressielijn door deze data?
1. Tabel invoegen in excel
2. Data > data analysis > regression
3. Selecteren
4. Y kolom selecteren incl. Label
5. X kolom selecteren incl. label
6. Labels aanvinken
7. Output range bepalen
8. Residuals aanvinken
9. Ok rechts bovenin de hoek
10. Parameters noteren uit de summary output
11. A 0 = intercept (coefficients)
12. A1 = x ppm (coefficients)
13. Geeft y= -0,026 + 0,113 * x
,Effectsterkte =
R 2 waarde Betekenis
0,01 Zwak effect
0,09 Matig effect
0,25 Sterk effect
1 Perfecte relatie
Hierbij hoort R^2 = SS mod/ SS tot = fractie verklaarde variatie
En R^2 adj = 1 – MS err / MS tot
- R2 = R square in regression statistics
- Radj = Adjusted R square
o Kan soms fout erin staan
o Radj zelf bereken met
▪ 1 – (1 -R^2) * (n/(n-P van parameters))
AIC en AICc
𝑆𝑆err 2(𝑃+1)(𝑃+2)
- AICc = 𝑛 ⋅ ln ( 𝑛
) + 2(𝑃 + 1) + (𝑛−𝑃−2)
waarbij
- 𝑛 = aantal data punten > observations in regression statistics
- 𝑃 = aantal parameters in model (= aantal 𝑎’s)
- 𝑆𝑆err = sum of squares of the error (of: residual sum of squares) > anova tabel
, Hoorcollege statistiek les 3
VB.
1. Data: Absorptie van 9 samples met bekende caroteen concentraties in ppm.
Vraag: welke 2e order regressie model y = A0 + A1 * x + A2 * X^2 is het beste als kalibratiemodel?
c (ppm) A (-)
1 0,1
2 0,18
3 0,29
4 0,42
5 0,55
6 0,68
7 0,78
8 0,89
9 0,95
2. Deze data set kopiëren naar het speciale werkblad ‘’Calibration analysis. Xlsx ‘’ in de
kolommen x en y.
3. Vervolgens berekent excel nu voor 7 verschillende modellen de regressieparameters Ai en
aanvullende statistiek.
• Modellen:
– Model 0: 𝑦 = 𝑎0 constante
– Model 1: 𝑦 = 𝑎0 + 𝑎1 ⋅ 𝑥 lineair (“recht”)
– Model 1a: 𝑦 = 𝑎1 ⋅ 𝑥 lineair door oorsprong
– Model 2: 𝑦 = 𝑎0 + 𝑎1 ⋅ 𝑥 + 𝑎2 ⋅ 𝑥 2 kwadratisch (“krom”)
– Model 2a: 𝑦 = 𝑎1 ⋅ 𝑥 + 𝑎2 ⋅ 𝑥 2 kwadratisch door oorsprong
2
– Model 2b: 𝑦 = 𝑎2 ⋅ 𝑥 kwadratisch door oorsprong
– Model 2c: 𝑦 = 𝑎0 + 𝑎2 ⋅ 𝑥 2 kwadratisch (“krom”)
• Aanvullende statistiek:
2
– 𝑅 2, 𝑅adj , AICc , Δc , 𝑝GOF , standard error of regression 𝑠𝑦|𝑥
– Standaardfout parameters: 𝑠𝑎𝑖 en 95% BI parameters: lower en upper CI
Het resultaat ziet er vervolgens zo uit:
4. Vervolgens het model kiezen met de laagste AIC waarde en alleen maar significante
parameters. (rechter afbeelding)
5. Selecteer vervolgens het beste model onder de grafiek
- Eventueel de schaal aanpassen