Alle colleges van blok 4.4 statistiek (behalve een deel van 8b, omdat dat niet in het tentamen komt). Ik heb ook enkele aantekeningen van de opdrachten erbij gezet. De hele samenvatting is in het NEDERLANDS met alleen de statistische namen in het Engels.
,Lecture 1
Statistische modellen
● In de statistiek passen we modellen aan onze gegevens aan: we gebruiken een statistisch
model om te representeren wat er in de echte wereld gebeurd.
● Modellen bestaan uit parameters en variabelen.
● Variabelen zijn de gemeten constructen en variëren tussen mensen in een sample (steekproef)
● Parameters worden geschat van de data en ze representeren constante relaties tussen
variabelen in het model.
● We berekenen de model parameters in de steekproef om de waarde in de populatie te schatten
Model fit
∑𝑁
𝑖=1 𝑥𝑖 ∑𝑋
● ̅=
Het gemiddelde (𝑋 = ) is een model van wat er gebeurt in de echte wereld: de
𝑁 𝑁
typische score.
● Het gemiddelde is een eenvoudig statistisch model van het middelpunt van een verdeling van
scores.
● Het is geen perfecte representatie van de data → het is een hypothetische schatting van de
'typische' score.
● Het gemiddelde is de waarde waarvan de (squared) scores het minst afwijken (de minste
error)
Metingen die samenvatten hoe goed het gemiddelde de data van de steekproef representeren:
● Sum of squared errors (SS): ∑𝑁 𝑖=1(𝑋𝑖 − 𝑋)
̅ 2
○ Als de overlap bij een betrouwbaarheidsinterval meer dan 0,5 is cloncuderen we dat
de gemiddeldes significant verschillen. Minder overlap → meer verschillen. Dichter
bij het gemiddelde → betere fit
○ Het is een “totaal” en wordt dus beïnvloed door het aantal datapunten
𝑆𝑆𝐸 ∑𝑁 ̅ 2
𝑖=1(𝑋𝑖 −𝑋)
● Gemiddelde squared error (MSE) / variantie: 𝑠 2 = 𝑑𝑓
= 𝑁−1
○ De totale spreiding hangt af van de grootte van de steekproef → meer informatie om
de gemiddelde spreding te meten: het gemiddelde van de squared errors (MSE).
○ We berkenen het ‘gemiddelde’ door te delen door de degrees of freedom (df), omdat
we steekproef data gebruiken om te model fit in de popualtie te schatten.
○ We ‘verliezen’ een degree of freedom, omdat we het populatiegemiddelde schatten
met het steekrproef gemiddelde.
○ Als het model het gemiddelde is, dan wordt MSE variantie genoemd.
○ De variantie is de "gemiddelde" variabiliteit, maar eenheden in het kwadraat.
𝑁
∑ (𝑋𝑖 −𝑋) ̅ 2
● Standaarddeviatie (SD): 𝑠 = √ 𝑖=1𝑁−1
○ Wortel van de variantie
○ Gemiddelde afwijking van het gemiddelde
○ Een maat voor de fout die het gemiddelde vertoont: hoe kleiner de standaard deviatie,
hoe nauwkeuriger het gemiddelde de gegevens weergeeft.
○ De standaard deviatie vertelt ons hoeveel waarnemingen in onze steekproef
verschillen van de gemiddelde waarde binnen onze steekproef.
○ De standaard deviatie vertelt ons niet hoe het steekproefgemiddelde de steekproef zelf
weergeeft, maar hoe goed het steekproefgemiddelde het populatiegemiddelde
weergeeft.
2
, ○ De standaardafwijking is de gemiddelde variatie, maar teruggerekend naar de
oorspronkelijke meeteenheden. → Zo kan de grootte van de standaardafwijking
worden vergeleken met het gemiddelde (omdat het om dezelfde meeteenheden gaat).
➔ Al deze maten zeggen iets over hoe goed het gemiddelde past bij de waargenomen
steekproefgegevens. Grote waarden (ten opzichte van de meetschaal) wijzen erop dat het
gemiddelde slecht past bij de waargenomen scores, en kleine waarden wijzen op een goede
passing. Het zijn dus maten van spreiding, waarbij grote waarden wijzen op een gespreide
verdeling van de scores en kleine waarden op een dichter opeengepakte verdeling. Deze
maten geven allemaal hetzelfde weer, maar verschillen in de manier waarop ze dat
uitdrukken.
Van steekproef naar populatie
Het gemideelde (𝑋) en de standaard deviatie (s) worden verkregen van een steekrpef, maar worden
gebruiktom te schatten wat het gemiddelde (µ) en de standaard deviatie (σ) van de popualtie zijn.
The sampling distribution / de steekproef verdeling
Een steekproef geeft een schatting van de ware populatie parameter. Afhankelijk van de variabiliteit
EN steekproefgrootte zal deze schating meer of minder precies zijn. De gemiddelde afwijking van het
gemiddelde van elke steekproef is de variabiliteit van de steekroefverdeling. De steekproefverdeling is
hoe een parameter van interests verschilt tussen de herhaalde processen van steekproeven van de
verdeling. → De parameter of interest is de standaard error van het gemiddelde.
Standaarderror van het gemiddelde
Central limit theorem → voor een steekproef met een minimale grootte van 30, is de
steekproefverdeling van steekproefgemiddeldes een normale verdeling met een het gemiddelde (µ) en
de standaard deviatie (𝜎𝑋 )
● 𝜎𝑋 geschat van de steekrpoef door (wordt ook wel de standaard error van het gemiddelde
𝑠
genoemd): 𝑆𝐸𝑋 = → hoeveel het steekproefgemiddelde gemiddeld verschilt van het
√𝑁
populatiegemiddelde.
● De standaard error is de standaarddeviatie van de steekproefverdeling van een statistiek.
Betrouwbaarheidsinterval (CI)
● 95% CI: voor 95% van alle mogelijke steekproeven zal het populatiegemiddelde (µ) in deze
limiet liggen
● 95% CI verschilt tussen steekproeven
● 95% CI bepalen:
o Onderste limiet / lower limit (LL) CI (2,5%) = 𝑋 − (𝑡𝑛−1 × 𝑆𝐸)
o Bovenste limiet / upper limit (UL) CI (97,5%) = 𝑋 + (𝑡𝑛−1 × 𝑆𝐸)
o n – 1 is degrees of freedom
o 𝑡𝑛−1 × 𝑆𝐸 = margin of error (foutmarge)
● Als je een t waarde vindt die hoger is dan 𝑡𝑛−1 of lager dan -𝑡𝑛−1 dan is er een significant
(negatief) effect p < .05
𝑋
o t = 𝑆𝐸
● In plaats van t, kan je ook z gebruiken om een betrouwbaarheidsinterval te berekenen →
3
, o Als we een grote steekproefomvang hebben, weten we uit het centrale limiettheorema
dat de steekproefverdelingen normaal verdeeld zullen zijn. In dit geval gebruiken we
𝑧1−𝑝 = 𝑧0.025 = ±1,96.
2
o Bij een kleine steekproefomvang zijn we niet zeker van de normaliteit en zijn we
conservatiever. Dan gebruiken we in plaats daarvan 𝑡𝑛−1 .
Null-hypothese significantie testing (NHST)
Null hypothese (H0)
● De hypothese is dat er geen effect is
● Notatie: H0: µ = 0
● Interpretatie: we verwerpen de null hypothese als de steekproefresultaten onwaarschijnlijk
zijn als de null hypothese waar zou zijn
o H0: µ = 0, is buiten het 95% CI → we verwerpen H0 met p < .05
o H0: µ = 0, is buiten het 99% CI → we verwerpen H0 met p < .01
● Meestal gebruik je 𝛼 = .05, maar 𝛼 = .01 kan ook.
● Let op:
1. Een significant effect betekent niet gelijk een belangrijke effect
2. Type I type II errors
a. Type I error (hallucinatie): je denkt dat er en effect is, terwijl die er niet is en
b. Type II error (blind): je denkt dat er geen effect is terwijl die er wel is
c. Een niet-significant effect betekent niet dat H0 waar is
d. Alles-of-niets denken
e. Er is een wisselwerking tussen beide fouten: als we het risico op een type I fout
(alpha) verlagen, verlagen we de kans dat we een echt effect ontdekken (we
verhogen dus het risico op een type II fout).
f. De waarschijnlijkheid van het correct concluderen dat er een effect is, als die er
daadwerkelijk is de power (je wil dat de power zo hoog mogelijk is)
i. Power: de kans dat een test een effect van een bepaalde grootte
detecteert (een waarde van 0,8 is een goed niveau om naar te streven).
4
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller elsvanbroekhoven. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $13.67. You're not tied to anything after your purchase.