College aantekeningen

Complete samenvatting alle colleges statistiek 2

1 keer verkocht

Vak
Statistiek 2 (PSBA207)

Instelling
Rijksuniversiteit Groningen (RuG)

Dit is een hele uitgebreide samenvatting van alle colleges gegeven in het vak statistiek 2. Alle formules en begrippen komen uitgebreid aan bod met voorbeeld sommen en uitleg. Het is erg duidelijk geschreven. Ik heb door enkel deze samenvatting te leren een 8.5 gehaald op het tentamen.

[Meer zien]

Voorbeeld 4 van de 85 pagina's

Bekijk voorbeeld

Geupload op 15 maart 2024
Aantal pagina's 85
Geschreven in 2023/2024
Type College aantekeningen
Docent(en) Krimpen-stoop
Bevat Alle colleges

significantie toetsen
p value
model assumpties
lineariteit
homoscedasticiteit
normaliteit
anova
one way anova
two way anova
simple linear regression
multiple linear regress
betrouwbaarheidsintervallen

Volgen

Anoniem180 Lid sinds 2 jaar 32 documenten verkocht

Statistiek 2 samenvatting

Statistiek les 0
Er zijn een aantal relevante vragen die relevant zijn voor de studie psychologie. Maar hoe leren we
van een klein aantal iets over de hele populatie? Hierbij willen we dus feiten uit de steekproef
generaliseren naar de hele populatie. Voorbeelden van vragen zijn:
- Hoe kunnen we 60 mensen met depressie bevragen en deze informatie gebruiken om te
leren over alle mensen met depressie?  Inferentie voor 1 gemiddelde
- Hoe kunnen we 50 mannen en 50 vrouwen een mental rotation test aften en o.b.v. het
verschil tussen hen met betrouwbaarheid zeggen dat alle mannen en vrouwen verschillen?
 Inferentie voor verschil tussen 2 gemiddelden
- Hoe kunnen we een klein aantal mensen bevragen over hun mening m.b.t. discriminatie en
leren over de meningen in de hele populatie  Inferentie voor 1 proportie.
Hoe doen we dit? Je trekt een SRS uit de doelpopulatie, vervolgens meet je de relevante variabele,
vervolgens gebruik je een inferential method (BHI opstellen en/of significantietoets uitvoeren). Deze
vragen beantwoorden we dus met statistiek. Wat is dan statistiek? Statistiek vat kwantitatieve
gegevens samen en het modelleert onzekerheid.

We hebben dus een bepaalde onderzoeksvraag die we niet in de gehele populatie kunnen
onderzoeken. Daarom gebruiken we een steekproef. Die uitkomst van de steekproef willen we
gebruiken om een algemene uitspraak te doen. We moeten hiervoor inferential statistics toepassen
(BHI of sign. toets).

Elke keer als we werken met een steekproef doen we dit met een doel, namelijk dat we iets willen
zeggen over de populatie. Normaal gesproken kunnen we niet de hele populatie onderzoeken, dus
we bestuderen een deel (de steekproef). Maar omdat we dus niet alles weten, hebben we te maken
met onzekerheid als we werken met resultaten uit een steekproef. We hebben namelijk een goede
gok, maar die is niet perfect. De onzekerheid kunnen we meten (denk aan standard errors, margin of
errors, SD, variantie). Door statistiek toe te passen kunnen we dus uitspraken doen (m.b.v.
steekproeven kunnen we wat zeggen over populatie), rekening houdend met onzekerheid.

Statistiek 1  beschrijven en onderzoeken van samenhang:
- Descriptive statistics = samenvatten kwantitatieve gegevens
- Sampling distributions (centrale limietstelling) = beschrijven van onzekerheid in het
experiment, hoe groot de spreiding is van de statistic (vaak gemiddelde). Het gaat om de
verdeling van het steekproefgemiddelde als we de steekproef vaak herhalen. CLS = als je
steekproef voldoende groot is dan is die normaal verdeeld.
- Vergelijken 2 gemiddeldes = samenhang tussen kwantitatieve variabele en categorische
variabele (2 levels)
- Vergelijken 2 proporties = samenhang tussen tel-variabele en categorische variabele (2 levels)
- Vergelijken van meer dan 2 proporties = samenhang tussen tel-variabele en categorische
variabele (meer dan 2 levels)

Bij statistiek 2 gaan we opnieuw kijken naar de samenhang tussen variabelen, maar we gaan kijken
naar meer dan 2 variabelen en ook naar ingewikkeldere samenhang.

Voorbeeld: is er een relatie tussen telefoongebruik en angstklachten/academische prestaties/
levenstevredenheid? We kunnen dit ook allemaal in 1x bekijken. We kunnen ons ook afvragen of er
een relatie is tussen alcoholgebruik en sterfte. Dit zijn twee kwantitatieve variabelen, dus het lijkt vrij
makkelijk met een correlatie. Maar je moet hier rekening houden met achtergrond variabelen zoals
bijv. leeftijd. Hoe kunnen we deze confounding relationships ontwarren?

,Als we de samenhang willen onderzoeken/beschrijven/toetsen dan moeten we inferential methods
gebruiken (BHI/sign. toets). Gebruik inferential methods om de samenhang te onderzoeken en
uitspraken te doen, rekening houdend met de onzekerheid. Hierbij komen de volgende dingen kijken:
CLS, margin of errors, p-values, t-tests, normale verdelingen, z-scores, checken assumpties.

Inferential statistics
Inference = to derive as a conclusion from facts or premises. Ofwel, het generaliseren van
waarnemingen, kenmerken, eigenschappen uit steekproeven naar de gehele populatie. Hier hebben
we twee methodes voor:
- Confidence intervals (CIs):
o Een C% CI bevat een (onbekende) populatie parameter met C% zekerheid
o Als het onderzoek vaak wordt herhaald, dan zal ongeveer C% van de Cis de
parameter bevatten
o Een BHI geeft ons een interval met mogelijke waardes van de populatieparameter
(gemiddelde in populatie bijv.) met een bepaalde mate van betrouwbaarheid.
- Significantie toets:
o Levert ons als uitkomst een p-value: de kans op het huidige steekproefresultaat (of
extremer) is zo klein, onder de nulhypothese, dat het onwaarschijnlijk is dat de
parameter een bepaalde waarde heeft (gedefinieerd in H 0).
o Gooit veel informatie weg, dit gebeurt minder bij BHI.

Voorbeeld: hoeveel mannelijke sekspartners hadden vrouwen vanaf hun 18 e verjaardag (leeftijd 23-
29 jaar). Je hebt een SRS getrokken uit deze doelpopulatie. N = 129, gemiddelde is 6.6 en SD is 13.3.
We kunnen een BHI opstellen en een significantie toets uitvoeren.
- 95% CI = (4.3; 8.9)
- Verteld je dat je met 95% zekerheid kan zeggen dat , het gemiddelde aantal sekspartners in
deze populatie, ligt tussen de 4.3 en 8.9.
- H0:  = 1 vs. Ha:  > 1
o T(128) = 4.78, p < 0.001
o Deze significantie toets toetst of het gemiddelde aantal sekspartners 1 is of groter
dan 1 is. Als H0 waar zou zijn (gemiddeld 1 sekspartner), dan is de kans op een
dergelijke uitkomst van het steekproefresultaat (6.6 of hoger) heel onwaarschijnlijk.
Daarom verwerpen we H0: , het gemiddelde aantal sekspartners in de populatie is
waarschijnlijk groter dan 1.
- Hier zien we het verschil aan informatie in de conclusie. Sign. toets zegt enkel groter dan 1,
hoeveel groter is onduidelijk. Deze informatie krijgen we wel uit het BHI.

Inferential statistics  populatie versus steekproef (sample): gebruik een feit
van de steekproef om de werkelijkheid over de gehele populatie te schatten.
Hierbij houden we rekening met de onzekerheid in ons experiment.

Het steekproefgemiddelde y kan gebruikt worden om:
- Het populatiegemiddelde  te schatten
- Kansuitspraken over  te doen:
o Het 95% CI voor  is (4.4; 8.8)
o We verwerpen de hypothese dat  = 1 bij  = 5%
Om dergelijke kansuitspraken te kunnen doen is kennis over de sampling distribution van de statistic
nodig.

,Sampling distributions van een statistic (bijv. steekproefgemiddelde) (voor vaste n)  je verzamelt
een steekproef en je berekent het steekproef gemiddelde (dit herhaal je vaak). Dit levert een set van
steekproefgemiddelden. Deze set van scores heeft een bepaalde verdeling, je zet de gemiddelden in
de grafiek en dan krijg je een steekproefverdeling = the sampling distribution of the sample mean. Dit
principe geldt ook voor (elke) andere statistic dan het steekproefgemiddelde (de sample mean).

Dus, de sampling distribution is de kansverdeling van een statistic in de steekproef. Wat weten we
over de sampling distribution van het steekproefgemiddelde y? Op basis van de CLS weten we dat de
verdeling (sampling distribution) heel erg lijkt op een normale verdeling en dat die steeds meer op
een normale verdeling gaat lijken naarmate de steekproefgrootte groter wordt. De spreiding in de
normale verdeling wordt steeds kleiner als de steekproefgrootte
groter wordt. We zien dat het gemiddelde van de normale verdeling
komt te liggen bij het populatiegemiddelde  en weten de spreiding
❑
van de verdeling ( ). Sampling distribution van Y 
√n

Sampling distributions zijn basis voor inferentie. Waarom? De sampling distributions helpen bij het
kwantificeren welke waardes van de statistic het meest/minst waarschijnlijk zijn. Hierdoor kunnen
we kansen toekennen aan steekproefresultaten:
- Significantie toets: p-waarde
- BHI: onder- en bovengrens
Dit komt allemaal bij de normale verdeling vandaan op basis van de CLS. De onzekerheid zit verpakt
in de SD, die kunnen we gebruiken als we een sign. toets uitvoeren of een BHI opstellen.

Significantie toets  onderliggend principe: een formele procedure voor het vergelijken van
- Waargenomen data in de steekproef met een
- Hypothese waarvan we de werkelijkheid willen beoordelen
We kijken naar het bewijs dat door de data tegen H0 en ten gunste van Ha wordt geleverd.

Twee soorten hypotheses:
- Nulhypothese (H0): een uitspraak over de waarde van de populatieparameter
- Alternatieve hypothese (Ha): een uitspraak die in tegenspraak met H 0 is (<, >, ).

Als we dit hebben, dan hebben we een bepaald standpunt ingenomen in de H 0 over de
parameter, dit legt de sampling distribution volledig vast. We wisten de spreiding al (
❑
√ n ) maar nu weten we ook precies waar de piek van de verdeling ligt, namelijk bij de
waarde van 0. Dus we weten precies met welke verdeling we te maken hebben als H 0 waar is.

Een significantietoets vergelijkt wat je waargenomen hebt in de data met wat je vastgelegd hebt in
de hypothese. Dus het vergelijkt in dit geval het gemiddelde in de steekproef (waargenomen) met
een gemiddelde in de populatie die staat in de nulhypothese. We kijken naar hoe groot de verschillen
zijn, maar nu komt de onzekerheid om de hoek kijken. Want het gemiddelde wat we hebben
waargenomen in de steekproef is niet perfect, we hebben te maken met onzekerheid. Er is hiervoor
een algemene vorm van de test statistic.

Elke significantietoets is gebaseerd op een test statistic. De algemene vorm van een test statistic
(denk aan z-tests en t-tests): we hebben een schatting uit de steekproef, daar trekken we de
gehypothetiseerde waarde van af, en dan delen we dit door de
standard error van de statistic. Voorbeeld one sample z test:
- In de populatie: yN(, ),  is bekend

, ❑
- Sampling distribution: yN(, ).
√n

P-value = de kans op een uitkomst zoals waargenomen in de
steekproef of extremer, gegeven dat H0 waar is. Dit geeft een indicatie
van hoe waarschijnlijk/onwaarschijnlijk een uitkomst van de steekproef
is. Hoe kleiner de p-value, hoe sterker het bewijs tegen H 0, ofwel hoe
onwaarschijnlijker H0 is. Wat is klein? Dit wordt gedefinieerd door het
significantieniveau   vergelijk p met het significantieniveau  (e.g.,
 = 5%). Dan zie je dat hoe verder je afgaat van het gemiddelde in de
populatie (hoe verder je in de staart zit), hoe onwaarschijnlijker de
uitkomst wordt en hoe sterker het bewijs tegen de nulhypothese is.

We hebben verschillende significantietoetsen besproken. Bij de z-toets nemen we aan dat de
standaarddeviatie  in de populatie bekend is, maar dit is niet realistisch. In de praktijk moeten we
vaker werken met een situatie waarin  onbekend is. Dat betekent dat we moeten gaan schatten.

One sample t test
- yN(, )
- Zowel  als  is onbekend
- H0:  = 0
- Schat  met s =
- Dit kunnen we gebruiken om de test
statistic te berekenen:
De t-verdeling wordt gebruikt voor de p-value. De t-verdeling lijkt op de normale verdeling maar ze
hebben iets dikkere staarten en een wat plattere top, ze worden gekenmerkt door een aantal
vrijheidsgraden. Dit is de situatie waarbij we 1 groep (populatie) hebben waarover we iets willen
zeggen. In de praktijk willen we vaak twee groepen vergelijken (bijv. controle/experimentele groep).
Dan trekken we twee steekproeven en we vergelijken twee gemiddeldes. Dan krijg je een two-
sample t test (verschillende varianten zijn hiervan):

Pooled two-sample t test
- y1N(1, 1), y2N(2, 2),
- Zowel ’s als ’s zijn onbekend
- H0: 1 = 2, of, equivalent, H0: 1 - 2 = 0
- Stel we nemen aan dat 1 = 2 dan kunnen we de pooled two
sample t test statistic bepalen, hiervoor heb je de standaarddeviatie
van beide steekproeven nodig (s1 en s2), de steekproefgroottes en
het gemiddelde in beide groepen.
- De t verdeling wordt gebruikt voor de p-value

Voorbeeld pooled two-sample t test: er zijn twee populaties,
namelijk jongens en meisjes. De gemiddeldes van de groepen zijn
bekend en de pooled SD is uitgerekend. Dan ga je de twee
gemiddeldes vergelijken, dan zie je dat ze verschillen maar niet
heel ver uit elkaar liggen en dat zet je af tegen de onzekerheid in
het experiment. Dan kom je uit op een t-statistic. Het aantal vrijheidsgraden kunnen we berekenen.
Dan komen we op een p-value van 0.734, dus de kans op wat we gevonden hebben of nog erger is
70%, dus dit resultaat is niet heel uitzonderlijk dus we kunnen H 0 niet verwerpen.

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper Anoniem180. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €6,98. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 75282 samenvattingen verkocht

Opgericht in 2010, al 15 jaar dé plek om samenvattingen te kopen

Start met verkopen

Populaire Universiteiten

Populaire Hogescholen

Populaire Scholen

Populaire samengevatte studieboeken voor Communicatie en Taal

Populaire samengevatte studieboeken voor Economie en Bedrijf

Populaire samengevatte studieboeken voor Exact en Informatica

Populaire samengevatte studieboeken voor Gedrag en Maatschappij

Populaire samengevatte studieboeken voor Gezondheid en Geneeskunde

Populaire samengevatte studieboeken voor Onderwijs en Opvoeding

Populaire samengevatte studieboeken voor Recht en Bestuur

De beste samenvattingen om je Wft-diploma te behalen

De beste samenvattingen om je theorie examens te behalen

De beste samenvattingen voor je cursus in de Veiligheidsbranche

De beste samenvattingen voor Gezondheid & Hygiëne cursussen

De beste samenvattingen voor zakelijke cursussen

De beste samenvattingen voor je PABO WisCAT cursus

Populaire vakken

Populaire vakken

Populaire vakken

Boekverslagen en samenvattingen

Verkoper

College aantekeningen

Complete samenvatting alle colleges statistiek 2

Document informatie

Onderwerpen

Geschreven voor

Verkoper

Ontvangen beoordelingen

Voorbeeld van de inhoud

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Snel en makkelijk kopen

Focus op de essentie

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Tevredenheidsgarantie: hoe werkt dat?

Van wie koop ik deze samenvatting?

Zit ik meteen vast aan een abonnement?

Is Stuvia te vertrouwen?