Dit is een uitgebreide samenvatting van alle hoorcolleges van Statistiek 2 uit jaar 2 Pedagogische Wetenschappen/Psychologie aan de Vrije Universiteit Amsterdam. Er is veel extra uitleg en voorbeelden zodat alles duidelijk is.
verbanden tussen 3 variabelen multivariate relaties
meervoudige lineaire regressie
variantieanalyse met 1 factor
Written for
Vrije Universiteit Amsterdam (VU)
Pedagogische Wetenschappen
Statistiek 2 (P_BSTATIS_2)
All documents for this subject (12)
2
reviews
By: S7VYN7 • 9 months ago
By: merlevandokkum • 2 year ago
Seller
Follow
annefleur_duvekot
Reviews received
Content preview
Anne Fleur Duvekot - 2648775
Hoorcolleges Statistiek 2
Hoorcollege 1.1 Cursusoverzicht en herhaling statistiek 1 (hst 1-4)
07-02-2022
1. Waarom hebben we statistiek nodig?
= je hoeft niet iedereen uit je doelpopulatie, de groep waar je wat over wil weten, te meten om toch een
generaliseerbare uitspraak te kunnen doe over de gehele groep; dit doe je doormiddel van een representatieve
steekproef
2. Cursusoverzicht
Doelstellingen cursus:
• Uitbreiden kennis statistiek 1
• Verbanden tussen 3 of meer variabelen
• Regressie -en variantieanalyse
• Uitvoeren statistische analyses in SPSS
• Leren rapporteren uitkomsten
Leerstof tentamen (40%)
- Boek Agresti, A (2018). Statistical methods for the social sciences
- Grasple oefeningen + oefenvragen Canvas
- Lijst met effectmaten: zie canvas
- Collegeslides
3. Herhaling statistiek 1
Meetniveau ’s van variabelen
Variabele: een eigenschap die kan variëren tussen personen in een steekproef of populatie (bv lengte, IQ).
Elke variabele heeft een eigen meetniveau die bepaalt welke statistische methoden/toetsen gebruikt kunnen
worden
Nominaal: categorische variabele, met ongeordende categorieën (geboorteland)
Ordinaal: categorische variabele, met geordende categorieën (kledingmaten)
Interval: continuele variabele, met relatief nulpunt; een waarde van 0 op de variabele betekent niet de
volledige afwezigheid van de eigenschap die je meet (temperatuur in Celsius)
Ratio: continue variabele, met absoluut nulpunt; een waarde van 0 op de variabele betekent de volledige
afwezigheid van de eigenschap die je meet (reactietijd gemeten in ms, lengte)
Nominaal Op zijn hoogst indeling in ongeordende categorieën.
Classificatie als wel/niet behoren tot dezelfde
categorie. Codering kan met cijfers, letters of
symbolen
Ordinaal Op zijn hoogst indeling in geordende categorieën.
Classificatie als groter dan, gelijk en kleiner dan.
Rang ordenen kan op 2 manieren: hoog naar laag &
laag naar hoog
Nominaal + ordinaal samen categorisch
Interval Maakt naast ordening ook verschillen interpretabel
door gelijke meeteenheden
Ratio Heeft naast ordening en gelijke meeteenheden een
absoluut nulpunt
Interval + ratio samen metrisch of kwantitatief
‘fuzzy’ variabelen: onderscheid tussen bij welk meetniveau een variabele hoort is lastig (bv somscore van
Likert-schalen) (soms het geval bij ordinale variabelen)
1
, Anne Fleur Duvekot - 2648775
Omgaan met meetniveau ’s in de praktijk
- Meeste methoden voor interval en ratio → parametrische methoden; de variabelen die je probeert te
voorspellen (y-variabele) (afhankelijke variabele) is op interval of ratio niveau = continue afhankelijke
variabelen
- Non-parametrische methoden minder bekend en gebruikt (bv Wilcoxon of Friedman) = categorische
afhankelijke variabelen
- In praktijk toch vaak parametrische methoden gebruikt voor ordinale en discrete data met veel
mogelijke waardes (bv Likert-schalen)
Beschrijvende statistiek
- Het samenvatten van de data middels tabellen en figuren
- Samenvatten per variabele (verdeling), samenvatten voor meerdere variabelen (samenhang)
- Verschillende beschrijvende statistieken voor categorische (nominaal + ordinaal) vs kwantitatieve
(interval + ratio) data
- Zorg ervoor dat je data altijd eerst exploreert voordat je werkelijk gaat analyseren; je moet zeker
weten dat je de juiste toets gebruikt
Beschrijvende statistiek voor categorische data: frequenties en staafdiagrammen
Frequentie= hoevaak elk antwoord is gegeven
Proportie= frequentie/ het totaal aantal mensen
Percentage= proportie x 100
Beschrijvende statistiek voor kwantitatieve data: frequenties en histogrammen
➢ Bij interval en ratio variabelen kun je nog steeds werken met frequenties, dus hoe vaak komt elke
score voor. Maar bij kwantitatieve variabelen zullen er snel veel mogelijke waardes zijn en dan krijg je
een hele lange tabel als je van alle waardes moet aangeven hoe vaak ze voorkomen. Daarom wordt er
gebruik gemaakt van een bepaalde range van frequenties.
➢ Voor de grafische weergave wordt gebruikt gemaakt van
een histogram met op de x-as alle mogelijke waardes die de
variabele kan aannemen en op de y-as hoe vaak elk van die
waardes voorkomt. Het verschil met het staafdiagram is dat de
balkjes bij een histogram aan elkaar zitten; dit geeft aan dat het
een continue variabele is en dus elke waarde kan aannemen
➢ Ook kan je kwantitatieve data beschrijven met een stem-and-leafplot; dit is vergelijkbaar met een
histogram
Beschrijven van verdelingsvormen
1. Normaalverdeling/ klokvormige variabele
2. U-vormige/ dalvormige
3. Scheef naar rechts; meeste mensen scoren laag
4. Scheef naar links; meeste mensen scoren hoog
Beschrijving van datacentrum
Gemiddelde: alle scores bij elkaar opgeteld/ het totaal aantal scores
Mediaan: de middelste score (50% van de scores liggen boven dit getal & 50% ligt eronder)
Modus: de meest voorkomende score
→ Bij een volledig symmetrische verdeling (normaalverdeling) dan zijn alle 3 deze maten gelijk aan elkaar
Beschrijving van data variabiliteit
Range: verschil tussen minimum en maximum
Deviatie: yi – y = score op y-variabele van persoon i – gemiddelde van variabele y
2
, Anne Fleur Duvekot - 2648775
➢ Geeft dus weer in hoeverre iemands score verschilt van de gemiddelde score van de steekproef
Kwadratensommen:
- Door te kwadrateren worden zowel negatieve als positieve getallen positief; en dat willen we zodat
we een algemene maat hebben voor in hoeverre de scores van mensen verschillen van het
gemiddelde
Variantie:
- De kwadratensom/ n-1 → dat corrigeert voor de grootte van je steekproef (gestandaardiseerde maat)
Standaarddeviatie:
= maat voor variabiliteit; hoe ver elke score gemiddeld is verwijderd van het
gemiddelde
- De wortel van de variantie → deze heeft het kwadraat van eerder op
De empirische regel
Aannames normaalverdeling:
De afwijking van het gemiddelde wordt uitgedrukt in standaarddeviaties:
• 68.2% van testscores X ligt max 1 SDe boven of onder de
ware score T
• 95.4% van testscores X ligt max 2 SDe boven of onder de
ware score T
• 99.7% van testscores X ligt max 3 SDe boven of onder de
ware score T
De meetfout is normaal verdeeld (soms – soms + vaak rondom
gemiddelde)
- µ= 0
Scores binnen 1 SDe van het gemiddelde, oftewel de binnenste 68.2% noemen we gemiddeld.
Bij variabelen met weinig variabiliteit liggen de scores heel dicht bij het gemiddelde.
Variabelen met veel variabiliteit, zijn wijd verspreid; veel scores liggen ver van het
gemiddelde.
Deze variabele heeft dus een grotere standaarddeviatie.
Klassificeren (measures of position)
- Kwartielen: data verdelen in 4 gelijke delen
- Interkwartiel afstand (IQR): verschil tussen 1e en 3e kwartiel
- Mediaan: 2e kwartiel, 50%
- Outlier: als score 1.5 x IQR boven of onder 3e of 1e kwartiel ligt
(hierbij moet je je afvragen of deze score misschien uit de data
moet worden verwijderd)
Kansverdelingen
Kans: de kans dat een observatie een bepaalde waarde aanneemt
Random variabele: zo noemen we elke variabele waarover we een kansberekening doen
- Elke mogelijke waarde van een variabele heeft een bepaalde kans
Kansverdeling: alle mogelijke waardes van variabele en hun kansen
Discrete (categorische) kansverdelingen:
➢ Elke mogelijke waarde heeft een kans
➢ Histogram, met op de y-as de kansen en op de x-as de verschillende uitkomsten
3
, Anne Fleur Duvekot - 2648775
Continue (kwantitatieve) kansverdelingen:
➢ Oneindig aantal mogelijke waardes, kans voor gekozen intervallen van waardes
➢ Figuur met kans= oppervlakte onder curve
➢ Je kan niet de kans op 1 specifieke score berekenen, wel de kans op een bepaald interval
3 soorten kansverdelingen in de statistiek:
1. Verdelingen van variabelen in de populatie: de ware verdeling van de variabele in de populatie waar
we een uitspraak over doen
2. Verdelingen van variabelen in de steekproef: de verdeling van de variabele in een klein deel van de
populatie
→ Deze 2 kansverdelingen geven informatie over hoe de variabele er in de echte wereld uitziet
3. Verdelingen van steekproefgrootheden: dit zijn dingen die ons informatie geven over de steekproef
(bv gemiddelde)
→ Dit is een theoretische verdeling, bestaat niet in het echt, alleen gebruikt voor statistiek
In alle 3 de gevallen speelt de normaalverdeling een belangrijke rol
Populatieverdeling van IQ-scores
Klokvormige verdeling (normaalverdeling) → empirische regel +
z-scores
Formule z-score:
➢ Om kans voor y te bepalen, gebruik z= (y- µ) / σ daarna kans in z-tabel opzoeken
➢ Om y-waarde te vinden voor gegeven kans, gebruik y= µ + z x σ
➢ Als ruwe data normaal verdeeld, conversie naar z geeft standaard normaalverdeling
➢ Als ruwe data niet normaal verdeeld, dan z-score ook niet
Rekenvoorbeeld. Hoeveel % van de volwassenen haalt een score hoger dan 120 op een IQ-test? (µ= 100; σ= 15)
1. z= (y- µ) / σ → z= (120 – 100)/15= 1.33 (dit betekent dat de score van 120, 1.33 standaarddeviaties
boven het gemiddelde ligt)
2. Opzoeken in z-tabel: kans= .0918
3. Dus: ongeveer 9% van de volwassen bevolking heeft een IQ hoger dan 120
Verdelingen van steekproef grootheden
• Populatieverdeling: populatiegemiddelde µ is (vaak onbekende) parameter
• Steekproefverdeling: steekproefgemiddelde y is steekproefgrootheid (sample statistic) → dit is een
benadering voor het populatiegemiddelde waarin we zijn geïnteresseerd
• Steekproevenverdeling: verdeling van steekproefgrootheid over steekproeven heen → heel veel
gemiddeldes schatten van verschillende steekproeven; hierdoor is de uitkomst betrouwbaarder en
lijkt meer op de populatieverdeling
Steekproef en vertrouwen
- Doel statistiek: op basis van een steekproef uitspraak over populatie
- Uitspraak meestal over gemiddelde of proportie
- Weinig vertrouwen want door kleine steekproef kan schatting nogal afwijkend zijn
- Naarmate je meer observaties ziet heb je steeds meer vertrouwen
4
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller annefleur_duvekot. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $7.58. You're not tied to anything after your purchase.