Samenvatting - Beschrijvende en Inferentiële Statistiek
50 views 7 purchases
Course
Beschrijvende en Inferentiële Statistiek
Institution
Vrije Universiteit Amsterdam (VU)
Een samenvatting van 12 modules van Beschrijvende en inferentiële statistiek, aantekeningen van colleges, van videos en powerpoint's + r-studio guidelines. Alles wat je nodig hebt om BIS te halen in 1!
Inhoud:
0. Introductie
0.2: Statistische concepten
1. Beschrijvende statistieken
a. 1.1: Data beschrijven
b. 1.2: Maten van centraliteit
c. 1.3: Maten van variantie
2. Samenhang tussen variabelen
a. 2.1: Samenhang tussen categorische variabelen
b. 2.2: Samenhang tussen continue variabelen
c. 2.3: De regressielijn
d. 2.4: Het toepassen van correlatie en regressie
3. Betrouwbaarheidsanalyse
a. 3.1: Introductie
b. 3.2: Cronbach's alfa
c. 3.3: Een schaal maken
4. Kansberekening
a. 4.1: De normaalverdeling
b. 4.2: Kansen voor klokvormige verdelingen
5. De steekproevenverdeling
a. 5.1: Steekproef en populatie
b. 5.2: De steekproevenverdeling
c. 5.3: Eigenschappen van de steekproevenverdeling
d. 5.4: Waarschuwing: gerandomiseerde steekproeven
6. Betrouwbaarheidsintervallen
a. 6.1: Inferenties
b. 6.2: Betrouwbaarheidsintervallen
c. 6.3: Betrouwbaarheidsniveaus
7. Het toetsen van hypothesen
a. 7.1: Hypothesen
b. 7.2: Hypothesetoetsing
c. 7.3: De procedure van hypothesetoetsing
d. 7.4: Het interpreteren van hypothesetoetsen en betrouwbaarheidsintervallen
8. Het vergelijken van twee gemiddelden
a. 8.1: T-toets voor onafhankelijke en afhankelijke steekproeven (Independent &
dependent samples)
b. 8.2: Independent samples t-tests in SPSS
c. 8.3: Waarschuwingen bij hypothesetoetsing
9. Het verband tussen twee categorische variabelen
a. 9.1: Conditionele en marginale kansen in een kruistabel (contingency table)
b. 9.2: Is het verband significant? De Chi-kwadraat toets (Chi-square test)
c. 9.3: Waar zit het verband? Gestandaardiseerde residuen (standardized
residuals)
d. 9.4: Wat is de sterkte vh verband? Proportieverschillen en relative risk
10. Enkelvoudige lineaire regressie
a. 10.1: Hypothesetoetsing met de b-coëfficiënt
b. 10.2: Residuen en verklarende kracht
c. 10.3: Enkelvoudige regressie met een "dummy variabele".
,11. Multipele regressie
a. 11.1: Causale modellen: confounders en mediatoren
b. 11.2: Het multipele regressiemodel
c. 11.3: Model fit (R-kwadraat) en F-toets
12. Nadere beschouwing van het effect van X op Y en van verklaarde variantie.
a. 12.1 De gestandaardiseerde slope (Beta)
b. 12.2 Interactie-effecten
c. 12.3 De conditionele standaarddeviatie
,Introductie
0.2: Statistische concepten
variables: kenmerken
cases: de individu of instantie zelf
cases kunnen heel veel dingen zijn, mensen, bedrijven, teams enz.
variables zijn de kenmerken van de cases en moeten verschillen
als een variabele niet anders of verschillend is is het een constant.
level of measurement:
Categorical variables hebben twee levels of measurement:
nominaal: variables zonder volgorde, zoals nationaliteit en gender
ordinaal: variables zijn verschillend en zijn ordelijk, gaan dus op volgorde, maar je weet niet
het verschil tussen de variabelen.
Kwantitatieve variabelen hebben twee levels:
Discrete, doelpunten, set of separate numbers and continuous, lengte, infinite
region of values
Interval: verschillende categorieën, ordelijk en weet je het verschil tussen de categorieën.
Ratio: verschillende categorieën, ordelijk en weet je het verschil tussen de categorieën en
heb je een meaningful zero point.
Een beter voorbeeld van een interval variabele (in plaats van leeftijd) is temperatuur. Een
tip om te onthouden of er sprake is van een betekenisvol nulpunt: als het gisteren 10 graden
Celsius was en vandaag 20 graden is, kun je dan zeggen dat het buiten "twee keer zo
warm" is? (10 * 2 = 20).
Nee, want als we dit zouden omrekenen naar graden Fahrenheit (deze schaal heeft een
ander nulpunt), dan is er slechts een temperatuurstijging van 50°F naar 68°F.
In tegenstelling tot Matthijs Rooduijn zullen veel andere docenten leeftijd gewoon een ratio
variabele noemen ipv interval. Als je bijvoorbeeld iemand van 2 jaar oud vergelijkt met
iemand van 1 jaar, zullen de meeste mensen zeggen dat deze persoon "twee keer zo oud
is".
Tenzij je de filosofische vraag opwerpt wat eigenlijk precies het nulpunt is van "leven". Je
zou ook -9 maanden als nulpunt kunnen kiezen. Maar dan geldt dus niet meer dat iemand
van 2 jaar (nieuwe score van leeftijd wordt dan: 2 jaar + 9 maanden) twee keer zo oud is als
iemand van 1 jaar (nieuwe score wordt dan: 1 jaar + 9 maanden)!
1: Beschrijvende statistieken
1.1: Data beschrijven
Tabellen:
- kolommen, variables, verticaal
- cellen, cases, horizontale
- data matrix is een overview van alle verzamelde data
je deelt niet je hete data matrix, maar vat dit samen in bijvoorbeeld een:
- frequency table, shows hot the values are distributed over the cases
, - je kan kwantitatieve variabelen omzetten (rocoded) in ordinal categories, maar niet
andersom
Grafieken:
met frequency table informative graph maken
twee manieren graph
Nominaal/ Ordinaal variabelen:
- pie chart
- Voordeel, makkelijk af te lezen
- nadeel, exacte cijfers moeilijk na te lezen uit een pie chart
- bar graph
- voordeel, kan veel categorieën duidelijk aangeven
Interval/ Ratio variabelen:
- dot plot voor quantitative data
- histogram, bars raken elkaar aan, creëert interval met gelijke waarde
- Bell shaped (symmetrisch)
- unimodal/ bimodal (dubbele symmetrie)
- skewed to the right hoogtepunt links (scheve verdeling)
- skewed to the left hoogtepunt rechts (scheve verdeling)
1.2 Maten van centraliteit
drie centraliteitsmaten: modus, mediaan en gemiddelde.
Modus: de waarde die het vaakst voorkomt.
Mediaan: de middelste waarde als je de dataset van kleinste naar grootste waarde
rangschikt.
Gemiddelde: de som van alle waarden, gedeeld door het totale aantal waarden.
1.3: Maten van variantie
Je gebruikt spreidingsmaten en centrummaten om je data samen te vatten met behulp
van descriptieve of beschrijvende statistieken. Met descriptieve of beschrijvende
statistiek orden je de data en vat je de kenmerken van je dataset samen.
spreidingsmaten (measures of variability):
- Bereik (range): het verschil tussen de hoogste en laagste waarde.
- Interkwartielafstand (interquartile range): het verschil tussen het eerste en derde
kwartiel.
- Standaarddeviatie (standard deviation): de gemiddelde afstand tot het
gemiddelde.
- Variantie (variance): het rekenkundig gemiddelde van de kwadratische afwijkingen
van het gemiddelde.
Het bereik (range) is het interval tussen de laagste en de hoogste waarde in de dataset. Het
is een veelgebruikte maat voor de spreiding (variability).Het bereik wordt berekend door de
laagste waarde van de hoogste waarde af te trekken. Als het bereik groot is, is er sprake
van een hoge variabiliteit, terwijl een laag bereik gepaard gaat met een lage variabiliteit.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller zum. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $8.09. You're not tied to anything after your purchase.