Kennisclips beschrijvende en interferentiële statistiek
2 views 0 purchase
Course
Beschrijvende en interferentiële statistiek
Institution
Vrije Universiteit Amsterdam (VU)
Dit document bevat aantekeningen van alle kennisclips van statistiek. Het document is in het Nederlands maar zal soms Engelse termen bevatten. Alle begrippen staan erin, door dit document te combineren met aantekeningen van de colleges heb ik een 8,6 als eindcijfer behaalt.
Deeltoets 1 (week 1 & 2)
Beschrijvende statistiek = samenvatting van verkregen data.
Inferentiële statistiek = uitspraken en voorspellingen doen over hele populatie op basis van
de verkregen data.
To infer = concluderen uit/opmaken uit.
Variabelen = kenmerken van iemand of iets
Cases = zijn die iemand of iets
Dichotoom = een aparte naam voor een nominale variabele met 2 categorieën.
Een beter voorbeeld van een interval variabele (in plaats van leeftijd)
is temperatuur. Een tip om te onthouden of er sprake is van een betekenisvol
nulpunt: als het gisteren 10 graden Celsius was en vandaag 20 graden is, kun je dan
zeggen dat het buiten "twee keer zo warm" is? (10 * 2 = 20).
Nee, want als we dit zouden omrekenen naar graden Fahrenheit (deze schaal heeft
een ander nulpunt), dan is er slechts een temperatuurstijging van 50°F naar 68°F.
Nominale categorische variabelen: hebben als waarden geen getallen, maar alleen
kenmerken of categorieën, bijv. geslacht, nationaliteit of religie.
Kwantitatieve variabelen: variabelen die als waarde getallen aannemen, bijv. leeftijd,
gewicht.
Ordinale variabelen: categorische variabele met “rangordening” in de categorieën, bijv.
opleidingsniveau.
Cases en variabelen presenteren
Datamatrix = overzicht van cases en variabelen (cases op y-as, variabelen op x-as).
Je presenteert je datamatrix meestal niet i.v.m. de grootte.
Voor kwantitatief is frequentietabel (samenvatting van data, percentages etc.) niet handig
(haarkleur bijv. wel).
Categorical (nominaal/ordinaal)
Cirkeldiagram
Voordelen: makkelijk het percentage zien
Staafdiagram
Voordeel: het exacte aantal zien, bij hoge aantallen/variabelen
Kwantitatief
Histogram: zelfde als staaf maar dan staven aan elkaar.
bij interval/ratio
Mode= value dat het meest voorkomen (bi-modal distribution)
Median= de middelste waarde van je observaties van klein naar groot 6778889,
67778889 7,5 is median
Mean= optellen delen door aantal (gemiddelde)
Wanneer welke?
bij nominaal (catagorical) geen median of mean
bij kwantitatief median beter dan mean (voorbeeld bar met voetballer hoog salaris
mean hoog, outlier)
,2 maten van variabiliteit
1. Range (bereik)
Verschil tussen hoogste en laagste aantal.
+ Makkelijk te begrijpen en simpel uit te voeren
- geeft geen goede indruk van de variabiliteit (neemt alleen de meest extreme aantallen)
2. Interquartile range (IQR) = Q3 – Q1, median = Q2
+ laat de extreme waarden los
+ verdeelt ‘distribution’ in 4 gelijke delen (25%)
Outliers zijn waarden lager dan Q1 – 1,5(IQR) of hoger dan Q3 + 1,5(IQR)
Diagram om center, variabiliteit en outliers te laten zien box plot
2 andere methoden van variabiliteit
1. Variatie (s2) formule zie college 1
- het is in het kwadraat wortel nemen om deze weg te krijgen standaardeviatie
2. Standaarddeviatie
observatie ( x ) −gemiddelde ( mu)
z-score = x = mu *2*s(sigma)
standaarddeviatie( s/ sigma)
skewed naar links meer negatieve z-scores (en andersom)
75% moet binnen -2 en 2 zitten
Categorische variabelen (discreet omdat ze een beperkte hoeveelheid categorieën hebben)
bij ordinaal: kruistabel
Nominaal: de data kunnen alleen worden gecategoriseerd zonder duidelijke rangorde.
Ordinaal: de data kunnen worden gecategoriseerd en er is sprake van een duidelijke
rangorde.
Kwantitatieve variabelen (kunnen zowel discreet als continu zijn)
spreidingsdiagram, Pearsons R (lineaire correlatie), OLS regressie-analyse
Correlatiecoëfficiënt
Pearsons R richting en sterkte van lineaire correlatie met één getal
Sterke positieve correlatie als x groter wordt, wordt y ook groter
, Sterke negatieve correlatie als x groter wordt, wordt y kleiner
Zwakke positieve relatie/negatieve relatie minder sterk een lijn te zien
Curvilinear relatie U-vorm
Pearson’s R sterkte tussen -1 en 1, -1 is perfect negatief, 1 is perfect positief, 0 betekent
geen relatie
Σ ZxZy
Pearson’s r = hoef je niet te berekenen op tentamen, alleen logica erachter
n−1
begrijpen Zx = z-score x-as, Zy = z-score y-as
Je kan altijd de pearson’s r berekenen, ook al is de relatie niet lineair dus altijd scatterplot
checken voordat je pearson’s r berekent. Als je ziet dat er geen lineair verband is, ga dan niet
de pearson’s r berekenen, want dit vertelt je niks over het verband tussen de variabelen.
Regressielijn vinden afstand tot ‘landen’ meten (positieve en negatieve residuals) voor
alle mogelijke lijnen. Lijn met de kleinste som van de residuals in het kwadraat. (ordinary
least squares regression) is onmogelijk om te doen.
Beschrijven handig voor communicatie, voorspellen en identificeren van ‘gekke’ cases.
Y(dakje) = a + bx y: voorspelde waarde van y a: intercept/constante
b: regressie coëfficiënt
Y(dakje) = alle waarden op de regressielijn. B1=b2. Bbbbb1 is geen b2
A = de voorspelde waarde van y als x=0 a1 geen a2. A1 = a2
B = richtingscoëfficiënt (s = standaarddevi.)
A = Y(dakje) – b(x(dakje))
Sy
b=r
Sx
hoe meer variabelen, hoe beter de voorspelling
regressielijn beter voorspellen dan het gemiddelde
r2 = prediction error (pearson’s r)
r vertelt je over de direction en sterkte van de relatie (negatief/positief)
r2 is altijd positief en dus zegt het niks over de relatie wel over hoeveel beter de regressielijn
iets voorspeld dan het gemiddelde. En hoeveel van je afhankelijke variabele verklaard wordt
door de onafhankelijke variabele.
Toepassen van correlatie en regressie (video 2.4, week 1)
De eerste video laat zien dat je de data zorgvuldig moet inspecteren voordat je correlatie- en
regressiecoëfficiënten gaat berekenen, omdat (1) een samenhang veroorzaakt kan worden
door (een groepje) uitbijters ('outliers'), en (2) een verband niet-lineair kan zijn.
De tweede video beargumenteert dat correlatie niet meteen betekent dat je een causale
relatie hebt gevonden tussen de onafhankelijke en de afhankelijke variabele.
Betrouwbaarheidsanalyse
Geen consistente antwoorden niet betrouwbaar
Betrouwbaarheid = consistentie van het meetinstrument
Meetvaliditeit (geldigheid) = meet het instrument wat je wil meten?
Hoe kunnen we de interne betrouwbaarheid van een meting vaststellen?
split-half methode of Cronbach’s alpha
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller lottekok97. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $7.61. You're not tied to anything after your purchase.