100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
Samenvatting ALLE tentamenstof Inleiding statistiek (zelf 9 gehaald) €5,89   In winkelwagen

Samenvatting

Samenvatting ALLE tentamenstof Inleiding statistiek (zelf 9 gehaald)

3 beoordelingen
 253 keer bekeken  29 keer verkocht

Deze samenvatting bevat duidelijke uitleg van alle stof voor het vak Inleiding statistiek. Zowel de rekenstappen als de theorie zijn heel duidelijk uitgelegd. Door deze samenvatting te leren heb ik een 9 gehaald op het tentamen. De samenvatting bevat overzichtelijke kopjes en dikgedrukte begrippen.

Voorbeeld 4 van de 35  pagina's

  • Ja
  • 29 januari 2024
  • 35
  • 2022/2023
  • Samenvatting
book image

Titel boek:

Auteur(s):

  • Uitgave:
  • ISBN:
  • Druk:
Alle documenten voor dit vak (25)

3  beoordelingen

review-writer-avatar

Door: sophiaspierings • 6 maanden geleden

Ik vind het een top samenvatting en ook voor een goede prijs kun je jezelf hiermee goed voorbereiden op het het tentamen

review-writer-avatar

Door: fayelise • 6 maanden geleden

review-writer-avatar

Door: jfjdebruijn • 7 maanden geleden

avatar-seller
ingridvmeurs2
Inleiding statistiek
Hoorcollege 1
Hoofdstuk 1 – introductie statistiek
Berkson’s paradox = een type selectiebias - een wiskundig resultaat dat wordt gevonden in
voorwaardelijke waarschijnlijkheids- en statistiekvelden waarin twee variabelen negatief worden
gecorreleerd ondanks dat ze positief gecorreleerd zijn binnen de populatie. De correlatie is in
werkelijkheid veel zwakker of zelfs positief.

Statistiek gaat altijd over een waarschijnlijkheid, we hebben namelijk nooit toegang tot alle data. We
willen dus informatie halen uit een kleinere set data.

Inferentiële statistiek = gaat over het doen van schattingen of voorspellingen over een grote
hoeveelheid data op basis van informatie over een kleine hoeveelheid data. Denk hierbij aan het
nemen van een steekproef om iets te kunnen zeggen over de gehele populatie. Hierbij maken we dus
een inferentie van iets naar iets anders.

Beschrijvende statistiek = het beschrijven van data, vaak via samenvattende statistieken. Voorbeeld:
“een Spaanse vrouw is gemiddeld 1,63m lang.”

Drie dimensies van het data-idee:

1) Constructen vs. operationaliseringen: je bent geïnteresseerd in de samenhang tussen twee
constructen, maar deze kun je niet direct meten  je moet de constructen dus
operationaliseren (vertalen naar een variabele).
2) Discrete vs. continue variabelen:
Discrete variabelen kunnen slecht uit een beperkt aantal categorieën bestaan, dit kan
oogkleur zijn (blauw / groen) maar het kan ook een aantal zijn (1 of 2 huisideren: je kunt
geen 1,3 huisdieren hebben, daarom is het categorisch).
Continue variabelen kunnen alle waarden tussen twee punten aannemen: je kunt
bijvoorbeeld 1,74629m lang zijn.
3) Verschillende meetniveaus:
De nominale schaal: je kunt geen kwantitatief onderscheid maken tussen categorieën (je
kunt niet zeggen een hond is meer dan een kat). Hierbij is er ook geen 0.
De ordinale schaal: hierbij worden categorieën gerangschikt, bij de ordinale schaal zijn de
intervallen niet gelijk. De 1e kan veel beter zijn dan de 2e, terwijl de 2e en de 3e heel dicht bij
elkaar liggen. Ook hierbij is geen 0.
De intervalschaal: bestaat uit even grote intervallen tussen de waarden, elke eenheid van 1
is even groot. Denk bijvoorbeeld aan temperatuur. Ook hierbij is 0 niet echt 0, een
temperatuur van 0 is nog steeds een temperatuur.
De ratio schaal: bestaat uit even grote intervallen tussen de waarden, elke eenheid van 1 is
even groot. Dit is dus gelijk aan de intervalschaal alleen nu is er wel een absolute 0. Een
afstand van 0 betekent ook echt dat er geen afstand is.

Hoofdstuk 2 - frequentieverdelingen
Hoe geven we data weer?
We kunnen tellen hoe vaak elke optie voorkomt: dit noemen we de frequentie(s) van waarden. Een
gestructureerde tabel wordt dan een frequentieverdelingstabel genoemd.
Bij discrete variabelen is dit heel makkelijk, maar bij continue variabelen is dit iets lastiger. Daarom

,maken we bij continue variabelen vaak gegroepeerde frequentieverdelingen: we bundelen enkele
waardebereiken samen.

Omdat deze getallen lastig te interpreteren zijn maken we gebruik van proporties:
proportie: p = frequentie (f) / totale aantal (N)
percentages: p = f / N * 100

Frequentietabellen: optellen hoe vaak een bepaald datapunt is genoemd. Links staan de ruwe data,
rechts staan de getallen met daarnaast de frequentie van hoe vaak dit getal voor is gekomen.
De percentages reken je uit door: deel / geheel van de frequentie * 100 (afronden op 2 decimalen).
De cumulatieve percentages zijn de percentages bij elkaar opgeteld.

x F % cum. %
0 4 30,77 30,77
1 2 15,38 46,15
2 2 15,38 61,53
3 3 23,08 84,60
4 1 7,69 92,30
5 0 0 92,30
6 1 7,69 100
Hierbij heeft 0 een percentielrang van 30,77 en heeft 1 een percentielrang van 46,15.

Histogram = de grafische weergave van de frequentieverdeling van in klassen gegroepeerde data,
afkomstig uit een continue kansverdeling.

Hoe lokaliseren we datapunten?
We willen misschien weten waar een waarde ligt ten opzichte van de hele data, bijv. zijn 3 huisdieren
veel of weinig? We kunnen punten lokaliseren met behulp van de frequentieverdeling, hierbij
gebruiken we percentielen:

1) We sorteren onze frequentietabel.
2) We berekenen een cumulatief percentage: we tellen de percentages van de proporties bij
elkaar op. Op het einde van de tabel kom je dus altijd uit op een proportie van 1 en een
percentage van 100%.
3) We lokaliseren ons datapunt van belang (hier: het hebben van 3 huisdieren).
4) We weten dat 3 huisdieren overeenkomt met een cumulatief percentage van 95,17%  dus
95,17% van de antwoorden valt onder 0, 1, 2 of 3 huisdieren  3 huisdieren heeft een
percentielrang van 95,17%  3 huisdieren is het 95ste percentiel.

Limieten = de grenzen van een getal, je breidt deze uit naar de decimale getallen. Zo heeft een getal
van 180 twee limieten: 179,5 en 180,5. Alle waarden tussen deze limieten noemen wij 180.

Interpolatie: wat is de percentielrang van x=9?
van een groep van 5-9 is de bovengrens niet 9,0 maar is de bovengrens 9,5 (door de limieten). Bij een
groep van 5-9 horen alle waarden vanaf 4,5 en tot aan 9,5 erbij. Daarom kun je niet altijd zomaar het
percentielrang uit de tabel overnemen, de waarde van 9 zit hier namelijk ergens tussen. We moeten
dus 0,5 naar beneden, dit is 10% van het hele interval (5). Je haalt dus 10% van het percentielrang
van 5-9 af, dit was van 10 t/m 60 (dit is 50 percentielrangen). Het percentielrang wordt dus 55.
(Pag. 55 van het boek)

,Stem-and-leaf plot = een manier om data weer te geven op volgorde. Het stem-and-leaf plot zet een
reeks getallen (data) op volgorde. De getallen worden op tientallen gesorteerd; stel je hebt de
getallen 17, 23, 25, 26, 26, 29, 34, 56, 57 krijg je : 1|7 en 2|35669 en 3|4 en 5|67.

Hoorcollege 2
Hoofdstuk 3 – centrale tendens
Steekproeftrekking is het proces waarbij n waarnemingen worden genomen uit een populatie van
grootte N. Dit is een van de belangrijkste methoden in de gedrags- en sociale wetenschappen: want
als de steekproeftrekking niet goed is gegaan is je onderzoek nutteloos. Dit noemen we het GIGO-
principe: garbage in, garbage out.

De centrale tendens
Het doel van de centrale tendens is om de gegevens die we verzameld hebben (data) te beschrijven.
We willen het centrum van de dataverdeling uitdrukken.
Voorbeeld: we vragen 100 studenten aan de TiU hoeveel uur ze per week besteden aan YouTube in
uren. Hieruit ontstaat een frequentieverdeling, met een centrale waarde. Beschrijving centrale
waardes:

o De MODUS (mode): de score (of categorie) met de hoogste frequentie.
Werkt voor alle schalen van data (denk aan de nominale schaal).
We kijken naar de frequentietabel en kiezen de meest gekozen optie  de modus is 10 uur.

De modus heeft een belangrijke functie als we het hebben over verdelingen. Soms heeft een grafiek
twee modussen: dit noemen we een binomale verdeling.

o Het GEMIDDELDE (mean): de som van alle scores gedeeld door het aantal scores.
∑x
Statistische notatie: μ= (populatie gemiddelde)
N
∑x
M= (steekproef gemiddelde)
n
Een steekproef van n=9 scores heeft een gemiddelde van M=20. Een van de scores is veranderd en
het nieuwe gemiddelde wordt M=22. Als de veranderde score eerst X=7 was, wat is deze dan nu?
∑x ∑x
M=  20 =  180 = ∑ x
n 9
∑x
22 =  198 =∑ x
9
18 + 7 = 25  X = 25

Waarom gebruiken we niet altijd het gemiddelde? Stel dat er 10 vrienden in een bar zitten, elk van
hen zegt hoeveel uur ze per week YouTube kijken. Nu komt er nog een vriend binnen, deze vriend is
een binge watcher. Het gemiddelde gaat hierdoor drastisch omhoog, maar dit is niet perse
representatief. Daarom noemen we dit een outlier. Deze problemen kunnen we oplossen door een
andere maat:

o De MEDIAAN: de mediaan is de waarde die de verdeling in tweeën deelt (dit is het 50 ste
percentiel).
1. Sorteer de data: 2, 2, 3, 4, 6, 6, 7, 12. 15, 15, 50

, 2. Zoek de waarde die in het midden ligt: de waarde die net zo veel punten links als rechts
heeft. In dit voorbeeld is dat 6.
Verdelingen zonder een duidelijk middelpunt (even aantal getallen): In dit geval nemen we
de twee middelste waarden en berekenen hier het gemiddelde van.

De mediaan wordt niet sterk beïnvloedt door outliers, daarom is deze heel erg handig.

Hoofdstuk 4 - variabiliteit
Variabiliteit
Het doel van variabiliteit is nog steeds het beschrijven van de data. We willen uitdrukken hoeveel de
scores in de data van elkaar verschillen, ook wel de spreiding (of het gebrek hieraan) van de data
genoemd.
Voorbeeld: we hebben de gegevens van cijfers voor Inleiding Statistiek bij de eerste poging (N = 10):
5, 3, 6, 6, 7, 8, 6, 9, 8, 10. Hoe kunnen we nu de variabiliteit (de spreiding van de data) afdrukken?

o De makkelijkste manier: we nemen de laagste waarde en de hoogste waarde:
Min grade = 3
Max grade = 10
Range = max – min = 10 – 3 = 7
o Meer genuanceerd: we berekenen hoeveel elke score verschilt van het (populatie)
gemiddelde = de afwijking.
5 – 6.8 = -1.8
2
Cijfer (X) Distance to the mean (X - µ) (x−µ)
5 -1.8 3.24
3 -3.8 14.44
6 -0.8 0.64
6 -0.8 0.64
7 0.2 0.04
8 1.2 1.44
6 -0.8 0.64
9 2.2 4.84
8 1.2 1.44
10 2.2 10.24
Dit noemen we de afwijkingsscore (deviation) van het gemiddelde voor elke waarde
Deviation = X - µ. Het gemiddelde is per definitie het evenwichtspunt van de verdeling.
Het x 2 trucje: deze verwijdert de negatieve waarden zodat we niet meer een evenwichtspunt
van 0 hebben: hierbij moet je opletten dat de verschillen ook worden gekwadrateerd. We
hebben nu een meer betekenisvolle maat: het gemiddelde van de gekwadrateerde
afwijkingen noemen we de variantie.
SS = sum of squares = 37,6
∑ ( X−µ ) ² 37,6
var (σ 2 ¿= = 10
= 3,76
N
De standaard afwijking: een van de meest gebruikte statistieken voor variabiliteit, dit is
standaard in de meeste onderzoekspapers:
σ = √ var = √ 3,76 = 1.94

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper ingridvmeurs2. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €5,89. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 75323 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen
€5,89  29x  verkocht
  • (3)
  Kopen