100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached
logo-home
Samenvatting Beschrijvende en Inferentiële Statistiek Vrije Universiteit Amsterdam $7.56   Add to cart

Summary

Samenvatting Beschrijvende en Inferentiële Statistiek Vrije Universiteit Amsterdam

1 review
 346 views  11 purchases
  • Course
  • Institution

Deze samenvatting bevat alle stof die je nodig hebt om het vak "Beschrijvende en Inferentiële Statistiek" te halen. Het document is voorzien van afbeeldingen, voorbeeldvragen en duidelijke uitleg van de stof. Het document bestaat uit veel pagina's, maar dit is nodig om het vak volledig te kunnen b...

[Show more]

Preview 6 out of 58  pages

  • June 5, 2018
  • 58
  • 2017/2018
  • Summary

1  review

review-writer-avatar

By: katharinalopezkuhlen • 5 year ago

avatar-seller
Beschrijvende en Inferentiële Statistiek (BIS)

Hoorcollege 1: H2 Beschrijvende univariate statistiek

Kwantitatief onderzoek ligt aan de basis van beschrijvende en inferentiële statistiek,
maar wat is statistiek precies? ​Statistiek​ gaat over de methoden om gegevens te
verzamelen, bewerken, interpreteren en presenteren. Die gegevens noemen we
data die je hebt verkregen door het uitvoeren van je onderzoek (Dit kunnen
bijvoorbeeld enquêtes/surveys geweest zijn). Het ​ultieme doel ​van statistiek is door
middel van data kennis vergaren over de wereld om ons heen.

Bij statistiek horen verschillende termen. De term die het vaakst terugkomt en erg
belangrijk is, is​ significantie. ​Hiermee wordt vaak de significante afwijking bedoeld.
Als iets significant afwijkt wil het zeggen dat het niet een toevallige afwijking is, maar
daadwerkelijk anders dan de rest van de data. Een goed beeld kun je hierbij krijgen
kijkend naar de zetels in het politieke systeem. Daarbij bestaat er een​ foutmarge​, dit
is waartussen de uitkomst(en) van de data kunnen (mogen) zitten.

Wanneer een partij in zetels zakt, kan dit toevallig zijn wanneer het binnen deze
foutmarge of ook wel ​onzekerheidsmarge​ genoemd zit. Wanneer dit niet het geval
is, is er sprake van een ​significante afwijking​.

Voorbeeld van een foutmarge: Bij een peiling met 2000 respondenten is de
foutmarge ongeveer 5 zetels (voor een partij met ongeveer 29 zetels). Die partij kan
dus in werkelijkheid een steun hebben van tussen 27 en 31 zetels. Valt een
waarneming buiten deze foutmarge, dan is de kans groot dat er sprake is van een
significante afwijking.

Statistiek wordt onderscheiden in twee soorten. Dit zijn de:
Beschrijvende statistiek​: Samenvatting van de verkregen data. “De gemiddelde
Nederlander vindt dit”. Of je rekent een gemiddelde uit en meer niet.
En de ​Inferentiële statistiek​: Uitspraken en voorspellingen doen over hele populatie
op basis van de verkregen data (steekproef). Hierbij wil een onderzoeker verder
gaan dan alleen een samenvatting en wil hij ook voorspellen hoe de uitkomst voor
een grotere groep zou zijn. Vandaar ook dat inferentiele statistiek is gebaseerd op
het werkwoord ​to infer​, wat iets concluderen uit of opmaken uit betekent.

De ​Terminologie​ is de studie naar termen die ook terugkomen in het boek. “​sample
statistic​” betekent wat je feitelijk hebt ondervraagt (Je hebt bijvoorbeeld 100

,mensen ondervraagt). En “​population parameter​” is de waarde van de populatie
waarover je uitspraak wil doen.

Bij inferentiële statistiek wordt er constant gekeken naar de sample. Je kunt nu
natuurlijk niet elke Nederlander een vragenlijst opsturen, daarvoor worden er tactisch
mensen uit regio’s gevraagd om mee te doen (​sampling frame​). Hieruit wordt er
constant een sprong gemaakt van de sample naar de statistiek om uitspraken te
kunnen doen over de hele bevolking (voorspellen).

Literatuur
- Agresti & Franklin: The Art and Science of Learning from Data. (3e editie,
2013). Je kunt ook de 4e editie gebruiken (2018).
- Van de Bunt: Reliability Analysis (college 3). Dit hoofdstuk is beschikbaar op
Canvas, zie literatuur.

Beschrijvende univariate statistiek
Hierbij wordt er maar van 1 variabele gebruikt gemaakt en dus niet van allerlei
combinaties (= univariaat). Hierbij wordt er gekeken naar:
- Meetniveau van variabelen
- Centrale tendentie (gemiddelde, mediaan, modus)
- Verdeling (histogram, barchart)
- Spreidingsmaten (standaarddeviatie, variantie)

Het boek maakt de volgende twee contrasten:
- Categorisch: ​Is een variabele een categorie/kenmerk waar we niet zoveel
mee kunnen, zoals lievelingskleur?. Je kunt dit een getal geven maar dit
betekent niet zo veel en heeft geen relatie tot elkaar qua berekening. De
statistiek is daarin dus beperkt. ​Kwantitatief: ​Of is het een getal waar we
mee kunnen rekenen of wiskundige verbanden mee kunnen leggen?
- Discreet​: Vaste waarden die niet achter de komma kunnen voorkomen, zoals
aantal auto’s, mensen of dakramen. ​Continu​: Waarden die wel achter de
komma kunnen, zoals kilo’s, lengte, tijd en leeftijd.

Hier volgt een betere definitie van​ categorische variabelen​: Deze hebben als
waarden geen getallen, maar alleen kenmerken of categorieën. Bijv: geslacht,
nationaliteit, religie, opleidingsniveau. Deze Categorische variabelen kunnen we
weer onderverdelen in 2 soorten: ​Nominaal​ (geen rangordening mogelijk) en
Ordinaal​ (wel rangordening mogelijk).

Nominaal​ is eigenlijk hetzelfde als categorisch. De variabele heeft
meerdere groepen, maar er is geen rangordening. Bijv: nationaliteit, religie,
studierichting. Je kunt de verschillende groepen aanduiden met een kleur, letter of

,symbool. Maar ook met een getal. Een “speciaal geval” van een nominale variabele
is ​dichotoom​ (​dummy variabele​): 0/1 kenmerk. Bijv: geslacht, aangezien er maar 2
uitkomsten mogelijk zijn, man of vrouw. Je kunt dan de variabelen altijd
terugbrengen tot een 0/1 dichotomie.




Ordinaal​: De groepen hebben een rangordening, maar geen vaste afstand. Bijv:
rangen in het leger, opleidingsniveau (vmbo, havo, vwo). Hier wordt mee bedoeld
dat het niet betekent dat de stap van vmbo naar havo even groot is als de stap van
havo naar vwo. Daarom worden ordinale variabelen worden soms voor het gemak
als kwantitatief behandeld, dus dat er wel vanuit wordt gegaan dat het gelijke
afstanden zijn.

Kwantitatief (interval/ratio): ​Dit zijn variabelen die als waarde getallen aannemen.
Bijv: leeftijd, gewicht, inkomen. Hierbij worden de twee soorten ​discreet ​en​ continu
onderscheiden.

Het onderscheid tussen meetniveaus is belangrijk, omdat ze verschillende
rekenkundige/statistische operaties toestaan.

,Is de variabele (1) nominaal, (2) ordinaal of (3) interval/ratio?
- Hoeveelheid groente (in gram) dat je per dag eet: ​Interval/ratio
- Kledingmaat (S, M, L, XL): ​Ordinaal
- Aantal keer dat je per jaar naar de kapper gaat: ​Interval/ratio
- De studierichting die je volgt (CW, SOC, POL, B&O, CAO): ​Nominaal




Hierboven is een SPSS dataset weergeven. Je ziet dat er 5 personen werden
onderzocht, dit zijn dus de ​analyse-eenheden​ ofwel​ cases​.

Centrummaten
- Gemiddelde (M)
- Mediaan (Md) is het middelste getal van de waarneming (dataset)
- Modus is het vaakst voorkomende getal in de dataset

Bij een gemiddelde hoort een verwachting wanneer je geen data hebt en dus moet
gokken wat het gemiddelde zou kunnen zijn. De formule hiervan (net zoals alle
formules) staat op het formuleblad.

Bij de mediaan kijk je dus naar het middelste getal, wanneer dit een oneven rij
getallen is, is de middelste er direct uit te halen, bij een even aantal pak je het
gemiddelde van de middelste 2 waarnemingen. Je hebt bijvoorbeeld 10
waarnemingen, de 5e en de 6e waarneming zijn respectievelijk 100 en 110 wat
betekent dat de mediaan 105 is.

Bij ordinale metingen kunnen we gaan tot de mediaan, aangezien dat het enige
ietwat nuttige is bij deze meting.

,De verdeling (​distribution​) van de data is ook belangrijk. Als het gemiddelde op een
6,5 zit, kan de verdeling tussen de 6 en de 7 zitten, maar ook tussen 4 of 9… Dit is
belangrijk en waardevol om te weten om bijvoorbeeld ook een inschatting te maken.
Bij een 6-7 verdeling is deze inschatting veel nauwkeuriger.




In het voorbeeld op slide 39 zijn de 559 shark attacks de cases of analyse-eenheden
en zijn de verschillende regio’s de ​variabelen​. Je ziet hierbij het ​absolute​ en het
relatieve​ aantal. Absoluut is de werkelijke frequentie, en relatief is het absolute getal
delen door het totaal aantal (​proportie​ x 100 geeft het ​percentage​). Deze proportie
ligt altijd tussen de 0 en 1 en is bij elkaar opgeteld altijd 1 (oftewel 100%).

Een​ staafdiagram​ of ​bar chart​ bevat witte ruimte tussen de staafjes, zo kun je zien
dat het een staafdiagram is. Dit is zo gedaan omdat een stap van de ene naar de
andere variabelen niet een inhoudelijke stap is, ze hebben geen invloed op elkaar en
zijn dus losstaand. Een ​histogram​ daarentegen heeft geen ruimte tussen de
balkjes, omdat de variabelen kwantitatief (interval/ratio) zijn waardoor de stap wel
inhoudelijk met elkaar te maken hebben, de stap is namelijk steeds even groot en
dus hetzelfde. Een regio bijvoorbeeld is categorisch en moet als staafdiagram, en
een aantal doden is kwantitatief en dus moet het in een histogram gevormd worden.

, Het unimodale model biedt meer zekerheid aangezien het gemiddelde veel
duidelijker en precies is aangegeven, terwijl er bij een bimodale model sprake is van
een minder nuttige verdeling wat dus een vertekend beeld kan geven.

Bij een unimodale verdeling bestaat er ​skewed to right​ (skied to the right, rechts is
het steiler) en ​skewed to left​ (skied to the left, links is het steiler). Dit laat zien waar
de meerderheid van de waarnemingen of data zitten. De steile kant gaat het snelst
omlaag wat betekent dat de frequentie daar lager is, en er dus aan de andere kant
meer waarnemingen of data zijn. Skewed to the right is meestal zo iets als
inkomensverdeling huishoudens, en skewed to the left is meestal zo iets als
levensverwachting (in welvarende landen natuurlijk).

Bij deze verdelingen is er mogelijk sprake van een ​outlier​. Dit is wanneer 1 of
enkele van de waarnemingen extreem afwijkt van de rest van de waarnemingen.
Hiervoor moet je opletten tijdens je onderzoek omdat dit de uitkomsten zoals het
gemiddelde (deze is het gevoeligst voor outliers) sterk kan beïnvloeden.

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

Quick and easy check-out

You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller DeniVu. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $7.56. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

67096 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy study notes for 14 years now

Start selling
$7.56  11x  sold
  • (1)
  Add to cart