100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached
logo-home
Samenvatting Inleiding Data Analyse. Samengevoegd: online lesmateriaal, Piraten/perziken/p-waarden, Discovering Statistics using IBM $5.14   Add to cart

Summary

Samenvatting Inleiding Data Analyse. Samengevoegd: online lesmateriaal, Piraten/perziken/p-waarden, Discovering Statistics using IBM

 105 views  8 purchases
  • Course
  • Institution
  • Book

Deze samenvatting bevat alle informatie die nodig is voor het tentamen Inleiding Data-analyse aan de OU. Om de stof goed te gebruiken is er gebruikt gemaakt van een extra boek:Piraten, perziken en p-waarden van Vince Penders. In de samenvatting staan ook tabellen met de commando's voor SPSS.

Preview 4 out of 51  pages

  • Yes
  • February 23, 2021
  • 51
  • 2019/2020
  • Summary
avatar-seller
Appels en Peren statistiek

• De afhankelijke variabele
De afhankelijke variabele is de variabele waarover je een voorspelling doet of de uitkomst
van je meting. Een voorbeeld is intelligentie. Je kunt dan onderzoeken welke factoren
(onafhankelijke variabelen) invloed hebben op intelligentie (de afhankelijke variabele).
• De onafhankelijke variabele
De onafhankelijke variabele is een factor waarvan je gaat meten of deze een verandering
veroorzaakt bij de afhankelijke variabele. Als men bijvoorbeeld een onderzoek wilt doen over
de invloed van het drinken van alcohol op tentamenresultaten, is de onafhankelijke variabele
de hoeveelheid alcohol en de afhankelijke variabele het tentamenresultaat.


Hoofdstuk 2

Meetniveaus:
• Nominaal, is algemeen categorisch: Er zit in deze antwoorden geen rangorde, het zijn
gelijkwaardige categorieën. Denk aan smaak ijsje, man/vrouw, politieke overtuiging,
nationaliteit.
➔ Een variabelen met 2 categorieën heet dichotoom.
• Ordinaal, categorisch maar met duidelijke rangorde. Welk grootte bakje/hoorntje, opleiding,
gezondheid etc.

• Interval, kwantitatief. Denk aan graden ijsje, schoolcijfer,
IQ.
• Ratio, kwantitatief. Maar dan met een nulpunt zoals
gewicht, hoeveel bolletjes ijs.

Voor grafieken en tabellen hiervoor zie blz 29 van boek.

2.1
Variatie = Uitreken wat elk datapunt verschilt van het
gemiddelde. En dat dat datapunt vermenigvuldigen door het verschilpunt. Dit bij elkaar opgeteld
maakt de variatie.
Variantie= Variatie/ (aantal N – 1) Die is 1 is gewoon zo.
Standaarddeviatie= De wortel van de variantie. Dit zegt dus
bijvoorbeeld: gemiddeld wijkt het aantal bolletjes ijs dat de klanten
bestelden met 1.94 bolletjes af van het gemiddelde.
➔ De gemiddelde afwijking van het gemiddelde.

Vijfgetallensamenvatting bestaat uit:
- De laagste score
- Q1
- Q2 mediaan
- Q3
- De hoogste score


De getallen zijn hier rechtsonder geplaatst in een boxplot ->
Je kan ervoor kiezen de uitschieters niet mee te nemen met een bepaalde berekening. Namelijk:
Het mag niet minder zijn dan door Q1 – (1,5 * IQR)
En het mag niet meer zijn dan Q3 + (1,5* IQR)

,Appels en Peren statistiek




2.2
Modaliteit:
- Een top: unimodaal
- Twee top: Biomodaal. Laat vaak zien dat de populatie uit twee subpopulaties bestaat. Denk
aan lengte, je hebt mannen en vrouwen.

Scheefheid/Skewness:
- Symmetrische verdeling wordt de Bellcurve/normaalverdeling
- Asymmetrisch heb je twee vormen:
• Links scheve, laagste ligt links oftewel negatief
• Rechts scheve, laagste ligt rechts oftewel positief

Spitsheid
- Bijzonder spits is leptokurte verdeling
- Een platte is platykurte

Normaalverdeling: Kan dus op de x-as allerei variabelen hebben
Een symmetrische, eentoppige/unimodale verdeling, waarbij het gemiddelde, de mediaan en de
modus allemaal gelijk zijn, en waarvoor geldt dat twee derde van de datapunten binnen één
standaarddeviatie van het gemiddelde ligt, en 95% binnen twee standaarddeviaties.

De empirische regels bij een normaalverdeling:
- 68% van de scores valt binnen +/- 1 standaarddeviatie van het (populatie)gemiddelde. (32%
(maakt 100) van de scores liggen meer dan 1 standaarddeviatie links of rechts van het
gemiddelde (16% links en 16% rechts).
- 95% van de scores valt binnen +/- 2 standaarddeviaties van het (populatie)gemiddelde.
- 99,7% van de scores valt binnen +/- 3 standaarddeviaties van het (populatie)gemiddelde.

Voor alle, behalve uitzonderlijk kleine, steekproeven geldt dat de steekproevenverdeling van het
gemiddelde normaal is verdeeld. Dit fenomeen heet de
centrale limietstelling


Als een gegeven steekproefgemiddelde in het 95% interval
rondom het populatiegemiddelde valt, dan moet het
populatiegemiddelde ook in het 95% interval rondom dat
steekproefgemiddelde vallen. En vice versa: als het
populatiegemiddelde in het 95% interval rond het steekproefgemiddelde valt, dan moet dat
steekproefgemiddelde ook in het 95% interval rondom de populatie vallen. Dat interval is een
indicatie voor hoe goed we het gemiddelde in de populatie kunnen schatten met behulp van een
steekproef.

Z-score: Heeft op de x-as standaard z-scores
Z-verdeling is ook wel standaardnormale verdeling

,Appels en Peren statistiek


De datapunten heten hier z-scores en hebben een gemiddelde van 0 en een standaarddeviatie van 1.
Je ziet dus gelijk hoeveel standaarddeviaties het van het gemiddelde af ligt. Bij de z-verdeling gelden
dezelfde regels:
- 68% van de scores valt binnen +/- 1 standaarddeviatie van het (populatie)gemiddelde. (32%
(maakt 100) van de scores liggen meer dan 1 standaarddeviatie links of rechts van het
gemiddelde (16% links en 16% rechts).
- 95% van de scores valt binnen +/- 2 standaarddeviaties van het (populatie)gemiddelde.
- 99,7% van de scores valt binnen +/- 3 standaarddeviaties van het (populatie)gemiddelde.

Voorbeeld: standaarddeviatie van 2, zegt dus dat het 2 van het gemiddelde afligt. Dus 2,5% is er nog
meer afwijkend want: 95% maar met 5% honderd, dus 5% delen door 2 ivm R en L maakt 2,5%.
Rekenen met Z-scores:
= alles scores op een bepaalde schaal omzetten in een andere schaal, maar betekenis scores blijft
hetzelfde. De truc van Z is dat we de schaal een gemiddelde van 0 geven, en een standaardafwijking
van 1. De algemene formule staat in schrift, 1 voor populatie en 1 voor steekproef.

Z-scores geven aan hoeveel standaardafwijkingen een meting boven of onder het gemiddelde
heeft gescoord.

Het omrekenen van datapunten naar z-scores wordt standaardisering genoemd.
• Door te standaardiseren is het gemakkelijk van elk datapunt te zien hoe het zich verhoudt tot
de gehele datareeks, zoals samengevat door het gemiddelde en de standaarddeviatie.
• Een tweede voordeel van z-scores is dat als de datareeks normaal verdeeld is, deze
standaardisering ons nog meer informatie geeft over hoe extreem een gegeven datapunt is
omdat we ongeveer weten welke proportie van de datapunten verder van het gemiddelde af
ligt.
• Bovendien zijn gestandaardiseerde datapunten vergelijkbaar met gestandaardiseerde
datapunten uit andere datareeksen, zelfs als datareeksen verschillende variabele betreffen
die op verschillende schalen zijn gemeten. De deling door de sd verwijdert immers de schaal
informatie uit de datareeks en vertaalt elke datareeks naar dezelfde schaal waarbij 1 staat
voor één sd.

Belangrijk!! Als datapunten zijn ongerekend naar z-scores wil dit niet zeggen dat ze dan gelijk een z-
verdeling/normaal verdeling hebben.


Histogrammen
Een histogram is een grafische weergave van een reeks datapunten. In een histogram wordt de
verdeling van de betreffende variabele zichtbaar gemaakt, en kan dus bijvoorbeeld worden
vastgesteld of die variabele normaal is verdeeld, of dat hij multimodaal , linksscheef , en/of
rechtsscheef is. Een histogram is een bruikbaar hulpmiddel om een beeld te krijgen van de verdeling
en de verdeling vorm van de datapunten in een datareeks. In een histogram correspondeert de x-as
met de schaal van de datareeks. Hoogte van de balkjes op de x-as staat voor het aantal datapunten
met die waarde (dit is de dichtheid)

VISUELE HULPMIDDEL OM EEN INDRUK TE KRIJGEN VAN DE VERDELING VAN EEN DATAREEKS:

- Density plot= Rekenen hoeveel iets binnen totale data valt.
Density plots is een bepaald soort grafiek, in het Nederlands dichtheidsfunctie. Density plots zijn
grafieken -> De vloeiende lijn van deze plot geeft de dichtheid van de verdeling aan, oftewel hoeveel

, Appels en Peren statistiek

datapunten er voor een gegeven meetwaarde zijn. Anders dan een histogram, heeft een density plot
altijd een oppervlakte van 1, oftewel 100%.

Het drukt uit hoeveel datapunten ergens zitten ten opzichte van het totale aantal datapunten.
Density plots kunnen over een histogram getekend worden.

- Q-Q-plot= Kan je zien of afwijkt van normaal verdeling.
Een ander bruikbare informatiebron is de zogenaamde Q-Q-plot. In deze grafiek worden
kwantielen geplot. Kwantielen zijn een soort ‘breekpunten’ om een datareeks in gelijke delen te
splitsen. De mediaan is dus een voorbeeld van een kwantiel: de mediaan splitst de datareeks
precies in twee even grote delen. Andere kwantielen die we al zijn tegengekomen zijn de drie
kwartielen (die de dataset precies in vier delen splitsen).


De Q-Q-plot zet de geobserveerde kwantielen op de ene
as en de theoretische kwantielen die je zou verwachten
als de datareeks normaal zou zijn verdeeld op de andere
as
(welke op de X-as en welke op de Y-as staan, wisselt per
programma).
Hierdoor geldt dat als een datareeks normaal verdeeld is, de kwantielen allemaal op een
diagonale lijn liggen. Als een datareeks niet normaal is verdeeld, wijken de stipjes van de
diagonale lijn af.

- Boxplots
In een boxplot worden, net als in de Q-Q-plot, kwantielen geplot. In de boxplot worden
echter alleen de drie kwartielen geplot, samen met het minimum en het maximum.
Bovendien worden datapunten die outliers zouden kunnen zijn visueel weergegeven, wat
helpt bij het vaststellen of er outliers zijn. Dit betekent ook dat de waarden die voor
minimum en het maximum worden geplot, eigenlijk het minimum en het maximum zijn als
die mogelijke outliers buiten beschouwing worden gelaten. In de boxplot verbindt een
verticale lijn het minimum en maximum en hier overheen staat een box waarvan de boven-
en onderkant worden bepaald door het derde en eerste kwartiel. In die box staat een
horizontale streep om de mediaan aan te geven. Outliers worden aangegeven door middel
van stipjes die in het verlengde van de verticale lijn liggen.


Verdelingsmaten, kwantitatief
- Skewness= scheefheid
Linksscheef is negatief. Rechtsscheef is positief.
- Kurtosis = spitsheid
Platter is de waarde kleiner dus negatief. Spitser is groter getal
- Dip test = modaliteit
Hoe groter = hoe meer unimodaal Perfect normaal verdeelt heeft score van 0

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

Quick and easy check-out

You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller esmeecarmen. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $5.14. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

67474 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy study notes for 14 years now

Start selling
$5.14  8x  sold
  • (0)
  Add to cart