Samenvatting

Samenvatting Inleiding Data Analyse. Samengevoegd: online lesmateriaal, Piraten/perziken/p-waarden, Discovering Statistics using IBM

105 keer bekeken 8 keer verkocht

Instelling
Open Universiteit (OU)

Deze samenvatting bevat alle informatie die nodig is voor het tentamen Inleiding Data-analyse aan de OU. Om de stof goed te gebruiken is er gebruikt gemaakt van een extra boek:Piraten, perziken en p-waarden van Vince Penders. In de samenvatting staan ook tabellen met de commando's voor SPSS.

[Meer zien]

Voorbeeld 4 van de 51 pagina's

Bekijk voorbeeld

Heel boek samengevat? Ja
Geupload op 23 februari 2021
Aantal pagina's 51
Geschreven in 2019/2020
Type Samenvatting

statistiek
inleiding data analyse
ou
samenvatting
piraten perziken p waarden
discovering statistics using ibm

Appels en Peren statistiek

• De afhankelijke variabele
De afhankelijke variabele is de variabele waarover je een voorspelling doet of de uitkomst
van je meting. Een voorbeeld is intelligentie. Je kunt dan onderzoeken welke factoren
(onafhankelijke variabelen) invloed hebben op intelligentie (de afhankelijke variabele).
• De onafhankelijke variabele
De onafhankelijke variabele is een factor waarvan je gaat meten of deze een verandering
veroorzaakt bij de afhankelijke variabele. Als men bijvoorbeeld een onderzoek wilt doen over
de invloed van het drinken van alcohol op tentamenresultaten, is de onafhankelijke variabele
de hoeveelheid alcohol en de afhankelijke variabele het tentamenresultaat.

Hoofdstuk 2

Meetniveaus:
• Nominaal, is algemeen categorisch: Er zit in deze antwoorden geen rangorde, het zijn
gelijkwaardige categorieën. Denk aan smaak ijsje, man/vrouw, politieke overtuiging,
nationaliteit.
➔ Een variabelen met 2 categorieën heet dichotoom.
• Ordinaal, categorisch maar met duidelijke rangorde. Welk grootte bakje/hoorntje, opleiding,
gezondheid etc.

• Interval, kwantitatief. Denk aan graden ijsje, schoolcijfer,
IQ.
• Ratio, kwantitatief. Maar dan met een nulpunt zoals
gewicht, hoeveel bolletjes ijs.

Voor grafieken en tabellen hiervoor zie blz 29 van boek.

2.1
Variatie = Uitreken wat elk datapunt verschilt van het
gemiddelde. En dat dat datapunt vermenigvuldigen door het verschilpunt. Dit bij elkaar opgeteld
maakt de variatie.
Variantie= Variatie/ (aantal N – 1) Die is 1 is gewoon zo.
Standaarddeviatie= De wortel van de variantie. Dit zegt dus
bijvoorbeeld: gemiddeld wijkt het aantal bolletjes ijs dat de klanten
bestelden met 1.94 bolletjes af van het gemiddelde.
➔ De gemiddelde afwijking van het gemiddelde.

Vijfgetallensamenvatting bestaat uit:
- De laagste score
- Q1
- Q2 mediaan
- Q3
- De hoogste score

De getallen zijn hier rechtsonder geplaatst in een boxplot ->
Je kan ervoor kiezen de uitschieters niet mee te nemen met een bepaalde berekening. Namelijk:
Het mag niet minder zijn dan door Q1 – (1,5 * IQR)
En het mag niet meer zijn dan Q3 + (1,5* IQR)

,Appels en Peren statistiek

2.2
Modaliteit:
- Een top: unimodaal
- Twee top: Biomodaal. Laat vaak zien dat de populatie uit twee subpopulaties bestaat. Denk
aan lengte, je hebt mannen en vrouwen.

Scheefheid/Skewness:
- Symmetrische verdeling wordt de Bellcurve/normaalverdeling
- Asymmetrisch heb je twee vormen:
• Links scheve, laagste ligt links oftewel negatief
• Rechts scheve, laagste ligt rechts oftewel positief

Spitsheid
- Bijzonder spits is leptokurte verdeling
- Een platte is platykurte

Normaalverdeling: Kan dus op de x-as allerei variabelen hebben
Een symmetrische, eentoppige/unimodale verdeling, waarbij het gemiddelde, de mediaan en de
modus allemaal gelijk zijn, en waarvoor geldt dat twee derde van de datapunten binnen één
standaarddeviatie van het gemiddelde ligt, en 95% binnen twee standaarddeviaties.

De empirische regels bij een normaalverdeling:
- 68% van de scores valt binnen +/- 1 standaarddeviatie van het (populatie)gemiddelde. (32%
(maakt 100) van de scores liggen meer dan 1 standaarddeviatie links of rechts van het
gemiddelde (16% links en 16% rechts).
- 95% van de scores valt binnen +/- 2 standaarddeviaties van het (populatie)gemiddelde.
- 99,7% van de scores valt binnen +/- 3 standaarddeviaties van het (populatie)gemiddelde.

Voor alle, behalve uitzonderlijk kleine, steekproeven geldt dat de steekproevenverdeling van het
gemiddelde normaal is verdeeld. Dit fenomeen heet de
centrale limietstelling

Als een gegeven steekproefgemiddelde in het 95% interval
rondom het populatiegemiddelde valt, dan moet het
populatiegemiddelde ook in het 95% interval rondom dat
steekproefgemiddelde vallen. En vice versa: als het
populatiegemiddelde in het 95% interval rond het steekproefgemiddelde valt, dan moet dat
steekproefgemiddelde ook in het 95% interval rondom de populatie vallen. Dat interval is een
indicatie voor hoe goed we het gemiddelde in de populatie kunnen schatten met behulp van een
steekproef.

Z-score: Heeft op de x-as standaard z-scores
Z-verdeling is ook wel standaardnormale verdeling

,Appels en Peren statistiek

De datapunten heten hier z-scores en hebben een gemiddelde van 0 en een standaarddeviatie van 1.
Je ziet dus gelijk hoeveel standaarddeviaties het van het gemiddelde af ligt. Bij de z-verdeling gelden
dezelfde regels:
- 68% van de scores valt binnen +/- 1 standaarddeviatie van het (populatie)gemiddelde. (32%
(maakt 100) van de scores liggen meer dan 1 standaarddeviatie links of rechts van het
gemiddelde (16% links en 16% rechts).
- 95% van de scores valt binnen +/- 2 standaarddeviaties van het (populatie)gemiddelde.
- 99,7% van de scores valt binnen +/- 3 standaarddeviaties van het (populatie)gemiddelde.

Voorbeeld: standaarddeviatie van 2, zegt dus dat het 2 van het gemiddelde afligt. Dus 2,5% is er nog
meer afwijkend want: 95% maar met 5% honderd, dus 5% delen door 2 ivm R en L maakt 2,5%.
Rekenen met Z-scores:
= alles scores op een bepaalde schaal omzetten in een andere schaal, maar betekenis scores blijft
hetzelfde. De truc van Z is dat we de schaal een gemiddelde van 0 geven, en een standaardafwijking
van 1. De algemene formule staat in schrift, 1 voor populatie en 1 voor steekproef.

Z-scores geven aan hoeveel standaardafwijkingen een meting boven of onder het gemiddelde
heeft gescoord.

Het omrekenen van datapunten naar z-scores wordt standaardisering genoemd.
• Door te standaardiseren is het gemakkelijk van elk datapunt te zien hoe het zich verhoudt tot
de gehele datareeks, zoals samengevat door het gemiddelde en de standaarddeviatie.
• Een tweede voordeel van z-scores is dat als de datareeks normaal verdeeld is, deze
standaardisering ons nog meer informatie geeft over hoe extreem een gegeven datapunt is
omdat we ongeveer weten welke proportie van de datapunten verder van het gemiddelde af
ligt.
• Bovendien zijn gestandaardiseerde datapunten vergelijkbaar met gestandaardiseerde
datapunten uit andere datareeksen, zelfs als datareeksen verschillende variabele betreffen
die op verschillende schalen zijn gemeten. De deling door de sd verwijdert immers de schaal
informatie uit de datareeks en vertaalt elke datareeks naar dezelfde schaal waarbij 1 staat
voor één sd.

Belangrijk!! Als datapunten zijn ongerekend naar z-scores wil dit niet zeggen dat ze dan gelijk een z-
verdeling/normaal verdeling hebben.

Histogrammen
Een histogram is een grafische weergave van een reeks datapunten. In een histogram wordt de
verdeling van de betreffende variabele zichtbaar gemaakt, en kan dus bijvoorbeeld worden
vastgesteld of die variabele normaal is verdeeld, of dat hij multimodaal , linksscheef , en/of
rechtsscheef is. Een histogram is een bruikbaar hulpmiddel om een beeld te krijgen van de verdeling
en de verdeling vorm van de datapunten in een datareeks. In een histogram correspondeert de x-as
met de schaal van de datareeks. Hoogte van de balkjes op de x-as staat voor het aantal datapunten
met die waarde (dit is de dichtheid)

VISUELE HULPMIDDEL OM EEN INDRUK TE KRIJGEN VAN DE VERDELING VAN EEN DATAREEKS:

- Density plot= Rekenen hoeveel iets binnen totale data valt.
Density plots is een bepaald soort grafiek, in het Nederlands dichtheidsfunctie. Density plots zijn
grafieken -> De vloeiende lijn van deze plot geeft de dichtheid van de verdeling aan, oftewel hoeveel

, Appels en Peren statistiek

datapunten er voor een gegeven meetwaarde zijn. Anders dan een histogram, heeft een density plot
altijd een oppervlakte van 1, oftewel 100%.

Het drukt uit hoeveel datapunten ergens zitten ten opzichte van het totale aantal datapunten.
Density plots kunnen over een histogram getekend worden.

- Q-Q-plot= Kan je zien of afwijkt van normaal verdeling.
Een ander bruikbare informatiebron is de zogenaamde Q-Q-plot. In deze grafiek worden
kwantielen geplot. Kwantielen zijn een soort ‘breekpunten’ om een datareeks in gelijke delen te
splitsen. De mediaan is dus een voorbeeld van een kwantiel: de mediaan splitst de datareeks
precies in twee even grote delen. Andere kwantielen die we al zijn tegengekomen zijn de drie
kwartielen (die de dataset precies in vier delen splitsen).

De Q-Q-plot zet de geobserveerde kwantielen op de ene
as en de theoretische kwantielen die je zou verwachten
als de datareeks normaal zou zijn verdeeld op de andere
as
(welke op de X-as en welke op de Y-as staan, wisselt per
programma).
Hierdoor geldt dat als een datareeks normaal verdeeld is, de kwantielen allemaal op een
diagonale lijn liggen. Als een datareeks niet normaal is verdeeld, wijken de stipjes van de
diagonale lijn af.

- Boxplots
In een boxplot worden, net als in de Q-Q-plot, kwantielen geplot. In de boxplot worden
echter alleen de drie kwartielen geplot, samen met het minimum en het maximum.
Bovendien worden datapunten die outliers zouden kunnen zijn visueel weergegeven, wat
helpt bij het vaststellen of er outliers zijn. Dit betekent ook dat de waarden die voor
minimum en het maximum worden geplot, eigenlijk het minimum en het maximum zijn als
die mogelijke outliers buiten beschouwing worden gelaten. In de boxplot verbindt een
verticale lijn het minimum en maximum en hier overheen staat een box waarvan de boven-
en onderkant worden bepaald door het derde en eerste kwartiel. In die box staat een
horizontale streep om de mediaan aan te geven. Outliers worden aangegeven door middel
van stipjes die in het verlengde van de verticale lijn liggen.

Verdelingsmaten, kwantitatief
- Skewness= scheefheid
Linksscheef is negatief. Rechtsscheef is positief.
- Kurtosis = spitsheid
Platter is de waarde kleiner dus negatief. Spitser is groter getal
- Dip test = modaliteit
Hoe groter = hoe meer unimodaal Perfect normaal verdeelt heeft score van 0

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper esmeecarmen. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €4,79. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 67474 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen

Populaire Universiteiten

Populaire Hogescholen

Populaire Scholen

Populaire samengevatte studieboeken voor Communicatie en Taal

Populaire samengevatte studieboeken voor Economie en Bedrijf

Populaire samengevatte studieboeken voor Exact en Informatica

Populaire samengevatte studieboeken voor Gedrag en Maatschappij

Populaire samengevatte studieboeken voor Gezondheid en Geneeskunde

Populaire samengevatte studieboeken voor Onderwijs en Opvoeding

Populaire samengevatte studieboeken voor Recht en Bestuur

De beste samenvattingen om je Wft-diploma te behalen

De beste samenvattingen om je theorie examens te behalen

De beste samenvattingen voor je cursus in de Veiligheidsbranche

De beste samenvattingen voor Gezondheid & Hygiëne cursussen

De beste samenvattingen voor zakelijke cursussen

De beste samenvattingen voor je PABO WisCAT cursus

Populaire vakken

Populaire vakken

Populaire vakken

Boekverslagen en samenvattingen

Samenvatting

Samenvatting Inleiding Data Analyse. Samengevoegd: online lesmateriaal, Piraten/perziken/p-waarden, Discovering Statistics using IBM

Document informatie

Onderwerpen

Gekoppeld boek

Meer samenvattingen voor studieboek

Geschreven voor

Verkoper

Voorbeeld van de inhoud

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Snel en makkelijk kopen

Focus op de essentie

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Tevredenheidsgarantie: hoe werkt dat?

Van wie koop ik deze samenvatting?

Zit ik meteen vast aan een abonnement?

Is Stuvia te vertrouwen?