100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached
logo-home
Samenvatting Statistiek II $9.98
Add to cart

Summary

Samenvatting Statistiek II

2 reviews
 150 views  1 purchase
  • Course
  • Institution

Dit is een samenvatting aan de hand van de lessen van statistiek 2. Deze lessen worden gegeven door Marchant, Thierry. Op het einde van de samenvatting vind je ook nog enkele bijlages die handig kunnen zijn voor het examen. Zoals uitleg over de gaus-Markov assumpties en de effectgroottes als ook d...

[Show more]
Last document update: 3 year ago

Preview 6 out of 83  pages

  • March 20, 2021
  • March 20, 2021
  • 83
  • 2020/2021
  • Summary

2  reviews

review-writer-avatar

By: darkmantik • 3 year ago

review-writer-avatar

By: junevanmeirhaeghe • 3 year ago

avatar-seller
Statistiek II
Prof: Marchant
2020-2021




VOORPAGINA Pagina 1

,Hoofdstuk 0: Prolegomena




STATISITEK, PSYCHIOMETRIE, METHODOLOGIE


→ Het is de taak van de Methodologie om te bepalen hoe de steekproef samengesteld wordt en welk soort van onderzoeksdesign
het meest geschikt is om een antwoord te bieden op de onderzoeksvragen

→ Het is de taak van de Psychiometrie om Het is de taak van de Methodologie om te bepalen hoe de steekproef samengesteld
wordt en welk soort van onderzoeksdesign het meest geschikt is om een antwoord te bieden op de onderzoeksvragen.

→ Het is de taak van de Statistiek (beschrijvend of inductief) om met verschillende technieken de data te analyseren teneinde een
antwoord te kunnen formuleren op de vooropgestelde onderzoeksvragen.

> Beschrijvende statistiek = bestaat uit een aantal technieken om de gegevens (data, waarnemingen) in een steekproef te
beschrijven, te ordenen, te presenteren en samen te vatten.

> Inductieve statistiek = bestaat uit technieken om observaties (op het niveau van de steekproef) te veralgemenen naar de
populatie.


VARIABELEN
Variabele = een eigenschap die bij de elementen van een populatie of van een steekproef variëert.

> Kan numeriek zijn of niet numeriek, hangt af van de keuze die de onderzoeker maakt. Bv. Geslacht M/V kan worden
gecodeerd tot Geslacht 1/2

> Kan continu of discreet zijn; Als een variabele niet continu is dan is deze discreet.




MEETNIVEAUS

→ Absolute schaal. De variabele wordt gemeten door gewoon objecten (of mensen) te tellen. Bv. gezinsgrootte, klasgrootte,
aantal inwoners, enz. De meeteenheid is vast. Het nulpunt is vast. De variabele is discreet.


→ Ratioschaal. Om de variabele te meten moet je eerst een meeteenheid kiezen. Dan moet je het aantal meeteenheden tellen
tussen het te meten object en het vaste nulpunt. Bv. leeftijd, reactietijd, lengte, gewicht,oppervlakte, enz. De variabele is
continu.

→ Intervalschaal. Om de variabele te meten moet je eerst een meeteenheid en een referentiepunt kiezen. Dan moet je het aantal
meeteenheden tellen tussen het te meten object en het referentiepunt. De variabele is continu.

→ Ordinale schaal. Je kan de te meten objecten ordenen, maar je kan geen meeteenheid definiëren. De waarde van de
variabele bij een object is gewoon zijn plaats of rangnummer in de ordening. Bv. uitslag van een wielerwedstrijd, mate van
instemming met een bepaalde uitspraak (Likertschaal). De variabele kan continu of discreet zijn.


Hoofdstuk 0 Pagina 2

, → Nominale schaal. De te meten objecten kunnen niet geordend worden.bv. postcode, haarkleur, geslacht, enz. De variabele is
noch discreet noch continu. Inderdaad om te bepalen of een variabele discreet of continu is,moet je twee willekeurige
waarden kiezen en nagaan of er waarden ertussen liggen. Dit is onmogelijk indien je de waarden niet kunt ordenen. Binnen de
familie van de nominale variabelen onderscheidt men soms de dichtome variabelen, dat zijn variabelen die slechts twee
waarden kunnen aannemen (bv. gescheiden of niet). En als die twee waarden 0 en 1 zijn, dan spreekt men van 0-1
variabelen.



ZINVOLHEID
Een bewering of uitspraak is zinvol indien haar waarheidswaarde onafhankelijk is van de meetschaal die je gebruikt. M.a.w., indien
de bewering correct is met eenbepaalde schaal dan blijft ze correct met een andere schaal; indien de bewering fout is met een
bepaalde schaal dan blijft ze fout met een andere schaal.

Vb. Voorbeeld: de gemiddelde temperatuur in Gent in Februari is dubbel zo groot als in Helsinki. Stel dat deze bewering juist
is wanneer we de temperatuur in graden Celsius uitdrukken. Ze is fout indien we de temperatuur in gradenFahrenheit
uitdrukken. Deze bewering is dus zinloos.

Om zinloze beweringen te vermijden moet je voorzichtig zijn bij het manipulerenvan scores.

→ Bij nominale en ordinale variabelen mag je de scores niet optellen of met elkaar vermenigvuldigen of van elkaar aftrekken of
door elkaar delen. Dus geen gemiddelde, variantie, covariantie, correlatie, enz.

→ Bij variabelen van intervalmeetniveau mag je de scores optellen en uit elkaar aftrekken. De scores door elkaar delen of met
elkaar vermenigvuldigen is riskant. Logaritmes van scores zijn verboden. Je mag wel de afwijkingen (bv. x1 − x2 of xi − ¯x)
met elkaar vermenigvuldigen of door elkaar delen. Je mag ook de logaritme van een afwijking berekenen.

→ Bij variabelen van ratiomeetniveau zijn er bijna geenrestricties.

→ Bij variabelen van absoluut meetniveau is er geen restrictie.




Hoofdstuk 0 Pagina 3

,Hoofdstuk 0 Pagina 4

,Hoofdstuk 1: DATA MANIPULATIE
DATA IN R

→ VECTOREN AANMAKEN = leeftijd < - c (18, 22, 17, 19, 19 )
> Het commando c (18, 22, 17, 19, 19) creëert een object dat bestaat uit vijf getallen en het pijltje ‘ <- ’ kent de naam leeftijd
toe aan dit object. Het object ‘leeftijd’ wordt in het geheugen van R gestopt en kan achteraf gebruikt worden.
> leeftijd > max(leeftijd)
[1] 18 22 17 19 19 [1] 22
> mean(leeftijd) > median(leeftijd)
[1] 19 [1] 19
> length(leeftijd) > leeftijd[1]
[1] 5 [1] 18
> min(leeftijd) > leeftijd[2]
[1] 17 [1] 22

R EN DE MEETNIVEAUS

Een string is een reeks tekens. Bv. Statistiek, intrinsieke motivatie, ABC1$ en 2018 zijn allemaal strings. Maar deze laatste string
kan ook geïnterpreteerd worden als een getal en niet zomaar als een reeks van vier tekens zonder betekenis.
Om verwarringen te vermijden moet je strings altijd tussen aanhalingstekens aan R doorgeven. Bv.

> roker <- c("ja", "neen", "ja")
> postcode <- c("9000", "2500", "8400")

Als je een vector aanmaakt met het commando

> roker <- c("ja", "neen", "ja")

dan weet R automatisch dat de drie waarden van de variabele roker van ordinaalof nominaal meetniveau zijn: R weet dat strings
niet numeriek zijn. Als je R vraagt om het gemiddelde van de vector te berekenen, dan krijg je een foutmelding.

Let dus op wanneer je een vector aanmaakt van tramnummers in Gent met het commando
tramnummer <- c(1, 21, 22, 4, 22, 21, 1, 4), dan kan R niet weten dat die getallen de waarden van een nominale variabele zijn.
Als je R vraagt om het gemiddelde van de vector te berekenen, dan krijg je geen foutmelding:

> mean(tramnummer)
[1] 12

Ipv. " " te gebruiken kan je ook volgende notering gebruiken. Deze is explicieter en wordt aangeraden.

> tramnummer <- factor( c(1, 21, 22, 4, 22, 21, 1, 4) )

Als je hier de mean ( mediaan) gaat berekenen zal je opnieuw een foutmelding verkrijgen.

Als je de naam van de vector typt, dan krijg je de vector te zien, maar ook de lijst van de verschillende waarden in de vector. Die
waarden worden “levels” genoemd in het R jargon.
> tramnummer
[1] 1 21 22 4 22 21 1 4
Levels: 1 4 21 22

Als je een vector wil aanmaken met waarden van een ordinale variabele, dan gebruik je ook het commando factor maar je gebruikt
bovendien de argumenten levels en ordered. Voorbeeld: je wil een vector aanmaken met de uitslagen van een groep atleten.
Je gebruikt dit commando:

> uitslag <- factor( c("brons", "goud", "goud", "brons", "zilver",
"brons", "brons", "brons"), levels = c( "brons", "zilver", "goud" ),
ordered = TRUE)

Via het commando levels krijg je de verschillende waarden die de variabele kan aannemen. Als er naast levels ook nog eens
ordered= TRUE staat, dan wil dit zeggen dat de variabele vanordinaal meetniveau is. Op die manier kan je ordinale variabelen
herkennen op basis van R output.



Hoofdstuk 1 Pagina 5

, Een functie is een term gevolgd door haakjes en datgene wat tussen haakjes staat noemen we argumenten.
Bijvoorbeeld Tramnummer <- c(1,21,22).
Tramnummer is de functie of vector met als bijhorende argumenten 1/ 21/ 22.

Als je de naam van de vector typt, dan krijg je de vector te zien, maar ook de lijst van de levels en hun volgorde. Voor sommige
analyses is het belangrijk dat R de volgorde van de levels kent.
> uitslag
[1] brons goud goud brons zilver brons brons brons
Levels: brons < zilver < goud


DATA FRAMES

We gebruiken een fictief voorbeeld met 8 variabelen waargenomen in een steekproef van n = 30 FPPW studenten. De variabelen
zijn
→ score – score op het examen statistiek II
motivatie – gemeten op een Likert schaal van 1 (zeer laag) tot 7 (zeer hoog)
geslacht – geslacht van de student: man of vrouw
roken – de student rookt regelmatig: ja of neen
opleiding – psychologie, pedagogische wetenschappen, sociaal werk
gewicht – gewicht van de student in kg
lengte – lengte van de student in cm

We gaan de data voor dit voorbeeld in R stoppen. Met het commando ‘c’, maken we een vector aan met de scores van de
studenten en we geven deze vector de naam score.

> score <- c(16, 10, 11, 14, 8, 18, 13, 9, 11, 10, 5, 14, 11, 11,0, 18, 19, 18, 9, 6, 4, 18,
9, 20, 3, 6, 11, 6, 16, 18)

We gebruiken het commando ‘data.frame’ en tussen haakjes de naam van de 8 vectoren. We geven de naam myData aan deze
data frame.

> myData <- data.frame(score, iq, motivatie, geslacht, roken,
opleiding, gewicht, lengte)

Als je nu typt‘myData’ dan krijg je een mooi overzicht van de input
Indien je een specifieke kolom van myData wilt raadplegen dan typ je gewoon myData gevolgd door ‘$’ en de naam van de
variabele.
> myData$gewicht
[1] 69 64 96 76 78 75 74 51 80 76 88 73 83 86 73
[16] 67 53 64 90 67 48 59 46 59 80 104 53 82 61 69

We doen hetzelfde met het geslacht.
> myData$geslacht
[1] V V V M M V V V M M M V V V V M V M M M M M V V V V V M M M
Levels: M V

Merk op dat R een extra regel output heeft geproduceerd: ‘Levels: M V’. De reden is simpel: R heeft begrepen dat de variabele
geslacht niet numeriek is en geeft de lijst weer van alle verschillende waarden (of niveaus) van deze variabele. Indien we het
gewicht van de tiende student willen weten, typen we

> myData$gewicht[10]
[1] 76

Met het commando ‘dim’ (dimensies) krijgen we de grootte van het data frame.

> dim(myData)
[1] 30 8

Dus dim(myData)[1] geeft de steekproefgrootte en dim(myData)[2] geeft het aantal variabelen. Een andere techniek om de
steekproefgrootte te raadplegen is

Hoofdstuk 1 Pagina 6

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

Quick and easy check-out

You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller sitta. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $9.98. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

52510 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy study notes for 14 years now

Start selling
$9.98  1x  sold
  • (2)
Add to cart
Added