Statistiek formules
Module 1
Gebruik van objecten
Naam mag enkel bestaan uit
- Letters
- Cijfers
- Een punt -> .
- Een underscore -> _
Naam mag niet bestaan uit
- Speciale namen die nodig zijn vr het functioneren vd R programmeertaal
o Bijvoorbeeld
▪ If
▪ Else
▪ NA
▪ TRUE
▪ FALSE
▪ …
Naam moet starten met een
- Letter
➔ !! Tweede symbool mag dan geen symbool zijn
- Punt
R is hoofdlettergevoelig!!!
Examenscore examenscore examenScore
Altijd een punt gebruiken en geen komma om getallen met decimale te noteren
Om te delen → / en niet :
Ronde haken: gaat altijd gepaard met een bepaalde functiec
Vierkante haken: gebruiken om een bepaalde plaats in de data op te vragen
Mogelijke logics operatoren
Betekenis Operator
Gelijk aan ==
Niet gelijk aan !=
Groter dan >
Kleiner dan <
Groter dan of gelijk aan >=
Kleiner dan of gelijk aan <=
En &
Of |
Voorbeeld
Vrouwen ouder dan 18 jaar met Leeftijd > 18 & nationaliteit != “Belg” & (woonplaats ==
niet-Belgische nationaliteit, die in “Leuven” | woonplaats == “Gent”
Leuven of in Gent wonen
,Introductie
Wat? Formule Voorbeeld
Vector maken n <- c( ) n <- (1, 5, 9, 20, 47, 58, 62)
Histogram zien Hist(n)
Commentaar toevoegen # …. # ik maak een histogram van vector n
Hulpfunctie Help( ) Help(hist)
?. ?hist
Grootste geheel getal dat floor( ) Floor(2.222)
kleiner dan of gelijk is aan a
Fundamenten van de R programeertaal
Wat? Formule Voorbeeld
Variabelen inhoud geven <- x -> 5
y -> “vijf”
Standaard formaat voor Numeric
getallen
Standaard formaat voor Character X = “a”
reeks symbolen Land = “België”
(letters, woorden, zinnen) Altijd aanhalingstekens gebruiken (““ en ‘‘ is hetzelfde)
Standaard formaat voor Logical TRUE - FALSE
boleaanse waarden 3 > 2 = TRUE
(waar, onwaar) 3 < 2 = FALSE
Datatype opvragen class( ) class(“abc”)
class(5)
class(TRUE)
Datatype nakijken is. ..( ) is.character(“abc”)
is.numeric(5)
Datatype aanpassen as. .. ( ) as.character(5)
as.logical(TRUE)
gewest <- as.character(gewest) => juiste manier!
Gemiddelde van een mean( ) mean(25:82)
variabele Gemiddelde van reeks getallen van 25 tot 82
Reeks getallen genereren seq( ) seq(32, 44)
Stapjes nemen by=. seq(32, 44, by=2)
Hoogste en laagste procent trim=. mean(25:82, trim=0.1)
verwijderen, getrimde je verwijdert hoogste en laagste 10%
waarde
Tip: Een kwantitatieve variabele moet numeric of integer zijn.
Een nominale variabele moet een character of factor zijn en een ordinale variabele een geordende
factor.
,Opvragen vn waarde op Vector. [ ] vector1[5]
bepaalde plaats vn vector waarde op plaats 5 van vector 1
vector2[ 5:9]
waarde op plaats 5 t.e.m 9 van vector 2
Ordinale variabele Ordered pol_par <- factor(pol, levels=c("PvdA", "Vooruit",
ordenen "Groen", "Open VLD", "CD&V", "Vlaams
Belang","NVA"), ordered = TRUE)
Nominale variabele Unordered
Factor Factor( ) Inkomen <- factor(c(“laag”, “hoog”, “gemiddeld”,
))
Uitkomstenverzamelijk levels( ) levels(inkomen)
opvragen
Kolommen van data data.frame( ) 1. ranking <- seq(1, 4)
ingeven 2. naam.politicus <- c("Alexander De Croo",
Daarvoor moeten ze elk een "Bart De Wever", "Tom Van Grieken",
waarde gekregen hebben "Connor Rousseau")
3. populariteitsscore <- c(13.2, 11.8, 5.3, 4.7)
4. data_frame_politici <- data.frame(ranking,
naam.politicus, populariteitsscore)
Variabele opvragen uit Naamdataframe Data_frame_politici$naam.politicus
dataframe $naamvnvariabele kijkcijfers["hoogste_kijkcijfer"]
Individuele elementen uit Naamdataframe Data_frame_politici[1,2]
dataframe selecteren [rij,kolom]
[rij, Data_frame_politici[1, “naam.politicus”]d
“naamvariabele”] Namen van kolom in quotes, rijnummer niet
Meerdere rijen en Naamdataframe data_frame_politici[c(1,2,3),c("naam.politicus",
kolommen selecteren [c( ), "populariteitsscore")]
c(“variabele”, rij 1, 2 en 3 vn variabelen naam.pol en popuscore
“variabele”)] OF
OF data_frame_politici[c(1,2,3),c(2,3)]
Naamdataframe
[c( ), c( , )]
Importeren van gegevens uit een bestand
File → import dataset → from tekst (Base) → klik op het databestand → open
Alles moet staan zoals hier
Link kopiëren uit de console en in script plakken
, Wat? Formule Voorbeeld
Dataset openen via view( ) view(ESS9BE)
functie
Enkel eerste 6 rijen head( ) head(ESS9BE)
van bepaalde output
Subset nakijken
Eerste 6 rijen van een head(naamdataset$ head(ESS9BE$pplfair, 50)
specifieke variabele naamvariabele,
bekijken aantallijnen)
x aantal eerste rijen head(dataset, x) head(EVS_WVS, 8)
van dataset
Aantal rijen en dim(naamdataset) dim(ESS9BE)
kolommen tegelijk
Aantal rijen nrow(naamdataset) nrow(ESS9BE)
hoe groot is de
steekproef?
Aantal kolommen ncol(naamdataset) ncol(ESS9BE)
Laatste 10 rijen tail(naamdataset) tail(ESS9BE)
opvragen
Gender gndr
Leeftijd agea
Selectie maken Subset( ) ESS9BE_selectie <- subset(ESS9BE, gndr == 1
Selecteren & agea <= 65)
EVS_WVS_bovengemidd_tevr <-
subset(EVS_WVS, A170 > 7.174192)
nieuwe variabele Dataset$nieuwe ESS9BE$leeftijd[ESS9BE$agea > 47.90713] <-
maken variabele[dataset$variabele "bovengemiddelde leeftijd"
><= waarde] <- ‘nieuwe
naam’
Selectie nakijken view(datasetselectie) view(ESS9BE_selectie[c(“agea”, “gndr”)])
- door [c(“agea”, “gndr”)]) toe te voegen:
commando bepertk tot kolommen agea en
gndr
Kleinste getal min( ) min(ESS9BE_selectie$agea)
Grootste getal max( ) max(ESS9BE_selectie$agea)
Met missende waarden:
max(ESS9BE$netustm, na.rm=TRUE)
Omgaan met missende waarden
voorgesteld als NA
Wat? Formule Voorbeeld
Missende waarden niet in na.rm=TRUE mean(x, na.rm=TRUE)
rekening brengen
Missende waarden als NA dataset$variabele[dataset ESS9BE$netustm[ESS9BE$netustm ==
aan geven $variabele == waarde van 6666] <- NA
de missing value] <- NA ESS9BE$evmar[ESS9BE$evmar > 2] <-
NA
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper lienejanssen. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €6,26. Je zit daarna nergens aan vast.