R-studio – Statistische redeneren
Indexeren ------------------------------------------------------------------------------------------------------------------------
Indexeren van een kolom/rij met [..] data[rij, kolom]
Speciefieke rij bekijken
- Kip46 = ChickWeight[ChickWeight$Chick == 46,] #alle waarde voor kip 46 indexeren
Groter dan/kleiner dan
- kip46dag10 = kip46[kip46$Time <=10,] #alle waardes voor alles gelijk aan of lager dan 10
rij/kolom/punt weg halen
- worpen[,-1] indexeert alles behalve kolom 1
alle kolomen in 1 keer bekijken
- unlist()
unlist(worpen[,-1])
1 rij/kolom uit de data laten zien
- na.omit(worpen[18,])
- laat gehele rij 18 zien
berekenen van mean met lastigere datasets----------------------------------------------------------------------------
gemiddeld aantal keer kop gegooid:
- mean(apply(worpen[,-1],1,sum, FUN = as.numeric))
- door 1 in de apply functie te zetten geef je aan het gemiddelde aantal keer dat 1
voorkomt te willen weten
- FUN = as.numeric hoeft niet maar nu kwam NA uit dus was het nodig
Data opschonen en aanpassen ---------------------------------------------------------------------------------------------
bepaalde waarde/woorden vervangen
- worpen[11,which(worpen[11,] == “kop”)] = “1”
- hiermee worden alle data punten met het woord “kop” op rij 11 vervangen door 1
opsporen van bepaalde waarden/woorden
- # identificeren van welke elementen "ja"/"nee" zijn
ind = which(worpen=="ja" | worpen=="nee", arr.ind = TRUE)
- #identificeren welke unieke rijen de afwijkende waardes staan
rijen = unique(ind[,1])
- Laat de data zien met afwijkende waardes
worpen[rijen,]
nu krijg je een rij met data waar ja en nee staat i.p.v. 0 en 1 dus vervang je die weer op
bovenstaande manier
Opsporen welke data punten bepaalde woorden/waarde niet zijn
- # identificeer welke elementen niet 0 of 1 zijn
ind = which(!(worpen[,-1] == 0 | worpen[,-1] == 1), arr.ind=TRUE)
- # identificeer in welke unieke rijen de afwijkende waardes staan
rijen = unique(ind[,1])
- # laat de data zien met afwijkende waardes
worpen[rijen,]
Opsporen van ontbrekende data
- complete.cases(worpen)
- #rijen met NA's (ontbrekende data) verwijderen
bioStabiel = bioStabiel[complete.cases(bioStabiel),]
, - Als je kolommen met ontbrekende data wilt verwijderen zet je complete.cases(data) na
de komma
data numeriek maken
- worpen[,-1] = apply(X = worpen[,-1], MARGIN = 2, FUN = as.numeric)
- met FUN = as.numeric geef je aan dat de punten numeriek zijn (in deze data 0 en 1)
- met de apply() functie kun je dit soort aanpassingen aan een data set geven
- Met MARGIN = 2 geef je aan dat er een marge is van 2 antwoorden/uitkomsten (hier
namelijk 0 en 1)
Gehele rijen herschrijven:
- worpen[44,]=c("s44",1,1,1,1,0,0,0,0,0,0)
- hierin herschrijf je rij 44 (hierbij begint de rij met ss44 dus die hoef je bij andere data niet
neer te zetten)
1 specifiek punt herschrijven
- worpen[4,7] = 1
#data punt rij 4, kolom 7 wordt nu 1
rijen verwijderen uit data
- compleet <- worpen[-c(18,58),]
#haalt rij 18 en 58 uit de data
alle labels van condities veranderen (bv van 1, 2 en 3 naar controle etc.)
- alcoholrijden$cond = factor(alcoholrijden$cond, labels = c("controle","0.2 prom","0.6
prom"))
nummers van proefpersonen toevoegen aan data set
- alcoholrijden$ppn = factor(1:nrow(alcoholrijden))
Data bekijken--------------------------------------------------------------------------------------------------------------------
kijken hoeveel rijen en hoeveel kolommen dataset heeft
- dim(data)
#geeft eerst aantal rijen en als tweede aantal kolommen
- Length(data)
#geeft alleen aantal kolommen
Kijken welke waarde onder 0 is
- which(data$score<0)
Plotten ----------------------------------------------------------------------------------------------------------------------------
hist() is een histogram maken
- main= '..' is het instellen van de titel van het histogram
- xlab= '..' is het aanpassen van de titel van de x-as
- ylim= c(..) is het aanpassen hoe lang de y-as moet
- las= 2 hierdoor gaan de waardes bij de x-as verticaal staan om ruimte te besparen
- breaks= 10 hierdoor zorg je dat er 10 staven in het histogram zitten
- col=c(2,4) de staven worden rood en donker blauw,
(1=zwart,3=groen,7=geel,5=lichtblauw,6=paars) kleuren kunnen ook door bv. "red"
neer te zetten
mozaiek plot -> mosaicplot(table,...)
staafdiagram -> barplot()
boxplot -> boxplot()
scatterplot-> plot(categorische variabele, numerieke variabele)