PDF-principe
#Packages laden
library(car)
library(moments)
#handmatige methode voor pakketten inladen => aanklikken
#R-bestand inladen
load(file.choose())
#handmatige methode R-bestand inladen => file → open file
#csv-bestand inladen
Naam <- read.csv2(file.choose())
#handmatige methode CSV-Data inladen => import Dataset → From tekst (base) → (settings ok?) → import
#Excell-bestand inladen
Import Dataset → From Excel → Browse → open → (settings aanpassen… Naam, character/numeric, NA…) → import
#Functies inladen
source(file.choose())
#handmatige methode functies inladen => file → open file → source
#dataset aanmaken
Variabele <- c(“A”, “B”, …)
Data <- data.frame(Variabele1, Variabele2,…)
#Dataset aanpassen naar enkel variabelen met Onderzoekersgegevens, zonder randinformatie
Data <- data.frame(Dataset$Variabele1, Dataset$Variabele2, …)
#aanmaken nieuwe variabele en toevoegen aan Dataframe volgnummers 1 tot 5000
Data$Variabele <- seq(1,500)
, #controleer dataset!!
str(Data)
summary(Data)
#herstructurering data
## STAP1 - Maak een dataset per filmpje
DataA <- data.frame(Data$Cluster, Data$Code, Data$Tijdsslot, Data$Variabele1A, Data$Variabele2A, …)
DataB <- data.frame(Data$Cluster, Data$Code, Data$Tijdsslot, Data$Variabele1B, Data$Variabele2B, …)
## STAP 2 - Geef de variabelen in beide datasets dezelfde namen
names(DataA) <- c("Cluster", "Code", "Tijdsslot", "Variabele1", "Variabele2", …)
names(DataB) <- c("Cluster", "Code", "Tijdsslot", "Variabele1", "Variabele2", …)
## STAP 3 - Voeg data van beide filmpjes samen (1 kolom/per observator)
Data_OV1 <- rbind(DataA, DataB)
## STAP 4 - Verwijder NA's (geen observatiemateriaal) uit de dataset
Data_OV1_Compleet <- Data_OV1[complete.cases(Data_OV1), ]
#juiste rijen en kolommen selecteren in dataset => voor komma rijen, na komma kolommen
Data_Nieuw <- Data[ (1:10) , (1:5) ]
#enkel kolommen en alle rijen
Data_Nieuw <- Data[ , (1:5) ]
#enkel rijen en alle kolommen
Data_Nieuw <- Data[ (1:10) , ]
#enkel kolommen selecteren met data variabelen => achter komma
ClusterA <- Data[ , c(2, 4, 6 )]
#enkel rijen selecteren van een bepaald tijdsslot => voor komma
#manier 1 (kan bij kleine dataset)
Tijdslot1 <- Data[ c(1:3), ]
#manier 2
Tijdslot_1_2 <- Data[which(Data$Variabele == “t1” | Data$Variabele == “t2”), ]
#Controle
table(Data$Tijdslot_1_2)
#specifieke kolommen verwijderen
Data_bewerkt <- Data[ , -c(1)]
#controleer of ze inderdaad uit dataset zijn
str(Data_bewerkt)
#EXTRA - hercoderen
Hercoderen naar factor /numeriek
is.factor(Data$Variabele) #true?
Data$VariabeleF <- as.factor(Data$Variabele)
Data$VariabeleN <- as.numeric(Data$Variabele)
#hercodeer je een (factor) variabele (en toevoegt aan het Databestand)
Data$Variabele.f <- recode(Data$Variabele, "1='Vlaanderen';2='Nederland'", as.factor = T)
#hercodeer je een variabele, maak je een ordening in de volgorde (bij factor)
Data$Variabele.f <- recode(Data$Variabele, "0:6='Goed'; 6:10='Zeer goed'", as.factor=T)
#Na hercoderen nakijken of juist gehercodeerd is!!!
table(Data$Variabele,Data$Variabele.f)
#Nakijken ordening (en aanpassen)
levels(Data$Variabele.f)
Data$Variabele.fo <- factor(Data$Variabele.f, ordered = T, levels = c('Goed','Zeer goed'))