Samenvatting

Samenvatting Rstudio formules statistiek

0 keer verkocht

Instelling
Katholieke Universiteit Leuven (KU Leuven)

Dit document heb ik gebruikt bij de examens van Rstudio. Resultaten: 0,72/1 - 0,91/1 - 0,86/1

[Meer zien]

Voorbeeld 4 van de 31 pagina's

Bekijk voorbeeld

Geupload op 9 augustus 2024
Aantal pagina's 31
Geschreven in 2023/2024
Type Samenvatting

€6,26

In winkelwagen

Opslaan

100% tevredenheidsgarantie
Direct beschikbaar na je betaling
Lees online óf als PDF
Geen vaste maandelijkse kosten

Statistiek formules
Module 1
Gebruik van objecten
Naam mag enkel bestaan uit
- Letters
- Cijfers
- Een punt -> .
- Een underscore -> _
Naam mag niet bestaan uit
- Speciale namen die nodig zijn vr het functioneren vd R programmeertaal
o Bijvoorbeeld
▪ If
▪ Else
▪ NA
▪ TRUE
▪ FALSE
▪ …
Naam moet starten met een
- Letter
➔ !! Tweede symbool mag dan geen symbool zijn
- Punt

R is hoofdlettergevoelig!!!
 Examenscore examenscore examenScore

Altijd een punt gebruiken en geen komma om getallen met decimale te noteren
Om te delen → / en niet :
Ronde haken: gaat altijd gepaard met een bepaalde functiec
Vierkante haken: gebruiken om een bepaalde plaats in de data op te vragen

Mogelijke logics operatoren
Betekenis Operator
Gelijk aan ==
Niet gelijk aan !=
Groter dan >
Kleiner dan <
Groter dan of gelijk aan >=
Kleiner dan of gelijk aan <=
En &
Of |
Voorbeeld
Vrouwen ouder dan 18 jaar met Leeftijd > 18 & nationaliteit != “Belg” & (woonplaats ==
niet-Belgische nationaliteit, die in “Leuven” | woonplaats == “Gent”
Leuven of in Gent wonen

,Introductie
Wat? Formule Voorbeeld
Vector maken n <- c( ) n <- (1, 5, 9, 20, 47, 58, 62)
Histogram zien Hist(n)
Commentaar toevoegen # …. # ik maak een histogram van vector n
Hulpfunctie Help( ) Help(hist)
?. ?hist
Grootste geheel getal dat floor( ) Floor(2.222)
kleiner dan of gelijk is aan a

Fundamenten van de R programeertaal
Wat? Formule Voorbeeld
Variabelen inhoud geven <- x -> 5
y -> “vijf”
Standaard formaat voor Numeric
getallen
Standaard formaat voor Character X = “a”
reeks symbolen Land = “België”
(letters, woorden, zinnen) Altijd aanhalingstekens gebruiken (““ en ‘‘ is hetzelfde)
Standaard formaat voor Logical TRUE - FALSE
boleaanse waarden 3 > 2 = TRUE
(waar, onwaar) 3 < 2 = FALSE
Datatype opvragen class( ) class(“abc”)
class(5)
class(TRUE)
Datatype nakijken is. ..( ) is.character(“abc”)
is.numeric(5)
Datatype aanpassen as. .. ( ) as.character(5)
as.logical(TRUE)
gewest <- as.character(gewest) => juiste manier!
Gemiddelde van een mean( ) mean(25:82)
variabele Gemiddelde van reeks getallen van 25 tot 82
Reeks getallen genereren seq( ) seq(32, 44)
Stapjes nemen by=. seq(32, 44, by=2)
Hoogste en laagste procent trim=. mean(25:82, trim=0.1)
verwijderen, getrimde je verwijdert hoogste en laagste 10%
waarde
Tip: Een kwantitatieve variabele moet numeric of integer zijn.
Een nominale variabele moet een character of factor zijn en een ordinale variabele een geordende
factor.

Datastructuren in R
Wat? Formule Voorbeeld
Vierkantswortel sqrt( ) sqrt(16) = 4
Vector genereren c( ) vector1 <- c(2, 3, 0, 3, 1, 0, 0, 1)
Gehele vector opvragen Vector. Vector1

,Opvragen vn waarde op Vector. [ ] vector1[5]
bepaalde plaats vn vector waarde op plaats 5 van vector 1
vector2[ 5:9]
waarde op plaats 5 t.e.m 9 van vector 2
Ordinale variabele Ordered pol_par <- factor(pol, levels=c("PvdA", "Vooruit",
ordenen "Groen", "Open VLD", "CD&V", "Vlaams
Belang","NVA"), ordered = TRUE)
Nominale variabele Unordered
Factor Factor( ) Inkomen <- factor(c(“laag”, “hoog”, “gemiddeld”,
))
Uitkomstenverzamelijk levels( ) levels(inkomen)
opvragen
Kolommen van data data.frame( ) 1. ranking <- seq(1, 4)
ingeven 2. naam.politicus <- c("Alexander De Croo",
Daarvoor moeten ze elk een "Bart De Wever", "Tom Van Grieken",
waarde gekregen hebben "Connor Rousseau")
3. populariteitsscore <- c(13.2, 11.8, 5.3, 4.7)
4. data_frame_politici <- data.frame(ranking,
naam.politicus, populariteitsscore)
Variabele opvragen uit Naamdataframe Data_frame_politici$naam.politicus
dataframe $naamvnvariabele kijkcijfers["hoogste_kijkcijfer"]

Individuele elementen uit Naamdataframe Data_frame_politici[1,2]
dataframe selecteren [rij,kolom]
[rij, Data_frame_politici[1, “naam.politicus”]d
“naamvariabele”] Namen van kolom in quotes, rijnummer niet
Meerdere rijen en Naamdataframe data_frame_politici[c(1,2,3),c("naam.politicus",
kolommen selecteren [c( ), "populariteitsscore")]
c(“variabele”, rij 1, 2 en 3 vn variabelen naam.pol en popuscore
“variabele”)] OF
OF data_frame_politici[c(1,2,3),c(2,3)]
Naamdataframe
[c( ), c( , )]

Importeren van gegevens uit een bestand
File → import dataset → from tekst (Base) → klik op het databestand → open

Alles moet staan zoals hier

Link kopiëren uit de console en in script plakken

, Wat? Formule Voorbeeld
Dataset openen via view( ) view(ESS9BE)
functie
Enkel eerste 6 rijen head( ) head(ESS9BE)
van bepaalde output
Subset nakijken
Eerste 6 rijen van een head(naamdataset$ head(ESS9BE$pplfair, 50)
specifieke variabele naamvariabele,
bekijken aantallijnen)
x aantal eerste rijen head(dataset, x) head(EVS_WVS, 8)
van dataset
Aantal rijen en dim(naamdataset) dim(ESS9BE)
kolommen tegelijk
Aantal rijen nrow(naamdataset) nrow(ESS9BE)
hoe groot is de
steekproef?

Aantal kolommen ncol(naamdataset) ncol(ESS9BE)
Laatste 10 rijen tail(naamdataset) tail(ESS9BE)
opvragen
Gender gndr

Leeftijd agea
Selectie maken Subset( ) ESS9BE_selectie <- subset(ESS9BE, gndr == 1
Selecteren & agea <= 65)
EVS_WVS_bovengemidd_tevr <-
subset(EVS_WVS, A170 > 7.174192)
nieuwe variabele Dataset$nieuwe ESS9BE$leeftijd[ESS9BE$agea > 47.90713] <-
maken variabele[dataset$variabele "bovengemiddelde leeftijd"
><= waarde] <- ‘nieuwe
naam’
Selectie nakijken view(datasetselectie) view(ESS9BE_selectie[c(“agea”, “gndr”)])
- door [c(“agea”, “gndr”)]) toe te voegen:
commando bepertk tot kolommen agea en
gndr
Kleinste getal min( ) min(ESS9BE_selectie$agea)

Grootste getal max( ) max(ESS9BE_selectie$agea)
Met missende waarden:
max(ESS9BE$netustm, na.rm=TRUE)

Omgaan met missende waarden
 voorgesteld als NA

Wat? Formule Voorbeeld
Missende waarden niet in na.rm=TRUE mean(x, na.rm=TRUE)
rekening brengen
Missende waarden als NA dataset$variabele[dataset ESS9BE$netustm[ESS9BE$netustm ==
aan geven $variabele == waarde van 6666] <- NA
de missing value] <- NA ESS9BE$evmar[ESS9BE$evmar > 2] <-
NA

Dit zijn jouw voordelen als je samenvattingen koopt bij Stuvia:

Bewezen kwaliteit door reviews

Studenten hebben al meer dan 850.000 samenvattingen beoordeeld. Zo weet jij zeker dat je de beste keuze maakt!

In een paar klikken geregeld

Geen gedoe — betaal gewoon eenmalig met iDeal, Bancontact of creditcard en je bent klaar. Geen abonnement nodig.

Focus op de essentie

Studenten maken samenvattingen voor studenten. Dat betekent: actuele inhoud waar jij écht wat aan hebt. Geen overbodige details!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.