case objecten beschreven door een set data (reeks gegevens)
label speciale variabele gebruikt in sommige reeksen gegevens om
verschillende cases te onderscheiden.
Variabele kenmerk van een case.
Categorische variabele (kwantitatief) plaatst een case in een
bepaalde groep van een categorie.
Kwantitatieve variabele geeft numerieke waarden voor welke
rekenkundige bewerkingen (zoals toevoegingen en gemiddelden) zinvol
zijn.
De verdeling van een variabele vertelt ons welke waarde het neemt en
hoe vaak deze waarde voorkomt.
Sleutelkenmerken data set:
1. Who? Welke cases worden beschreven? Hoeveel cases bevat de
reeks gegevens?
2. What? Hoeveel variabelen omvatten de gegevens? Wat zijn de
exacte definities van deze variabelen? Wat zijn de meeteenheden
voor elke afhankelijke variabele?
3. Why? Welk doel hebben de gegevens? Hopen we op antwoord op
specifieke vragen?
Het berekenen van een rate (tarief) is een van de verschillende manieren
om een variabele aan te passen en een nieuwe te berekenen.
1.2 Verdelingen grafisch weergeven.
Verdeling van een categorische variabele geeft de categorieën aan en ook
de telling of het percentage van cases die in elke categorie zitten.
Stemplot
1. onderscheid in elke observatie in een ‘stem’ bestaande uit alle
cijfers behalve de meest rechtste cijfers en het blad bestaande uit
de meest rechtse cijfers. Stems hebben altijd zoveel cijfers als nodig,
maar het blad heeft er altijd maar 1.
2. Schrijf de stems in een verticale kolom, met de kleinste bovenaan en
trek een verticale lijn aan de rechterkant van deze kolom.
3. Schrijf elk blad in de rij van de goede stem, in toenemende volgorde
van de stem.
Back-to-back stemplot blad aan beide kanten van de stem, want er zijn
twee vergelijkingen.
,In elke grafiek:
- kijken naar algemeen patroon
- kijken naar afwijkingen (outliers)
d.m.v.:
- vorm
- middelpunt
- spreiding
modes getal dat het vaakst voorkomt. Een verdeling heeft een of meer
hoge pieken.
Unimodal de verdeling heeft één hoge piek.
Een verdeling is symmetrisch als de waarden groter en kleiner dan het
midden elkaar spiegelbeeld zijn.
Timeplot een tijdplot van een variabele plot geeft elke waarneming
weer tegen het tijdstip waarop het is gemeten. (tijd: horizontaal, variabele:
verticaal).
Gemiddelde (mean) Alle waarden van x gedeeld door het totaal aantal
waardes.
x 1 + x 2+ … x n
x́ =
n
Mediaan Middelste getal uit de reeks.
Upper quartile bovenste helft van de data, aan de rechterkant van de
mediaan.
Lower quartile onderste helft van de data, aan de linkerkant van de
mediaan.
Q1, eerste kwartiel het middelste getal in de laagste helft van de
mediaan.
Q3, derde kwartiel het middelste getal in de hoogste helft van de
mediaan.
Five number summary
- minimum
- Q1
- Mediaan
- Q3
- Maximum
Hiermee kan een boxplot worden gemaakt.
IQR (interquartile range) afstand tussen Q1 en Q3
IQR = Q3 – Q1
Een observatie is een verdachte uitschieter (suspected outlier) als het
meer is dan 1,5xIQR boven of onder Q1 en Q3 .
, Modified boxplot boxplot die gebruik maakt van de 1,5 x IQR regel. Alle
punten hierbuiten worden niet meegenomen in de boxplot.
Side-by-side-boxplot twee of meer boxplots in dezelfde grafiek
gebruiken om groepen die op dezelfde variabelen gemeten zijn te
vergelijken.
Standaardafwijking S (wortel uit de variantie)
Variantie (s^2) van een reek waarnemingen is het gemiddelde van de
kwadraten van de afwijkingen van de waarnemingen van hun
gemiddelden.
x
x
x
s
2
= 2 (¿¿ 1 n−x́ )2
(¿¿ 1−x́ ) + …+
n−1
2
(¿¿ 1− x́ ) + ¿
¿
¿
De standaardafwijking (s)
- s meet spreiding van het gemiddelde en moet gebruikt worden als
het gemiddelde wordt gekozen als het middelpunt.
- S=0, alleen wanneer er geen spreiding is. Dit gebeurt alleen als alle
waarnemingen dezelfde waarde hebben. Anders s > 0. Als de
waarnemingen verder van het gemiddelde afliggen, wordt s groter.
- S, is niet zoals het gemiddelde stevig. Een paar uitschieters kunnen
s heel groot maken.
Lineaire transformaties verandert de orginele transformatie x in een
nieuwe variabele xnieuw gegeven door een vergelijking. Xnieuw = a + bx
Dit heeft geen effect op de vorm van de verdeling.
- door met b te vermenigvuldigen wijzigt de grootte van de
meeteenheid.
- De constante a toevoegen schuift alle waarden van x omhoog of
omlaag met dezelfde hoeveelheid.
- Door optellen van a worden de centrummaten (gemiddelde en
mediaan) veranderd, maar niet de spreidingsmaten.
- Door met b te vermenigvuldigen worden ook de centrum- en
spreidingsmaten met b vermenigvuldigd.
Dichtheidskromme (density curve)
- altijd op of boven de horizontale x-as
- de oppervlakte eronder is gelijk aan 1.
De dichtheidskromme beschrijft het algemene patroon van de verdeling.
Het gebied onder de curve en boven elke reeks van waarden is de
afmeting van alle waarnemingen in dat gebied.
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper veerleemma. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €5,48. Je zit daarna nergens aan vast.