case objecten beschreven door een set data (reeks gegevens)
label speciale variabele gebruikt in sommige reeksen gegevens om
verschillende cases te onderscheiden.
Variabele kenmerk van een case.
Categorische variabele (kwantitatief) plaatst een case in een
bepaalde groep van een categorie.
Kwantitatieve variabele geeft numerieke waarden voor welke
rekenkundige bewerkingen (zoals toevoegingen en gemiddelden) zinvol
zijn.
De verdeling van een variabele vertelt ons welke waarde het neemt en
hoe vaak deze waarde voorkomt.
Sleutelkenmerken data set:
1. Who? Welke cases worden beschreven? Hoeveel cases bevat de
reeks gegevens?
2. What? Hoeveel variabelen omvatten de gegevens? Wat zijn de
exacte definities van deze variabelen? Wat zijn de meeteenheden
voor elke afhankelijke variabele?
3. Why? Welk doel hebben de gegevens? Hopen we op antwoord op
specifieke vragen?
Het berekenen van een rate (tarief) is een van de verschillende manieren
om een variabele aan te passen en een nieuwe te berekenen.
1.2 Verdelingen grafisch weergeven.
Verdeling van een categorische variabele geeft de categorieën aan en ook
de telling of het percentage van cases die in elke categorie zitten.
Stemplot
1. onderscheid in elke observatie in een ‘stem’ bestaande uit alle
cijfers behalve de meest rechtste cijfers en het blad bestaande uit
de meest rechtse cijfers. Stems hebben altijd zoveel cijfers als nodig,
maar het blad heeft er altijd maar 1.
2. Schrijf de stems in een verticale kolom, met de kleinste bovenaan en
trek een verticale lijn aan de rechterkant van deze kolom.
3. Schrijf elk blad in de rij van de goede stem, in toenemende volgorde
van de stem.
Back-to-back stemplot blad aan beide kanten van de stem, want er zijn
twee vergelijkingen.
,In elke grafiek:
- kijken naar algemeen patroon
- kijken naar afwijkingen (outliers)
d.m.v.:
- vorm
- middelpunt
- spreiding
modes getal dat het vaakst voorkomt. Een verdeling heeft een of meer
hoge pieken.
Unimodal de verdeling heeft één hoge piek.
Een verdeling is symmetrisch als de waarden groter en kleiner dan het
midden elkaar spiegelbeeld zijn.
Timeplot een tijdplot van een variabele plot geeft elke waarneming
weer tegen het tijdstip waarop het is gemeten. (tijd: horizontaal, variabele:
verticaal).
Gemiddelde (mean) Alle waarden van x gedeeld door het totaal aantal
waardes.
x 1 + x 2+ … x n
x́ =
n
Mediaan Middelste getal uit de reeks.
Upper quartile bovenste helft van de data, aan de rechterkant van de
mediaan.
Lower quartile onderste helft van de data, aan de linkerkant van de
mediaan.
Q1, eerste kwartiel het middelste getal in de laagste helft van de
mediaan.
Q3, derde kwartiel het middelste getal in de hoogste helft van de
mediaan.
Five number summary
- minimum
- Q1
- Mediaan
- Q3
- Maximum
Hiermee kan een boxplot worden gemaakt.
IQR (interquartile range) afstand tussen Q1 en Q3
IQR = Q3 – Q1
Een observatie is een verdachte uitschieter (suspected outlier) als het
meer is dan 1,5xIQR boven of onder Q1 en Q3 .
, Modified boxplot boxplot die gebruik maakt van de 1,5 x IQR regel. Alle
punten hierbuiten worden niet meegenomen in de boxplot.
Side-by-side-boxplot twee of meer boxplots in dezelfde grafiek
gebruiken om groepen die op dezelfde variabelen gemeten zijn te
vergelijken.
Standaardafwijking S (wortel uit de variantie)
Variantie (s^2) van een reek waarnemingen is het gemiddelde van de
kwadraten van de afwijkingen van de waarnemingen van hun
gemiddelden.
x
x
x
s
2
= 2 (¿¿ 1 n−x́ )2
(¿¿ 1−x́ ) + …+
n−1
2
(¿¿ 1− x́ ) + ¿
¿
¿
De standaardafwijking (s)
- s meet spreiding van het gemiddelde en moet gebruikt worden als
het gemiddelde wordt gekozen als het middelpunt.
- S=0, alleen wanneer er geen spreiding is. Dit gebeurt alleen als alle
waarnemingen dezelfde waarde hebben. Anders s > 0. Als de
waarnemingen verder van het gemiddelde afliggen, wordt s groter.
- S, is niet zoals het gemiddelde stevig. Een paar uitschieters kunnen
s heel groot maken.
Lineaire transformaties verandert de orginele transformatie x in een
nieuwe variabele xnieuw gegeven door een vergelijking. Xnieuw = a + bx
Dit heeft geen effect op de vorm van de verdeling.
- door met b te vermenigvuldigen wijzigt de grootte van de
meeteenheid.
- De constante a toevoegen schuift alle waarden van x omhoog of
omlaag met dezelfde hoeveelheid.
- Door optellen van a worden de centrummaten (gemiddelde en
mediaan) veranderd, maar niet de spreidingsmaten.
- Door met b te vermenigvuldigen worden ook de centrum- en
spreidingsmaten met b vermenigvuldigd.
Dichtheidskromme (density curve)
- altijd op of boven de horizontale x-as
- de oppervlakte eronder is gelijk aan 1.
De dichtheidskromme beschrijft het algemene patroon van de verdeling.
Het gebied onder de curve en boven elke reeks van waarden is de
afmeting van alle waarnemingen in dat gebied.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller veerleemma. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $5.88. You're not tied to anything after your purchase.