College 1
Wat is statistiek?
Statistiek gaat om het verzamelen, bewerken, interpreteren en presenteren van gegevens
(data). Het doel is om door middel van data kennis te vergaren over de wereld om ons heen.
Waarom wil je statistiek leren?
Je hebt het nodig in de wetenschap om onderzoek te kunnen doen en in het bedrijfsleven
wordt het ook veel gebruikt.
Beschrijvende statistiek
Een samenvatting van de verkregen data.
Inferentiële statistiek
Een voorspelling maken (over de populatie) op basis van de verkregen data.
Beschrijvende univariate statistiek gaat over één variabele.
Beschrijvende bivariate statistiek gaat over twee variabelen.
Beschrijvende multivariate statistiek gaat over meerdere variabelen.
Variability (variatie)
De variatie in de aanwezige subjecten (gewicht, favoriete sport, etc.). Om een subject te
meten heb je verschillende variabelen nodig.
Variabele
Ieder willekeurig element van een verzameling in een studie. Variabelen kunnen kwantitatief
(numerial) of categorisch (categorical) zijn. Dit hangt af van de observatie die je doet.
Kwantitatieve variabelen variabelen die als waarde getallen aannemen,
bijvoorbeeld: leeftijd, gewicht en inkomen. Kwantitatieve variabelen zijn ook weer
onder te verdelen in twee soorten:
o Discreet variabele waarbij slechts bepaalde waarden kunnen voorkomen,
zoals het aantal kinderen (je kunt geen 2,5 kind hebben).
o Continu variabele waarbij oneindig veel mogelijkheden in waarde zijn,
zoals tijd, afstand en gewicht (je kunt 66,5 kg wegen).
Categorische variabelen hebben als waarde geen getallen maar alleen
kenmerken of categorieën, bijvoorbeeld: geslacht, nationaliteit of religie.
Categorische variabelen kunnen worden verdeeld in:
o Nominaal categorieën zonder een rangordening (zoals geslacht).
o Ordinaal categorieën met een rangordening (zoals religie: weinig religieus,
een beetje religieus of heel erg religieus).
Grafieken beschrijven de kernwaarde van een variabelen:
Voor kwantitatieve variabelen worden het center en de spread (variability)
beschreven;
Voor categorische variabelen worden de relatieve aantallen van de categorieën
beschreven.
De methode die we gebruiken om data te analyseren hangt af van de soort variabele die de
data representeert.
,Relatieve frequenties:
Proportie is een cijfer tussen 0 en 1. Je komt hieraan door het aantal observatie in
een categorie te delen door het totaal aantal observaties (=n);
Percentage de proportie x 100.
Frequentietabel een tabel die de mogelijke waarden van een variabele, zijn
frequentie en/of relatieve frequentie weergeeft. Bij kwantitatieve variabele geef je in
een frequentietabel de mogelijke waarden in intervallen weer en het aantal
observaties in elk interval.
Presentatie van data voor categorische variabelen
Er zijn twee grafieken die worden gebruikt voor categorische variabelen, namelijk de pie
chart, de bar graph en de pareto chart (soort bar graph). Daarnaast kan de data ook worden
weergeven in een frequentietabel.
Pie chart Bar graph
Een bar graph is preciezer en flexibeler. Het is makkelijk te zien als twee categorieën
ongeveer even groot zijn, welke de grootste is. Dit is een stuk moeilijker in een pie chart.
Pareto chart
Dit is een speciale soort bar graph. De
categorieën zijn hierbij geordend volgens
hun frequentie, dus van hoog naar laag.
Vaak worden ze gebruikt in business om
de meest gewone/gemiddelde uitkomsten
te identificeren. Deze chart helpt het
Pareto principe uit te drukken een
kleine set van categorieën houdt de
meeste observaties (bijvoorbeeld drie
categorieën representeren 88%).
Frequentietabel
,Presentatie van data voor kwantitatieve variabelen
Hiervoor zijn drie typen, namelijk de dot plot, de stem-and-leaf plot en de histogram.
Dot plot
Een dot plot laat dikke stippen zien voor
elke observatie. Je kunt vanuit een dot plot
(bijna) alle data uit de sample
reconstrueren. Het laat individuele
observaties zien.
Stem-and-leaf plot
Deze laten ook individuele observaties zien. Elke observatie is
een stam en een blad. De stam bestaat uit alle cijfers, het blad
uit de laatste. Voor elke mogelijke waarde is er een stam maar
als er geen observatie is, dan verschijnt er geen blad. Bij
meerdere observaties zijn er meerdere bladeren. Om een plot
compacter te maken kun je de data waarden truncaten.
o Truncaten hierbij wordt het laatste cijfer eraf gehaald waardoor je minder
stammen krijgt met meer bladeren.
o Leaf unit hierdoor wordt het iets compacter en overzichtelijker. Je hebt
bijvoorbeeld observaties 14 en 15 die eigenlijk 14000 en 15000 zijn. De leaf
unit is in dit geval 1000.
o Split stems opsplitsen van stammen om het overzichtelijker te maken.
Bijvoorbeeld bladeren 1 tot 3 zijn het eerste deel en 4 tot 5 het tweede deel.
Histogram
Een histogram laat de waarde die een variabele
aanneemt zien en hoe vaak elke waarde voorkomt.
histogrammen worden gebruikt voor grotere
datasets dan individuele observaties.
Een histogram kan worden weergegeven in een
unimodale verdeling en een bimodale verdeling:
o Unimodale verdeling hierbij zitten de
meeste mensen rond één piek.
o Bimodale verdeling hierbij heb je twee
pieken. Bijvoorbeeld de spitsuren van de NS
en bij het discussiepunt hoe je denkt over de
doodstraf.
,Symmetric
Hierbij is er een normale verdeling in de vorm van een bell (bell-shaped).
Scheve verdeling
Skewed to the right wanneer de rechter tail
langer is dan de linker tail. Dit is vaak het geval bij
een inkomensverdeling. Ezelsbruggetje: ‘skied to the
right’.
o Modus (piek) – mediaan – gemiddelde
Skewed to the left wanneer de linker tail langer
is dan de rechter tail. Dit zie je vaak bij een
levensverwachting.
o Gemiddelde – mediaan – modus (piek)
Time series
Voor sommige variabelen worden observaties door de tijd gedaan. Je kunt dit weergeven in
een time plot.
Time plot op de horizontale schaal worden de tijden van meten uitgezet, op de
verticale schaal elke observatie. Meestal zoek je naar een trend een rijzende of
dalende streep. Korte termijn schommelingen kunnen een trend over een lange tijd
verdoezelen.
Centrum
Als je het centrum meet ddan meet je meestal het gemiddelde (mean) van de observaties.
Hierbij doe je de som van de observaties / aantal observaties.
n = sample size
x = variabele
= gemiddelde
∑ = de som
Outlier
Een outlier kan het gemiddelde sterk beïnvloeden. Dit is als iemand
heel erg afwijkt van de rest van de sample size.
Mediaan
Het middelpunt van de observaties als je ze ordent van klein naar groot
(twee middelste getallen optellen en delen door 2).
Modus
De waarde die het vaakst voorkomt. Bij een skewed to the right
verdeling is de modus altijd de piek.
Spreiding
Een spreiding geeft aan of er wordt afgeweken van het gemiddelde
en hoe veel er wordt afgeweken van het gemiddelde. Bij een grote
spreiding zijn er grote verschillen (zwarte lijn) en bij een kleine
spreiding zijn er kleine verschillen (rode lijn).
Meer spreiding betekent minder zekerheid. Je kunt dan minder goed
een aanname doen voor de gehele populatie.
, Range
Het verschil tussen de kleinste en grootste observatie. Hoe hoger de range, hoe meer de data
uitgespreid is.
Standaarddeviatie
Deze geeft aan hoeveel de data gemiddeld afwijkt van het gemiddelde. Het nut van de
standaarddeviatie is:
Beschrijven van de spreiding van data;
Daarnaast is het met de standaarddeviatie makkelijker om data te vergelijken.
Hierbij kijk je naar hoeveel elke observatie van het gemiddelde afwijkt: de deviatie.
Deviatie = observatie – het gemiddelde.
Bij de formule van de standaarddeviatie wordt iedere deviatie
gekwadrateerd. Deze worden allemaal bij elkaar opgeteld, vervolgens door
het aantal observaties – 1 gedeeld en daar de wortel van genomen. Er wordt
gekwadrateerd om de negatieve waardes eruit te halen.
Hoe groter de standaarddeviatie is, hoe grote de spreiding van de data. De
standaardafwijking is informatiever dan de range aangezien de range niet de gemiddelde
verschillen tussen observaties laat zien. De standaardafwijking (s ) is alleen 0 als alle
observaties dezelfde waarde aannemen.
The Empirical Rule
Deze regel is alleen toe te passen als de verdeling klokvormig (bell-shaped) is.
68% van de observaties valt binnen 1 standaarddeviatie van het gemiddelde.
o Gemiddelde – en + de standaarddeviatie
95% van de observaties valt binnen 2 standaarddeviaties van het gemiddelde.
o Gemiddelde – en + twee standaarddeviaties
99% van de observaties valt binnen 3 standaarddeviaties van het gemiddelde.
o Gemiddelde – en + drie standaarddeviaties
Schematisch ziet The Empirical Rule er als volgt uit:
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller ARSTE. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $5.62. You're not tied to anything after your purchase.