100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached
logo-home
Uitgebreide samenvatting BIS inclusief rekenvoorbeelden $5.62   Add to cart

Summary

Uitgebreide samenvatting BIS inclusief rekenvoorbeelden

 259 views  9 purchases
  • Course
  • Institution

Samenvatting van 62 pagina's voor het vak Beschrijvende en Inferentiële Statistiek aan de VU

Preview 5 out of 62  pages

  • April 7, 2015
  • 62
  • 2014/2015
  • Summary
avatar-seller
College 1
Wat is statistiek?
Statistiek gaat om het verzamelen, bewerken, interpreteren en presenteren van gegevens
(data). Het doel is om door middel van data kennis te vergaren over de wereld om ons heen.

Waarom wil je statistiek leren?
Je hebt het nodig in de wetenschap om onderzoek te kunnen doen en in het bedrijfsleven
wordt het ook veel gebruikt.

Beschrijvende statistiek
Een samenvatting van de verkregen data.

Inferentiële statistiek
Een voorspelling maken (over de populatie) op basis van de verkregen data.

Beschrijvende univariate statistiek gaat over één variabele.

Beschrijvende bivariate statistiek gaat over twee variabelen.

Beschrijvende multivariate statistiek gaat over meerdere variabelen.

Variability (variatie)
De variatie in de aanwezige subjecten (gewicht, favoriete sport, etc.). Om een subject te
meten heb je verschillende variabelen nodig.

Variabele
Ieder willekeurig element van een verzameling in een studie. Variabelen kunnen kwantitatief
(numerial) of categorisch (categorical) zijn. Dit hangt af van de observatie die je doet.
 Kwantitatieve variabelen  variabelen die als waarde getallen aannemen,
bijvoorbeeld: leeftijd, gewicht en inkomen. Kwantitatieve variabelen zijn ook weer
onder te verdelen in twee soorten:
o Discreet  variabele waarbij slechts bepaalde waarden kunnen voorkomen,
zoals het aantal kinderen (je kunt geen 2,5 kind hebben).
o Continu  variabele waarbij oneindig veel mogelijkheden in waarde zijn,
zoals tijd, afstand en gewicht (je kunt 66,5 kg wegen).
 Categorische variabelen  hebben als waarde geen getallen maar alleen
kenmerken of categorieën, bijvoorbeeld: geslacht, nationaliteit of religie.
Categorische variabelen kunnen worden verdeeld in:
o Nominaal  categorieën zonder een rangordening (zoals geslacht).
o Ordinaal  categorieën met een rangordening (zoals religie: weinig religieus,
een beetje religieus of heel erg religieus).

Grafieken beschrijven de kernwaarde van een variabelen:
 Voor kwantitatieve variabelen worden het center en de spread (variability)
beschreven;
 Voor categorische variabelen worden de relatieve aantallen van de categorieën
beschreven.


De methode die we gebruiken om data te analyseren hangt af van de soort variabele die de
data representeert.

,Relatieve frequenties:
 Proportie  is een cijfer tussen 0 en 1. Je komt hieraan door het aantal observatie in
een categorie te delen door het totaal aantal observaties (=n);
 Percentage  de proportie x 100.
 Frequentietabel  een tabel die de mogelijke waarden van een variabele, zijn
frequentie en/of relatieve frequentie weergeeft. Bij kwantitatieve variabele geef je in
een frequentietabel de mogelijke waarden in intervallen weer en het aantal
observaties in elk interval.

Presentatie van data voor categorische variabelen
Er zijn twee grafieken die worden gebruikt voor categorische variabelen, namelijk de pie
chart, de bar graph en de pareto chart (soort bar graph). Daarnaast kan de data ook worden
weergeven in een frequentietabel.
 Pie chart Bar graph




Een bar graph is preciezer en flexibeler. Het is makkelijk te zien als twee categorieën
ongeveer even groot zijn, welke de grootste is. Dit is een stuk moeilijker in een pie chart.

Pareto chart
Dit is een speciale soort bar graph. De
categorieën zijn hierbij geordend volgens
hun frequentie, dus van hoog naar laag.
Vaak worden ze gebruikt in business om
de meest gewone/gemiddelde uitkomsten
te identificeren. Deze chart helpt het
Pareto principe uit te drukken  een
kleine set van categorieën houdt de
meeste observaties (bijvoorbeeld drie
categorieën representeren 88%).


 Frequentietabel

,Presentatie van data voor kwantitatieve variabelen
Hiervoor zijn drie typen, namelijk de dot plot, de stem-and-leaf plot en de histogram.
 Dot plot
Een dot plot laat dikke stippen zien voor
elke observatie. Je kunt vanuit een dot plot
(bijna) alle data uit de sample
reconstrueren. Het laat individuele
observaties zien.

 Stem-and-leaf plot
Deze laten ook individuele observaties zien. Elke observatie is
een stam en een blad. De stam bestaat uit alle cijfers, het blad
uit de laatste. Voor elke mogelijke waarde is er een stam maar
als er geen observatie is, dan verschijnt er geen blad. Bij
meerdere observaties zijn er meerdere bladeren. Om een plot
compacter te maken kun je de data waarden truncaten.
o Truncaten  hierbij wordt het laatste cijfer eraf gehaald waardoor je minder
stammen krijgt met meer bladeren.
o Leaf unit  hierdoor wordt het iets compacter en overzichtelijker. Je hebt
bijvoorbeeld observaties 14 en 15 die eigenlijk 14000 en 15000 zijn. De leaf
unit is in dit geval 1000.
o Split stems  opsplitsen van stammen om het overzichtelijker te maken.
Bijvoorbeeld bladeren 1 tot 3 zijn het eerste deel en 4 tot 5 het tweede deel.

 Histogram
Een histogram laat de waarde die een variabele
aanneemt zien en hoe vaak elke waarde voorkomt.
histogrammen worden gebruikt voor grotere
datasets dan individuele observaties.

Een histogram kan worden weergegeven in een
unimodale verdeling en een bimodale verdeling:
o Unimodale verdeling  hierbij zitten de
meeste mensen rond één piek.
o Bimodale verdeling  hierbij heb je twee
pieken. Bijvoorbeeld de spitsuren van de NS
en bij het discussiepunt hoe je denkt over de
doodstraf.

,Symmetric
Hierbij is er een normale verdeling in de vorm van een bell (bell-shaped).

Scheve verdeling
 Skewed to the right  wanneer de rechter tail
langer is dan de linker tail. Dit is vaak het geval bij
een inkomensverdeling. Ezelsbruggetje: ‘skied to the
right’.
o Modus (piek) – mediaan – gemiddelde
 Skewed to the left  wanneer de linker tail langer
is dan de rechter tail. Dit zie je vaak bij een
levensverwachting.
o Gemiddelde – mediaan – modus (piek)


Time series
Voor sommige variabelen worden observaties door de tijd gedaan. Je kunt dit weergeven in
een time plot.
 Time plot  op de horizontale schaal worden de tijden van meten uitgezet, op de
verticale schaal elke observatie. Meestal zoek je naar een trend  een rijzende of
dalende streep. Korte termijn schommelingen kunnen een trend over een lange tijd
verdoezelen.

Centrum
Als je het centrum meet ddan meet je meestal het gemiddelde (mean) van de observaties.
Hierbij doe je de som van de observaties / aantal observaties.
n = sample size
x = variabele
= gemiddelde
∑ = de som

Outlier
Een outlier kan het gemiddelde sterk beïnvloeden. Dit is als iemand
heel erg afwijkt van de rest van de sample size.

Mediaan
Het middelpunt van de observaties als je ze ordent van klein naar groot
(twee middelste getallen optellen en delen door 2).

Modus
De waarde die het vaakst voorkomt. Bij een skewed to the right
verdeling is de modus altijd de piek.

Spreiding
Een spreiding geeft aan of er wordt afgeweken van het gemiddelde
en hoe veel er wordt afgeweken van het gemiddelde. Bij een grote
spreiding zijn er grote verschillen (zwarte lijn) en bij een kleine
spreiding zijn er kleine verschillen (rode lijn).

Meer spreiding betekent minder zekerheid. Je kunt dan minder goed
een aanname doen voor de gehele populatie.

, Range
Het verschil tussen de kleinste en grootste observatie. Hoe hoger de range, hoe meer de data
uitgespreid is.

Standaarddeviatie
Deze geeft aan hoeveel de data gemiddeld afwijkt van het gemiddelde. Het nut van de
standaarddeviatie is:
 Beschrijven van de spreiding van data;
 Daarnaast is het met de standaarddeviatie makkelijker om data te vergelijken.

Hierbij kijk je naar hoeveel elke observatie van het gemiddelde afwijkt: de deviatie.
Deviatie = observatie – het gemiddelde.



Bij de formule van de standaarddeviatie wordt iedere deviatie
gekwadrateerd. Deze worden allemaal bij elkaar opgeteld, vervolgens door
het aantal observaties – 1 gedeeld en daar de wortel van genomen. Er wordt
gekwadrateerd om de negatieve waardes eruit te halen.

Hoe groter de standaarddeviatie is, hoe grote de spreiding van de data. De
standaardafwijking is informatiever dan de range aangezien de range niet de gemiddelde
verschillen tussen observaties laat zien. De standaardafwijking (s ) is alleen 0 als alle
observaties dezelfde waarde aannemen.

The Empirical Rule
Deze regel is alleen toe te passen als de verdeling klokvormig (bell-shaped) is.
 68% van de observaties valt binnen 1 standaarddeviatie van het gemiddelde.
o Gemiddelde – en + de standaarddeviatie
 95% van de observaties valt binnen 2 standaarddeviaties van het gemiddelde.
o Gemiddelde – en + twee standaarddeviaties
 99% van de observaties valt binnen 3 standaarddeviaties van het gemiddelde.
o Gemiddelde – en + drie standaarddeviaties

Schematisch ziet The Empirical Rule er als volgt uit:

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

Quick and easy check-out

You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller ARSTE. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $5.62. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

70055 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy study notes for 14 years now

Start selling
$5.62  9x  sold
  • (0)
  Add to cart