Statistiek Samenvatting
Week 1
Beschrijvende statistiek = beschrijft data d.m.v. het ordenen, samenvatten en presenteren op
een effectieve en informatieve manier
Infertiele statistiek = trekt conclusies over gehele populatie gebaseerd op steekproef data
Populatie = gehele groep
Parameter = beschrijvende maatstaaf voor populatie
Sample = steekproef, geobserveerde deel van de populatie
Statistic = beschrijvende maatstaaf voor sample
Statistische inferentie = het schatten van een conclusie voor de gehele populatie op basis
van data uit een sample
Betrouwbaarheidsniveau = gedeelte hoe vaak een schatting van data waar zal zijn
Significantieniveau = gedeelte hoe vaak een schatting van een conclusie fout zal zijn
3 soorten data:
Kwantitatief
o Interval: echte cijfers zoals lengte, afstand etc., kan alles op gerekend worden
Kwalitatief
o Nominaal: ingedeeld in categorieën zoals kleur, kan niet op gerekend worden
o Ordinaal: categorieën die gerangschikt kunnen zoals goed tot slecht, kan beperkt
op worden gerekend
Frequentieverdeling = waarnemingen in niet overlappende klassen worden ingedeeld en van
elk klas het aantal observaties wordt vermeld
Relatieve frequentieverdeling = frequentieverdeling in hoeveel het van het geheel is
Staafdiagram = diagram dat de absolute frequentie van kwalitatieve data weergeeft
Taartdiagram = diagram dat relatieve frequentie in een cirkel weergeeft
Klasse = gecategoriseerde groep van data
Histogram = grafiek van frequentietabel
Symmetrisch
Scheef: naar rechts uitlopend/positief of naar links uitlopend/negatief
Normale verdeling: bell shaped
Het aantal klassen dat geschikt is voor een histogram heeft een tabel (zie boek). De grootte
van de klasse is het bereik/aantal klassen.
Modale klasse = klasse met hoogste aantal observaties, unimodaal/bimodaal
Ogives = grafische representatie van cumulatieve relatieve frequentieverdeling
Steel-blad diagram = alternatief van histogram met cijfers gesorteerd in steel en blad
Cross-sectional data = data allemaal verzamelt op hetzelfde moment
Time-series data = data wordt verzameld op verschillende punten over tijd
Week 2
Meten van centrale locatie:
Gemiddelde: interval, som van alle waarnemingen/aantal waarnemingen, gevoelig voor
uitbijters
Mediaan: ordinaal, na ordening de middelste waarneming
Modus: nominaal, waarneming met hoogste frequentie
Meten van spreiding:
, Variatiebreedte: verschil tussen hoogste en laagste waarneming
Variantie: gemiddelde van de gekwadrateerde afstanden van het gemiddelde
1. Gemiddelde berekenen en de afstanden die waarnemingen hiervan hebben
2. Afstanden kwadrateren
3. Gemiddelde berekenen van gekwadrateerde afstanden
Standaarddeviatie: wortel van variantie
o Normale verdeling: empirische regel voor standaarddeviatie
68% van de waarnemingen valt binnen 1 standaarddeviatie in afstand van het
gemiddelde
95% van de waarnemingen valt binnen 2 x de standaarddeviatie
99,7% valt binnen 3 x de standaarddeviatie in afstand van het gemiddelde
o Andere verdeling: gebruik van Chebysheff’s theorie:
1
1− geeft een hoeveelheid
aantal x standaarddeviatie van het gemiddelde af
hoeveel % minimaal binnen deze afstand ligt
Variatiecoëfficiënt: standaarddeviatie/gemiddelde
Percentiel = voor een p-percentiel valt p% van de waardes eronder
Voor het eerste deciel ligt 10% onder deze waarneming
Eerste (Q1), tweede (mediaan) en derde (Q3) kwartiel
Interkwartiele afstand = Q3-Q1
p
LP =( n+1) om een schatting te doen waar de locatie van het p-percentiel ligt
100
Box plot = weergaven van kleinste en grootste waarde + kwartielen
Uitbijter = extreem grote of kleine waarde in een sample, kan door een fout zijn, ligt op
grotere afstand van de box plot dan 1.5(Q3-Q1)
Week 3
Random experiment = actie/proces die tot een van verschillende mogelijke uitkomsten leidt
Sample space = lijst van alle mogelijke uitkomsten die uitputtend en wederzijds uitsluitend is
Hierbij geldt voor de kans P(O) dat deze tussen 0 en 1 moet liggen en de som van alle
kansen van alle uitkomsten gelijk moet zijn aan 1.
3 benaderingen voor kansberekening
1. Klassieke benadering = gebaseerd op dat iedere kant symmetrisch even veel kans heeft,
k uitkomsten dus kansberekening is 1/k
2. Statistische benadering = gebaseerd op lange termijn relatieve frequentie uitkomsten in
herhaalde experimenten, n experimenten waarbij de uitkomst x keer voorkomt dus
kansberekening is x/n
3. Subjectieve benadering = gebaseerd op persoonlijke evaluatie van situatie
Simple event = individuele uitkomsten, kunnen niet verder opgesplitst worden
Willekeurige gebeurtenis = uitkomst van een verzameling van een of meer simple events,
kans is som van alle simple events binnen deze willekeurige gebeurtenis
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller chelseavangool. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $3.75. You're not tied to anything after your purchase.