STATISTIEK
H0: Voorwoord
- Drie deuren probleem = Monty Hall Probleem
o Spel, 3 deuren + 1 presentator + 1 speler
o Achter 2 deuren een geit, 1 deur een auto
o Speler kiest deur + presentator ook waarachter geit schuilt => wijzigt speler keuze of
niet?
- Foutenmarge = statistiek laat bij testen altijd een zekere waarschijnlijkheid toe dat er een
foute beslissing wordt genomen
o Type 1 (false positive): detecteren van iets wat er niet is
o Type 2 (false negative): niet-detecteren van iets wat er wel is
o BELANG: afhankelijk van de omstandigheden
H1: Inleiding
- Overzicht cursus
o Beschrijvende statistiek
Univariaat (met 1 veranderlijke): presentatie data + statische parameters
Bivariaat (met 2 veranderlijke): correlatie
Multivariaat (met meerdere veranderlijke)
o Wiskundige statistiek
Combinatieleer
Kansrekening
Distributiefuncties: discreet – continue – steekproeftheorie
o Verklarende statistiek
Betrouwbaarheidsintervallen (verschillende statistische parameters)
Testen van hypothesen: voor verschillende statistische parameter + voor
kansverdelingsfuncties + regressie + ANOVA
- Basisbegrippen
o Data / gegevens = observaties die verzameld werden
o Populatie = de verzameling van ALLE elementen die bestudeerd worden
Parameter / kengetal = numerieke waarde die eig. van populatie beschrijft
o Telling = verzameling van data over alle leden van populatie
o Steekproef = verzameling van data over DEELgroep van populatie
(Steekproef)grootheid = numerieke waarde die eig. van steekproef beschrijft
- Verzamelen van data
o 2 bronnen
Observatie => meten / observeren van eigenschappen van elementen
steekproef (mogelijk vooraf bestaande data) = associatie aantonen
Experiment => meten / observeren van invloed van zekere behandelingen op
eigenschappen van de elementen van steekproef = oorzakelijk verband
o Verwarring = niet in staat onderscheid maken tussen effecten van verschillende
behandelingen in experiment
o Samplen = selecteren van elementen voor steekproef uit populatie volgens strategie
, Strategieën: random + systematisch + geclusterd + groepsgewijze selectie +
“zonder veel moeite” (dia 22)
H2: Data voorstelling
- Veranderlijke (= eig. die kan variëren)
o Kwalitatieve veranderlijke = categorie
o Kwantitatieve = meting of telling
Discrete veranderlijke = eindig (of aftelbaar) aantal waarden aannemen
Continue veranderlijke = alle waarden aannemen in (al dan niet) eindig
interval (zonder sprong tussen waarden)
o Gegevens/date = waarden die veranderlijke aannemen
- Meetniveaus
o Nominaal = gegevens onderscheiden door naam / label / categorie
Geen ordening / geen meeteenheid / geen verhouding
o Ordinaal
Wel ordening / geen meeteenheid / geen verhouding
o Interval
Geen absoluut nulpunt / startpunt
Wel ordening / wel meeteenheid / geen verhouding
o Ratio
Wel absoluut nulpunt / startpunt
Wel ordening / wel meeteenheid / wel verhouding
- Kwalitatieve data
o Frequentietabel = samenvatting per categorie
Absolute frequenties => tellen (voor elke categorie)
Relatieve/%/cumu. frequenties => absolute frequentie / som alle warden
- Kwantitatieve data
o Frequentietabel
Absolute + relatieve frequenties => nu wel ordening van numerieke
categorieën (soms nood aan groepering datacat.)
o Frequentietabel groeperen van data (dia 20)
Single – value grouping ( 1 aparte klasse per waarde + beperkt aantal)
Limit grouping (onder en bovengrens voor elke klasse, groot aantal gehele)
Klassebreedte = verschil ondergrens klasse en ondergrens volgende
Klassemidden = gemiddelde onder en bovengrens klasse
Cutpoint grouping (elke klasse halfopen interval)
Gesloten onderaan, open bovenaan => elke waarde 1 interval
Ondergrens elke klasse = kleinste waarde
Bovengrens elke klasse = ondergrens volgende klasse
Klassebreedte = verschil boven en ondergrens klasse
Klassemidden = gemiddelde boven en ondergrens klasse
o Grafieken
Histogram (kan voor alle 3) / frequentiepolygoon / ogieve & cumulatieve
frequentiepolygoon / (modified) boxplot / dot-plot / stamdiagram /
scatterplot & spreidingsdiagram
- Vorm van distributie
o Grafiek / tabel / formule die aangeeft x waarden mogelijke observaties voorkomen
, o Eigenschappen
Modaliteit = aantal pieken (modi ) / scheefheid = symmetrisch of met
overwicht van kleine (links scheef) / grote waarden (rechts scheef)
H3: Kerngetallen en grootheden
- Kengetallen voor het centrum
o Gemiddelde: Populatie µ & Steekproef 𝑥 ̅
Berekening voor afzonderlijke waarnemingen
Berekening voor gegroepeerde waarnemingen
Single-value grouping:
Limit grouping of cutpoint grouping:
o Mediaan = waarde voor evenveel grotere observaties als kleinere observaties =>
maat voor midden van data = xme
Vereist (stijgend) gesorteerde data
Berekening voor afzonderlijke waarnemingen
Aantal elementen (N populatie, n steekproef)
o Oneven = middelste waarde
o Even = gemiddelde van de 2 middelste waarden
Berekening voor gegroepeerde waarnemingen
Single value = zelfde afzonderlijke waarnemingen
Limit of cutpoint
o Interpolatie van de ogive => gebruik relatieve cumulatieve
frequenties => waarde waar ogive 50 % bereikt
o Modus
= de observatie die het vaakst voorkomt
Bij een onderverdeling in klassen: modale klasse = klasse met
hoogste frequentie
Bij continue verdeling: lokaal maximum in de distributiefunctie
- Kengetallen voor de spreiding
o Variantie: populatie = 𝜎² & steekproef = 𝜎
Afzonderlijke waarnemingen
Gegroepeerde waarnemingen
Single value grouping
, Limit of cutpoint grouping
o Standaardafwijking: populatie = s² & steekproef = s
= positieve vierkantswortel van variantie
Maat voor afwijking van alle waarden tov. gemiddelde + beïnvloeding door
uitschieters
o Bereik = Max – Min (eindig + gevoelig voor uitschieters)
o Variatiecoëfficiënt
= hoe nauw zitten de data bij ratio-meetniveau rond de typische gemiddelde
waarden
Zinvol voor ratio-meetniveau (dimensieloos)
Vuistregel
CV < 5% => zeer kleine spreiding
CV < 20% => relatief beperkte spreiding
CV > 50% => zeer grote spreiding
o Ruwe regels voor spreiding
- Kengetallen voor relatieve positie
o Percentielen
PK voor k-de percentiel = k% van de waarnemingen zijn kleiner dan Pk en
(100-k%) van waarnemingen groter dan Pk
Berekening dia 50
o Kwartielen
Eerste kwartiel: Q1 = P25
Tweede kwartiel (mediaan): Q2 = P50
Derde kwartiel: Q3 = P75
Interkwartielafstand: IQR = Q3 -Q1
Bevat 50% centrale waarden van de verdeling
o Decielen = opdeling van data in 10 gelijke delen (P10, P20, P30…0
o Kwintielen = opdeling van data in 5 gelijke delen (P20, P40, P60, P80)
o 5 getallen samenvatting
5 getallen: Min – Q1 – Q2 – Q3 – Max
Uiterste grenzen: min, max
Geconcentreerdheid: rond centrum; IQR te klein tov bereik
Scheefheid: Linker of rechterdeel meer of minder uit elkaar
Voorstellen met (gewijzigd) boxplot
- Gestandaardiseerde veranderlijke
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller alinet. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $7.43. You're not tied to anything after your purchase.