STATISTIEK
H0: Voorwoord
- Drie deuren probleem = Monty Hall Probleem
o Spel, 3 deuren + 1 presentator + 1 speler
o Achter 2 deuren een geit, 1 deur een auto
o Speler kiest deur + presentator ook waarachter geit schuilt => wijzigt speler keuze of
niet?
- Foutenmarge = statistiek laat bij testen altijd een zekere waarschijnlijkheid toe dat er een
foute beslissing wordt genomen
o Type 1 (false positive): detecteren van iets wat er niet is
o Type 2 (false negative): niet-detecteren van iets wat er wel is
o BELANG: afhankelijk van de omstandigheden
H1: Inleiding
- Overzicht cursus
o Beschrijvende statistiek
Univariaat (met 1 veranderlijke): presentatie data + statische parameters
Bivariaat (met 2 veranderlijke): correlatie
Multivariaat (met meerdere veranderlijke)
o Wiskundige statistiek
Combinatieleer
Kansrekening
Distributiefuncties: discreet – continue – steekproeftheorie
o Verklarende statistiek
Betrouwbaarheidsintervallen (verschillende statistische parameters)
Testen van hypothesen: voor verschillende statistische parameter + voor
kansverdelingsfuncties + regressie + ANOVA
- Basisbegrippen
o Data / gegevens = observaties die verzameld werden
o Populatie = de verzameling van ALLE elementen die bestudeerd worden
Parameter / kengetal = numerieke waarde die eig. van populatie beschrijft
o Telling = verzameling van data over alle leden van populatie
o Steekproef = verzameling van data over DEELgroep van populatie
(Steekproef)grootheid = numerieke waarde die eig. van steekproef beschrijft
- Verzamelen van data
o 2 bronnen
Observatie => meten / observeren van eigenschappen van elementen
steekproef (mogelijk vooraf bestaande data) = associatie aantonen
Experiment => meten / observeren van invloed van zekere behandelingen op
eigenschappen van de elementen van steekproef = oorzakelijk verband
o Verwarring = niet in staat onderscheid maken tussen effecten van verschillende
behandelingen in experiment
o Samplen = selecteren van elementen voor steekproef uit populatie volgens strategie
, Strategieën: random + systematisch + geclusterd + groepsgewijze selectie +
“zonder veel moeite” (dia 22)
H2: Data voorstelling
- Veranderlijke (= eig. die kan variëren)
o Kwalitatieve veranderlijke = categorie
o Kwantitatieve = meting of telling
Discrete veranderlijke = eindig (of aftelbaar) aantal waarden aannemen
Continue veranderlijke = alle waarden aannemen in (al dan niet) eindig
interval (zonder sprong tussen waarden)
o Gegevens/date = waarden die veranderlijke aannemen
- Meetniveaus
o Nominaal = gegevens onderscheiden door naam / label / categorie
Geen ordening / geen meeteenheid / geen verhouding
o Ordinaal
Wel ordening / geen meeteenheid / geen verhouding
o Interval
Geen absoluut nulpunt / startpunt
Wel ordening / wel meeteenheid / geen verhouding
o Ratio
Wel absoluut nulpunt / startpunt
Wel ordening / wel meeteenheid / wel verhouding
- Kwalitatieve data
o Frequentietabel = samenvatting per categorie
Absolute frequenties => tellen (voor elke categorie)
Relatieve/%/cumu. frequenties => absolute frequentie / som alle warden
- Kwantitatieve data
o Frequentietabel
Absolute + relatieve frequenties => nu wel ordening van numerieke
categorieën (soms nood aan groepering datacat.)
o Frequentietabel groeperen van data (dia 20)
Single – value grouping ( 1 aparte klasse per waarde + beperkt aantal)
Limit grouping (onder en bovengrens voor elke klasse, groot aantal gehele)
Klassebreedte = verschil ondergrens klasse en ondergrens volgende
Klassemidden = gemiddelde onder en bovengrens klasse
Cutpoint grouping (elke klasse halfopen interval)
Gesloten onderaan, open bovenaan => elke waarde 1 interval
Ondergrens elke klasse = kleinste waarde
Bovengrens elke klasse = ondergrens volgende klasse
Klassebreedte = verschil boven en ondergrens klasse
Klassemidden = gemiddelde boven en ondergrens klasse
o Grafieken
Histogram (kan voor alle 3) / frequentiepolygoon / ogieve & cumulatieve
frequentiepolygoon / (modified) boxplot / dot-plot / stamdiagram /
scatterplot & spreidingsdiagram
- Vorm van distributie
o Grafiek / tabel / formule die aangeeft x waarden mogelijke observaties voorkomen
, o Eigenschappen
Modaliteit = aantal pieken (modi ) / scheefheid = symmetrisch of met
overwicht van kleine (links scheef) / grote waarden (rechts scheef)
H3: Kerngetallen en grootheden
- Kengetallen voor het centrum
o Gemiddelde: Populatie µ & Steekproef 𝑥 ̅
Berekening voor afzonderlijke waarnemingen
Berekening voor gegroepeerde waarnemingen
Single-value grouping:
Limit grouping of cutpoint grouping:
o Mediaan = waarde voor evenveel grotere observaties als kleinere observaties =>
maat voor midden van data = xme
Vereist (stijgend) gesorteerde data
Berekening voor afzonderlijke waarnemingen
Aantal elementen (N populatie, n steekproef)
o Oneven = middelste waarde
o Even = gemiddelde van de 2 middelste waarden
Berekening voor gegroepeerde waarnemingen
Single value = zelfde afzonderlijke waarnemingen
Limit of cutpoint
o Interpolatie van de ogive => gebruik relatieve cumulatieve
frequenties => waarde waar ogive 50 % bereikt
o Modus
= de observatie die het vaakst voorkomt
Bij een onderverdeling in klassen: modale klasse = klasse met
hoogste frequentie
Bij continue verdeling: lokaal maximum in de distributiefunctie
- Kengetallen voor de spreiding
o Variantie: populatie = 𝜎² & steekproef = 𝜎
Afzonderlijke waarnemingen
Gegroepeerde waarnemingen
Single value grouping
, Limit of cutpoint grouping
o Standaardafwijking: populatie = s² & steekproef = s
= positieve vierkantswortel van variantie
Maat voor afwijking van alle waarden tov. gemiddelde + beïnvloeding door
uitschieters
o Bereik = Max – Min (eindig + gevoelig voor uitschieters)
o Variatiecoëfficiënt
= hoe nauw zitten de data bij ratio-meetniveau rond de typische gemiddelde
waarden
Zinvol voor ratio-meetniveau (dimensieloos)
Vuistregel
CV < 5% => zeer kleine spreiding
CV < 20% => relatief beperkte spreiding
CV > 50% => zeer grote spreiding
o Ruwe regels voor spreiding
- Kengetallen voor relatieve positie
o Percentielen
PK voor k-de percentiel = k% van de waarnemingen zijn kleiner dan Pk en
(100-k%) van waarnemingen groter dan Pk
Berekening dia 50
o Kwartielen
Eerste kwartiel: Q1 = P25
Tweede kwartiel (mediaan): Q2 = P50
Derde kwartiel: Q3 = P75
Interkwartielafstand: IQR = Q3 -Q1
Bevat 50% centrale waarden van de verdeling
o Decielen = opdeling van data in 10 gelijke delen (P10, P20, P30…0
o Kwintielen = opdeling van data in 5 gelijke delen (P20, P40, P60, P80)
o 5 getallen samenvatting
5 getallen: Min – Q1 – Q2 – Q3 – Max
Uiterste grenzen: min, max
Geconcentreerdheid: rond centrum; IQR te klein tov bereik
Scheefheid: Linker of rechterdeel meer of minder uit elkaar
Voorstellen met (gewijzigd) boxplot
- Gestandaardiseerde veranderlijke
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper alinet. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €6,99. Je zit daarna nergens aan vast.