Statistiek 1
Werkcollege 1
Populatie – de gehele groep elementen (personen, objecten, etc.) waarover
informatie wordt gewenst.
Steekproef – gedeelte van de populatie dat feitelijk wordt onderzocht om
informatie te vergaren.
Eenheden – de elementen van de steekproef waaraan gegevens worden
verzameld.
- Mensen, dieren, veldjes, zwangere vrouwen.
Variabele – eigenschap van een element uit de steekproef die wordt bepaald.
- Lengte, gewicht, opbrengst, haarkleur.
- Kwantitatieve variabele:
o Discreet: onderscheiden in enkele categorieën (aantal
linkshandigen, aantal zieke planten, aantal rokende vrouwen tijdens
zwangerschap).
o Continu: schaal, tussen elke observaties is een nieuwe mogelijkheid
veel categorieën (lengte, geboortegewicht, opbrengst).
- Kwalitatieve variabele:
o Nominaal: gelijkwaardige categorieën (haarkleur, afstudeerrichting,
woonplaats).
o Ordinaal: categorieën rangschikken/ordenen (klassen,
opleidingsniveau, salaris).
Goede manier van steekproeftrekking
Enkelvoudige aselecte steekproef (EAS): worden willekeurig een aantal eenheden
uit de populatie genomen.
Let op!: onvolledige dekking (bepaalde groepen worden niet bij steekproef
betrokken), non-respons, vrijwillige reactie (meestal uitgesproken positief of
negatief), vertekening van reactie (sociaal wenselijke antwoorden).
Observationeel onderzoek: observatie zonder te beïnvloeden.
Experimenteel onderzoek: opzettelijk behandelingen toekennen om reactie waar
te nemen (oorzaak/gevolg reactie vaststellen).
Weergeven van kwalitatieve variabelen (en discrete variabelen met beperkt
aantal uitkomsten)
- Frequentietabel: naam, frequentie,
relatieve frequentie.
- Staafdiagram.
Weergeven van kwantitatieve variabelen
- Tabel (klassen, frequentie, relatieve
frequentie).
- Histogram (afwijkingen van dit patroon:
uitbijter).
Werkcollege 2
Maten om gegevens samen te vatten
- Centrummaten:
o Gemiddelde: notatie ӯ gevoelig voor uitbijters.
, o Mediaan (M): rangschik de waarnemingen van klein naar groot, het
middelste getal is de mediaan, 50% van de getallen zit erboven en
50% zit eronder niet gevoelig voor uitbijters.
o Symmetrische verdeling: ӯ = M.
o Verdeling naar links: ӯ > M.
o Verdeling naar rechts: ӯ < M.
- Numerieke maten voor spreiding (variatie):
o Spreidingsbreedte (range): maximum – minimum.
o Standaarddeviatie (SD of standaardafwijking) = s = √variantie bij
normaalverdeling
Variantie = s²
o Interkwartielafstand =
Q₃ - Q₁ niet gevoelig
voor uitbijters.
Q₁ = 1e kwartiel = 25%
punt.
Q₃ = 3e kwartiel = 75%
punt.
M = Q₂ = 50% punt.
Het pe percentiel van
een groep van n
geordende
waarnemingen is die
waarde waarvoor
hoogstens p% van de waarnemingen eronder liggen en hoogstens
(100-p)% erboven.
5-getallen samenvatting
- Minimum.
- Eerste kwartiel (Q₁).
- Mediaan (tweede kwartiel).
- Derde kwartiel
(Q₃).
- Maximum.
Boxplot
Uitbijters worden
weergegeven met een
punt (milde uitbijter,
1.5x groter dan M) of
een sterretje (extreme
uitbijter, 3x groter dan
M).
Normale verdeling
68-95-99.7 regel
(Empirical Rule):
vuistregel voor een
set waarnemingen
met een klokvormig histogram.
- Ongeveer 68%van de waarnemingen ligt in het interval (ӯ – s, ӯ + s).
- Ongeveer 95% van de waarnemingen ligt in het interval (ӯ – 2s, ӯ + 2s).
- Ongeveer 99.7% van de waarnemingen ligt in het interval (ӯ – 3s, ӯ + 3s).