Statistiek samenvatting
Hfd 1
(simple) Random sample: steekproef selecteren op zon manier dat elke n een gelijke kans heeft om
te worden gekozen.
Systematisch steekproef: j = N/n,
Populatie -> Parameters N
Steekproef -> statistieken n
Steekproef error: alleen informatie over een deel van de populatie bekend.
Categorische variabelen: produceren antwoorden voor groepen en categorieën. (1. Zeer oneens, 2.
Oneens, 3. Niet oneens of eens, 4. Eens, 5. Zeer eens).
Numerieke variabelen
- Discrete numerieke variabelen: antwoord van telproces. Gehele waarden (aantal studenten
in de klas). Staafdiagram ruimte tussen staven.
- Continue numerieke variabelen: meetproces. Alle waarden en halven (afstand tussen 2
steden). Histogram staven aan elkaar.
Kwalitatieve date: Categorieën, niet mee rekenen
- Ordinaal: Hiërarchisch volgorde, 1. WO; 2. HBO; 3. VO; 4. BO; 5 GEEN
- Nominaal: Geen volgorde, 1. Vrouw; 2 Man
Grafisch weergave: Frequentieverdeling, staafdiagram, kruistabel
Kwantitatieve data: Waarden, wel mee rekenen
- Intervaldata: waarden zowel negatief als positief, temperatuur
- Ratiodata: nulpunt, geen negatieve waarden, lengte
Grafisch weergave: Frequentieverdeling ( < 1000 = 5-10 klassen), histogram,
spreidingsdiagram, lijndiagram, ogive
Pareto diagram: staafdiagram met frequentie van defectoorzaken.
Rechts scheef verdeeld Links scheef verdeeld
Verdeling positief Verdeling negatief
Gemiddelde > mediaan Gemiddelde < mediaan
Hfd 2
Centrale tendens:
,Gemiddelde: Som alle waarden / aantal waarden. X1+ x2../ N,n (gevoelig uitschieters)
- µ = populatie X̄ = steekproef
Mediaan (Q2): EERST SORTEREN middelste waarde (niet gevoelig uitschieters)
Positie: (n+1)/2 , dan dat getal pakken of gemiddelde 2 middelste
Modus (mode): meest voorkomend getal, 1 = unimodaal, 2 = bimodaal, 3 of meer = multimodaal.
Ook categorial
Geometrisch gemiddelde (groei in een bepaalde tijd): X̄g alles * elkaar ^1/n (1,25^1/5)
Geometrisch gemiddelde rendement: r g (alles * elkaar ^1/n) -1
Percentiel geven de positie van de waarde in vergelijking met de hele dataset:
EERSTE SORTEREN Locatie (p/100)*(n+1) = positie percentiel
Vb. Stel: positie 10 = 100 en positie 11 = 120 Dan is positie 10,1: 100 + 0,1×(120−100) = 102
Kwartielen verdelen dataset in 4 delen
- Eerste kwartiel: 25e percentiel
- Tweede kwartiel: 50e percentiel (mediaan)
- Derde kwartiel: 75e percentiel
Vijf-getallensamenvatting: Kwartielen + min en max, (Boxplot) min ≤ Q1 ≤ Q2 (mediaa
n) ≤Q3 ≤ max
Variabiliteit: Hoe ruim de data rond het gemiddelde verspreid is door:
- Bereik (range): Max – Min
- Interkwartielafstand (IQR): spreiding middelste 50% Q3 - Q1 (minder gevoelig
uitschieters)
Variantie: Spreiding rond het gemiddelde
n N
1 1
Steekproef: s2 = x ∑ (Xi− X̄ )2 Populatie: σ2 = ∑ (Xi−µ) 2
n−1 i=1 N i=1
Standaardafwijking: gemiddelde spreiding rond het gemiddelde
Steekproef: s = √ s 2 Populatie: σ = √ σ 2
σ S
Coëfficiënt van variatie (CV) = x 100% (als µ > 0) x 100% (als s > 0)
μ x
Chebyshev’s theorie:
[ μ ± kσ ] [1-(1/k 2)]%
K = aantal standaardafwijking tussen gegevens
- Bij 65-85 en 5 standaardafwijking is k = 2
Voor een bel-vormige verdeling geldt
±68% van de observaties valt in het interval μ±1σ
±95% van de observaties valt in het interval μ±2σ
en vrijwel alle observaties vallen in het interval μ±3σ
, Z-score
Xi−μ
Z=
σ
Onafhankelijke variabele (X) en Afhankelijke variabele (Y)
Covariantie: Meet richting lineaire relatie tussen 2 variabelen.
N
1
Populatie: Cov(X,Y) = σ xy =
N
∑ ¿ ¿ )(Yi−µ )
x y Steekproef :
i=1
n
1
Cov(X,Y) = sxy = ∑ ¿ ¿)(Yi−Y )
n−1 i=1
- Cov(x,y) > 0⇒x en y zijn geneigd in dezelfde richting te bewegen
- Cov(x,y) < 0⇒x en y zijn geneigd in tegengestelde richting te bewegen
- Cov(x,y) = 0⇒x en y zijn niet geneigd in dezelfde of tegengestelde richting te bewegen
Variabelen onafhankelijk bij Cov(x,y) = 0!
Correlatie(coeffecient) : Mate van richting en sterkte lineaire verband tussen 2 variabelen
σ xy Sxy
Populatie: ρ xy = Steekproef: rxy =
σ xσ y SxSy
2
Vuistregel correlatie: verband als [r[ ≥ GEEN CAUSAAL VERBAND
√n
- R = -1 negatief lineair verband
- R = 0 zwakker lineair verband
- R = 1 positief lineair verband
Hfd 3
Toevalsexperiment (random experiment): een proces dat resulteert in een onzekere uitkomst, 2 >
Uitkomst (basic outcome) (Oi): een mogelijke uitkomst van het toevalsexperiment
Uitkomstenruimte (sample space) (S): De verzameling van alle mogelijke uitkomsten van een
toevalsexperiment
Gebeurtenis (event) (E): Elke deelverzameling van uitkomsten uit de uitkomstenruimte
Doorsnede van gebeurtenissen (Intersection of events): zowel tot A als B . A∩B
Wederzijds uitsluitend (mutually exclusive): A en B geen uitkomsten gemeen
Vereniging van gebeurtenissen (Union of events): A of B of beide. A∪B; of A, of B, of allebei.
Gezamelijk grondig: Bedekt gehele uitkomstenruimte. Het
Complement: van A alle niet A. Abar of Ac
Kansen
Klassieke kans: kans dat gebeurtenis gebeurt, ervan uitgaand dat alle uitkomsten even gelijk zijn om
te gebeuren.
NA
P ( A )= NA = aantal dat gebeurtenis A N = Alle gebeurtenissen in S
N
In het algemeen kan je het aantal manieren om n verschillende objecten te sorteren uitrekenen als:
n! = n ·(n −1) ·(n −2) ·... ·1