Overzichtelijke samenvatting / schema van het vak statistiek & data analyse
1e jaar biochemie & biotechnologie
Bevat alle info om te moeten slagen samengegoten in een mooi schema
Door in eerste zit
Hoofdstuk 1: Doel van statistiek
DOEL = antwoorden formuleren op onderzoeksvragen over een populatie, gebaseerd op bevindingen in een willekeurige steekproef uit
die populatie
Stappen in een statistische analyse:
1. Het opzetten van relevante experimenten: verzamelen van gegevens
2. Een exploratieve analyse van de gegevens: beschrijvende statistiek
3. Het nemen van beslissingen obv een wiskundig model: statistische inferentie
Verzamelen van gegevens: begrippen
▪ Variabelen: verschillende eigenschappen die gemeten worden
o Notatie = hoofdletter: X, Y, Z, …
▪ Uitkomstenverzameling: alle mogelijke resultaten
o S1 = { }
▪ Steekproefgrootte: onderzochte aantal
o Notatie: n
o Hoe groter, hoe meer informatie
▪ Resultaten: notatie
o Bij 1 toevalsvariabele X: x1, x2, … , xn
o Bij 2 toevalsvariabelen X en Y: (x1, y1), (x2, y2), … , (xn, yn)
o Bij p toevalsvariabelen X1, … , Xp: xij , i = {1,…,n} , j = {1, … , p}
▪ Gegevensmatrix: ondergebrachte gegevens
o Rijen: onderzoekseenheden
o Kolommen: (toevals)variabelen
Verzamelen van gegevens: classificatie van gegevens
Kwalitatieve (categorische) variabelen Kwantitatieve (metrische ) variabelen
NOMINAAL: de niveaus zijn ORDINAAL: elementen van de DISCRETE: beperkt aantal CONTINUE: een (bijna)
niet te interpreteren in termen uitkomstverzameling worden mogelijke uitkomsten. Aantal onbeperkt aantal mogelijke
van meer en minder of van geordend volgens een bepaald elementen uit van de uitkomst- uitkomsten. Wél mogelijk een
groter en kleiner, er is géén ordeningscriterium. Cijfers enverzameling is eindig derde mogelijke uitkomst te
ordening of wiskundige vergelijken maar geen (aftelbaar). Onmogelijk om vinden die tussen 2 ligt.
berekening wiskundige formules tussen 2 opeenvolgende - Tijd per week
- “Westen”, “Zuiden”, - Veel – weinig waarden van de blootgesteld aan iets
“Oosten”, “Noorden” - Klein – groot uitkomstenverzameling een
derde te denken.
- Aantal ongevallen
Overzicht
Opmerkingen:
▪ Omdat de nauwkeurigheid van een meting beperkt is tot de nauwkeurigheid van het meetinstrument, zullen
steekproefgegevens altijd discreet voorgesteld worden, ook al is de achterliggende variabele continu
▪ Wanneer een discrete toevalsvariabelen heel veel verschillende mogelijke uitkomsten heeft, wordt deze in de
praktijk vaak beschouwd als een continue toevalsvariabele
,Hoofdstuk 2: Beschrijvende statistiek
Absolute en relatieve frequentie
DOEL BESCHRIJVENDE STATISTIEK: de gegevens uit de steekproef op een duidelijke en verantwoorde manier voorstellen en
samenvatten
Frequentietabellen voor kwalitatieve variabelen Frequentietabel voor kwantitatieve variabelen
▪ Gegeven: x1, … , xn ▪ Uitkomstenverzameling: S = {m1, … , mk}
▪ Uitkomstenverzameling: S = {m1, … , mk} o Eindig: frequentietabel, staafdiagram, …
▪ Absolute frequentie nj : aantal uitkomsten xi die gelijk ▪ Uitkomstenverzameling: S = {m1, … , mk}
zijn aan mj o Oneindig: discretisatie of groepering van
▪ Relatieve frequentie / steekproefproportie: fj,n = nj/n gegevens
o ∑𝑗=1 𝑘 𝑓𝑗,𝑛 𝑛1 𝑛2
= + + ⋯+ = 1
𝑛𝑘 o Deel S op in k klassen: ∆ = klassenbreedte
𝑛 𝑛 𝑛 𝑛 o Nieuwe discrete uitkomstenverzameling
▪ Frequentietabel: samengevoegde frequenties: S = {m1 , … ,, mk} met mj als klassenmiddens
o Tabel:
▪ Grafische voorstelling: histogram
o Toont hoe steekproefgegevens verdeeld zijn
o Benadert theoretische verdeling vd variabele
o Oppervlak = 1
▪ In R:
▪ In R:
▪ Histogram met frequentiedichtheden: de hoogte boven
een klasse is gelijk aan de frequentiedichtheid
o Relatieve frequentie van die klasse gedeeld
door de overeenkomstige klassenbreedte
𝑓𝑗,𝑛 𝑛𝑗
o ℎ𝑗 = ℎ(𝑚𝑗 ) = =
∆𝑗 ∆𝑗 𝑛
𝑛𝑗
o Totale opp = ∑𝑘𝑗=1 ∆𝑗 ℎ𝑗 = ∑𝑘𝑗=1 =1
𝑛
Cumulatieve frequenties en kwantielen
* Enkel kwantitatieve variabelen
Cumulatieve verdelingsfunctie: het relatief aantal steekproefuitkomsten xi die niet groter zijn dan x
1
▪ 𝐹̂𝑛 (𝑥) = (𝑎𝑎𝑛𝑡𝑎𝑙 𝑥𝑖 ≤ 𝑥; 𝑖 = 1, … 𝑛)
𝑛
𝑖
▪ Indien er geen samenvallende waarden zijn: 𝐹̂𝑛 (𝑥𝑖 ) =
𝑛
▪ De verdelingsfunctie 𝐹̂𝑛 kent aan elke observatie de rang ervan toe, gedeeld door de steekproefomvang
Voorbeeld: →
Kwantielfunctie: 𝑄̂𝑛 , inverse van de verdelingsfunctie 𝐹̂𝑛
− Gegeven een bepaald percentage 0 < 𝑝 ≤ 1, welk reëel getal x situeert zich dan in de overeenkomstige positie in de steekproef?
▪ 𝑄̂𝑛 (𝑝) is het kleinste getal x waarvoor: 𝐹̂𝑛 (𝑥) ≥ 𝑝
𝑖−1 𝑖
▪ 𝑄̂𝑛 (𝑝) = 𝑥𝑖 indien: <𝑝≤
𝑛 𝑛
𝑄1 = 𝑄̂𝑛 (0,25)
Kwartielen: 𝑄2 = 𝑄̂𝑛 (0,50)
𝑄3 = 𝑄̂𝑛 (0,75)
− Symmetrische verdeling: 𝑄2 − 𝑄1 ≈ 𝑄3 − 𝑄2
𝑄 − 𝑄2 ≫ 𝑄2 − 𝑄1 (𝑟𝑒𝑐ℎ𝑡𝑠𝑠𝑐ℎ𝑒𝑒𝑓)
− Asymmetrische verdeling: 3
𝑄3 − 𝑄2 ≪ 𝑄2 − 𝑄1 (𝑙𝑖𝑛𝑘𝑠𝑠𝑐ℎ𝑒𝑒𝑓)
, Centrumkenmerken
Steekproefgemiddelde Mediaan
𝑥̅ = 𝑥̅𝑛 𝑥(𝑛+1) (𝑛 𝑜𝑛𝑒𝑣𝑒𝑛)
2
1
= (𝑥1 + ⋯ + 𝑥𝑛 ) 𝑀𝑒𝑑(𝑥1 , … 𝑥𝑛 ) = { 𝑥𝑛 +𝑥𝑛+1
𝑛 2 2
1
(𝑛 𝑒𝑣𝑒𝑛)
2
= ∑𝑛𝑖=1 𝑥𝑖
𝑛 − n oneven: 𝑀𝑒𝑑 = 𝑄̂𝑛 (0,5)
Discrete gegevens: 𝑆 = {𝑚1 , … , 𝑚𝑘 }: − n even: 𝑄̂𝑛 (0,5) = 𝑥𝑛/2
1
𝑥̅ = ∑𝑘𝑗=1 𝑚𝑗 𝑛𝑗 − Beduidend minder gevoelig aan uitschieters
𝑛
= ∑𝑘𝑗=1 𝑚𝑗 𝑓𝑗,𝑛
Erg gevoelig aan uitschieters!
Getrimd gemiddelde Modus
Een vast percentage (5 of 10%) van de kleinste en de grootste Voor kwalitatieve en kwantitatieve discrete variabelen:
gegevens worden weggelaten uit de gegevensverzameling en het − De modus is het element uit de uitkomstenverzameling
gemiddelde van de resterende gegevens wordt berekend dat het meest voorkomt in de steekproef, of dat de
− Meer reguliere observaties worden behouden dan bij hoogste frequentie vertoont
berekening van de mediaan − Bij histogram gebaseerd op continue gegevens wordt
− Indien het trimmingspercentage te groot is, worden te de modus gedefinieerd als het klassenmidden waar het
veel reguliere observaties weggelaten gekozen histogram de hoogste waarde bereikt
− Indien het trimmingspercentage te klein is; worden te
weinig uitschieters verwijderd
Spreidingskenmerken
Bereik Interkwartielafstand IQR Median Absolute Deviation
𝑅 = 𝑥𝑛 − 𝑥1 𝐼𝑄𝑅 = 𝑄3 − 𝑄1 𝑀𝐴𝐷 = 𝑀𝑒𝑑𝑖=1,…,𝑛 | 𝑥𝑖 − 𝑀𝑒𝑑(𝑥1 , … 𝑥𝑛 |
− Weinig informatief = 𝑄̂𝑛 (0,75) − 𝑄̂𝑛 (0,25) Je berekent dus eerst de afstand van elke
− Erg afhankelijk van Geeft de lengte v/e gebied weer, rond de observatie tot de mediaan en beschouwt
steekproefgrootte n mediaan gelegen dat ongeveer de helft vd dan de mediaan van al deze afstanden
− Erg gevoelig aan uitschieters gegevens bevat → Erg ongevoelig aan uitschieters
→ Minder gevoelig aan uitschieters Bij normale verdeling geldt voor
Bij normale verdeling geldt voor voldoende grote n:
voldoende grote n: →
𝐼𝑄𝑅
~2
𝐼𝑄𝑅 𝑀𝐴𝐷
→ ~1,34 𝑀𝐴𝐷
𝑠 → ~ 0,67
𝑠
𝑀𝐴𝐷
Genormaliseerde MAD:
0,67
Standaardafwijking en variantie
Standaardafwijking: Variantie
1
1
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑠2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑠=√ 𝑛−1
𝑛−1
𝑛 2
Discrete gegevens: 𝑠 = √ ∑𝑘𝑖=1(𝑚𝑗 − 𝑥̅ ) 𝑓𝑗,𝑛
𝑛−1
− Erg gevoelig aan uitschieters
Bij normale verdeling geldt:
→ Steeds ongeveer 2/3e van de gegevens binnen een afstand van 1 stddeviatie aan weerszijden vh steekproefgemiddelde ligt
→ Steeds ongeveer 95 procent van de gegevens binnen een afstand van 2 stddeviaties aan weerzijden vh
steekproefgemiddelde ligt.
𝑥 −𝑥̅
z-score: 𝑧𝑖 = 𝑖
𝑠
→ Bij gegevens uit een normale verdeling geldt dat ongeveer 2/3e van de gegevens een z-score heeft die gelegen is tussen -1 en
1 en ongeveer 95 procent van de gegevens een z-score tussen -2 en 2.
Boxplot
Levert heel wat informatie over de verdeling:
▪ Centrum: mediaan, eventueel gemiddelde
▪ Spreiding: IQR= lengte van de doos
▪ Scheefheid:
o Symmetrie: mediaan in midden van de doos; even lange whiskers
o Rechtsscheef: mediaan in onderste helft; bovenste whiskers langer
▪ Zwaarte van de staarten: veel uitschieters = zwaarstaartige verdeling
o Lengte snorharen is gebaseerd op de normale verdeling
Uitschieters detecteren: (voor normale verdeling)
− Boxplot-regel: de kans dat reguliere observaties de whiskers overschrijden is 0,7%
o Werkt erg goed als er maximum 25% uitschieters zijn
− Via de z-scores: als |𝑧𝑖 | > 2,58
o Uitschieters beïnvloeden 𝑥̅ en 𝑠 en daardoor kunnen uitschieters toch |𝑧𝑖 | < 2,58 hebben
𝑥 −𝑚𝑒𝑑(𝑥1 ,…,𝑥𝑛 )
− Via robuuste z-scores: 𝑖
𝑀𝐴𝐷/0,67
o Werkt steeds goed, tot max 50% uitschieters
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller Sciencestudent123. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $3.21. You're not tied to anything after your purchase.