100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
Samenvatting Schema Statistiek & data analyse €2,99
In winkelwagen

Samenvatting

Samenvatting Schema Statistiek & data analyse

 0 keer bekeken  0 keer verkocht

Overzichtelijke samenvatting / schema van het vak statistiek & data analyse 1e jaar biochemie & biotechnologie Bevat alle info om te moeten slagen samengegoten in een mooi schema Door in eerste zit

Voorbeeld 3 van de 26  pagina's

  • Ja
  • 16 december 2024
  • 26
  • 2022/2023
  • Samenvatting
book image

Titel boek:

Auteur(s):

  • Uitgave:
  • ISBN:
  • Druk:
Alle documenten voor dit vak (1)
avatar-seller
Sciencestudent123
Hoofdstuk 1: Doel van statistiek
DOEL = antwoorden formuleren op onderzoeksvragen over een populatie, gebaseerd op bevindingen in een willekeurige steekproef uit
die populatie

Stappen in een statistische analyse:
1. Het opzetten van relevante experimenten: verzamelen van gegevens
2. Een exploratieve analyse van de gegevens: beschrijvende statistiek
3. Het nemen van beslissingen obv een wiskundig model: statistische inferentie

Verzamelen van gegevens: begrippen
▪ Variabelen: verschillende eigenschappen die gemeten worden
o Notatie = hoofdletter: X, Y, Z, …
▪ Uitkomstenverzameling: alle mogelijke resultaten
o S1 = { }
▪ Steekproefgrootte: onderzochte aantal
o Notatie: n
o Hoe groter, hoe meer informatie
▪ Resultaten: notatie
o Bij 1 toevalsvariabele X: x1, x2, … , xn
o Bij 2 toevalsvariabelen X en Y: (x1, y1), (x2, y2), … , (xn, yn)
o Bij p toevalsvariabelen X1, … , Xp: xij , i = {1,…,n} , j = {1, … , p}
▪ Gegevensmatrix: ondergebrachte gegevens
o Rijen: onderzoekseenheden
o Kolommen: (toevals)variabelen

Verzamelen van gegevens: classificatie van gegevens
Kwalitatieve (categorische) variabelen Kwantitatieve (metrische ) variabelen
NOMINAAL: de niveaus zijn ORDINAAL: elementen van de DISCRETE: beperkt aantal CONTINUE: een (bijna)
niet te interpreteren in termen uitkomstverzameling worden mogelijke uitkomsten. Aantal onbeperkt aantal mogelijke
van meer en minder of van geordend volgens een bepaald elementen uit van de uitkomst- uitkomsten. Wél mogelijk een
groter en kleiner, er is géén ordeningscriterium. Cijfers enverzameling is eindig derde mogelijke uitkomst te
ordening of wiskundige vergelijken maar geen (aftelbaar). Onmogelijk om vinden die tussen 2 ligt.
berekening wiskundige formules tussen 2 opeenvolgende - Tijd per week
- “Westen”, “Zuiden”, - Veel – weinig waarden van de blootgesteld aan iets
“Oosten”, “Noorden” - Klein – groot uitkomstenverzameling een
derde te denken.
- Aantal ongevallen


Overzicht




Opmerkingen:
▪ Omdat de nauwkeurigheid van een meting beperkt is tot de nauwkeurigheid van het meetinstrument, zullen
steekproefgegevens altijd discreet voorgesteld worden, ook al is de achterliggende variabele continu
▪ Wanneer een discrete toevalsvariabelen heel veel verschillende mogelijke uitkomsten heeft, wordt deze in de
praktijk vaak beschouwd als een continue toevalsvariabele

,Hoofdstuk 2: Beschrijvende statistiek
Absolute en relatieve frequentie
DOEL BESCHRIJVENDE STATISTIEK: de gegevens uit de steekproef op een duidelijke en verantwoorde manier voorstellen en
samenvatten
Frequentietabellen voor kwalitatieve variabelen Frequentietabel voor kwantitatieve variabelen
▪ Gegeven: x1, … , xn ▪ Uitkomstenverzameling: S = {m1, … , mk}
▪ Uitkomstenverzameling: S = {m1, … , mk} o Eindig: frequentietabel, staafdiagram, …
▪ Absolute frequentie nj : aantal uitkomsten xi die gelijk ▪ Uitkomstenverzameling: S = {m1, … , mk}
zijn aan mj o Oneindig: discretisatie of groepering van
▪ Relatieve frequentie / steekproefproportie: fj,n = nj/n gegevens
o ∑𝑗=1 𝑘 𝑓𝑗,𝑛 𝑛1 𝑛2
= + + ⋯+ = 1
𝑛𝑘 o Deel S op in k klassen: ∆ = klassenbreedte
𝑛 𝑛 𝑛 𝑛 o Nieuwe discrete uitkomstenverzameling
▪ Frequentietabel: samengevoegde frequenties: S = {m1 , … ,, mk} met mj als klassenmiddens
o Tabel:




▪ Grafische voorstelling: staafdiagram, taartdiagram, …

▪ Grafische voorstelling: histogram
o Toont hoe steekproefgegevens verdeeld zijn
o Benadert theoretische verdeling vd variabele
o Oppervlak = 1
▪ In R:




▪ In R:




▪ Histogram met frequentiedichtheden: de hoogte boven
een klasse is gelijk aan de frequentiedichtheid
o Relatieve frequentie van die klasse gedeeld
door de overeenkomstige klassenbreedte
𝑓𝑗,𝑛 𝑛𝑗
o ℎ𝑗 = ℎ(𝑚𝑗 ) = =
∆𝑗 ∆𝑗 𝑛
𝑛𝑗
o Totale opp = ∑𝑘𝑗=1 ∆𝑗 ℎ𝑗 = ∑𝑘𝑗=1 =1
𝑛


Cumulatieve frequenties en kwantielen
* Enkel kwantitatieve variabelen
Cumulatieve verdelingsfunctie: het relatief aantal steekproefuitkomsten xi die niet groter zijn dan x
1
▪ 𝐹̂𝑛 (𝑥) = (𝑎𝑎𝑛𝑡𝑎𝑙 𝑥𝑖 ≤ 𝑥; 𝑖 = 1, … 𝑛)
𝑛
𝑖
▪ Indien er geen samenvallende waarden zijn: 𝐹̂𝑛 (𝑥𝑖 ) =
𝑛
▪ De verdelingsfunctie 𝐹̂𝑛 kent aan elke observatie de rang ervan toe, gedeeld door de steekproefomvang
Voorbeeld: →




Kwantielfunctie: 𝑄̂𝑛 , inverse van de verdelingsfunctie 𝐹̂𝑛
− Gegeven een bepaald percentage 0 < 𝑝 ≤ 1, welk reëel getal x situeert zich dan in de overeenkomstige positie in de steekproef?
▪ 𝑄̂𝑛 (𝑝) is het kleinste getal x waarvoor: 𝐹̂𝑛 (𝑥) ≥ 𝑝
𝑖−1 𝑖
▪ 𝑄̂𝑛 (𝑝) = 𝑥𝑖 indien: <𝑝≤
𝑛 𝑛
𝑄1 = 𝑄̂𝑛 (0,25)
Kwartielen: 𝑄2 = 𝑄̂𝑛 (0,50)
𝑄3 = 𝑄̂𝑛 (0,75)
− Symmetrische verdeling: 𝑄2 − 𝑄1 ≈ 𝑄3 − 𝑄2
𝑄 − 𝑄2 ≫ 𝑄2 − 𝑄1 (𝑟𝑒𝑐ℎ𝑡𝑠𝑠𝑐ℎ𝑒𝑒𝑓)
− Asymmetrische verdeling: 3
𝑄3 − 𝑄2 ≪ 𝑄2 − 𝑄1 (𝑙𝑖𝑛𝑘𝑠𝑠𝑐ℎ𝑒𝑒𝑓)

, Centrumkenmerken
Steekproefgemiddelde Mediaan
𝑥̅ = 𝑥̅𝑛 𝑥(𝑛+1) (𝑛 𝑜𝑛𝑒𝑣𝑒𝑛)
2
1
= (𝑥1 + ⋯ + 𝑥𝑛 ) 𝑀𝑒𝑑(𝑥1 , … 𝑥𝑛 ) = { 𝑥𝑛 +𝑥𝑛+1
𝑛 2 2
1
(𝑛 𝑒𝑣𝑒𝑛)
2
= ∑𝑛𝑖=1 𝑥𝑖
𝑛 − n oneven: 𝑀𝑒𝑑 = 𝑄̂𝑛 (0,5)
Discrete gegevens: 𝑆 = {𝑚1 , … , 𝑚𝑘 }: − n even: 𝑄̂𝑛 (0,5) = 𝑥𝑛/2
1
𝑥̅ = ∑𝑘𝑗=1 𝑚𝑗 𝑛𝑗 − Beduidend minder gevoelig aan uitschieters
𝑛
= ∑𝑘𝑗=1 𝑚𝑗 𝑓𝑗,𝑛
Erg gevoelig aan uitschieters!
Getrimd gemiddelde Modus
Een vast percentage (5 of 10%) van de kleinste en de grootste Voor kwalitatieve en kwantitatieve discrete variabelen:
gegevens worden weggelaten uit de gegevensverzameling en het − De modus is het element uit de uitkomstenverzameling
gemiddelde van de resterende gegevens wordt berekend dat het meest voorkomt in de steekproef, of dat de
− Meer reguliere observaties worden behouden dan bij hoogste frequentie vertoont
berekening van de mediaan − Bij histogram gebaseerd op continue gegevens wordt
− Indien het trimmingspercentage te groot is, worden te de modus gedefinieerd als het klassenmidden waar het
veel reguliere observaties weggelaten gekozen histogram de hoogste waarde bereikt
− Indien het trimmingspercentage te klein is; worden te
weinig uitschieters verwijderd

Spreidingskenmerken
Bereik Interkwartielafstand IQR Median Absolute Deviation
𝑅 = 𝑥𝑛 − 𝑥1 𝐼𝑄𝑅 = 𝑄3 − 𝑄1 𝑀𝐴𝐷 = 𝑀𝑒𝑑𝑖=1,…,𝑛 | 𝑥𝑖 − 𝑀𝑒𝑑(𝑥1 , … 𝑥𝑛 |
− Weinig informatief = 𝑄̂𝑛 (0,75) − 𝑄̂𝑛 (0,25) Je berekent dus eerst de afstand van elke
− Erg afhankelijk van Geeft de lengte v/e gebied weer, rond de observatie tot de mediaan en beschouwt
steekproefgrootte n mediaan gelegen dat ongeveer de helft vd dan de mediaan van al deze afstanden
− Erg gevoelig aan uitschieters gegevens bevat → Erg ongevoelig aan uitschieters
→ Minder gevoelig aan uitschieters Bij normale verdeling geldt voor
Bij normale verdeling geldt voor voldoende grote n:
voldoende grote n: →
𝐼𝑄𝑅
~2
𝐼𝑄𝑅 𝑀𝐴𝐷
→ ~1,34 𝑀𝐴𝐷
𝑠 → ~ 0,67
𝑠
𝑀𝐴𝐷
Genormaliseerde MAD:
0,67
Standaardafwijking en variantie
Standaardafwijking: Variantie
1
1
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑠2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑠=√ 𝑛−1
𝑛−1
𝑛 2
Discrete gegevens: 𝑠 = √ ∑𝑘𝑖=1(𝑚𝑗 − 𝑥̅ ) 𝑓𝑗,𝑛
𝑛−1
− Erg gevoelig aan uitschieters
Bij normale verdeling geldt:
→ Steeds ongeveer 2/3e van de gegevens binnen een afstand van 1 stddeviatie aan weerszijden vh steekproefgemiddelde ligt
→ Steeds ongeveer 95 procent van de gegevens binnen een afstand van 2 stddeviaties aan weerzijden vh
steekproefgemiddelde ligt.
𝑥 −𝑥̅
z-score: 𝑧𝑖 = 𝑖
𝑠
→ Bij gegevens uit een normale verdeling geldt dat ongeveer 2/3e van de gegevens een z-score heeft die gelegen is tussen -1 en
1 en ongeveer 95 procent van de gegevens een z-score tussen -2 en 2.

Boxplot
Levert heel wat informatie over de verdeling:
▪ Centrum: mediaan, eventueel gemiddelde
▪ Spreiding: IQR= lengte van de doos
▪ Scheefheid:
o Symmetrie: mediaan in midden van de doos; even lange whiskers
o Rechtsscheef: mediaan in onderste helft; bovenste whiskers langer
▪ Zwaarte van de staarten: veel uitschieters = zwaarstaartige verdeling
o Lengte snorharen is gebaseerd op de normale verdeling

Uitschieters detecteren: (voor normale verdeling)
− Boxplot-regel: de kans dat reguliere observaties de whiskers overschrijden is 0,7%
o Werkt erg goed als er maximum 25% uitschieters zijn
− Via de z-scores: als |𝑧𝑖 | > 2,58
o Uitschieters beïnvloeden 𝑥̅ en 𝑠 en daardoor kunnen uitschieters toch |𝑧𝑖 | < 2,58 hebben
𝑥 −𝑚𝑒𝑑(𝑥1 ,…,𝑥𝑛 )
− Via robuuste z-scores: 𝑖
𝑀𝐴𝐷/0,67
o Werkt steeds goed, tot max 50% uitschieters

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

√  	Verzekerd van kwaliteit door reviews

√ Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper Sciencestudent123. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €2,99. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 56326 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen
€2,99
  • (0)
In winkelwagen
Toegevoegd