Resume

Samenvatting Schema Statistiek & data analyse

1 vue 0 fois vendu

Cours
Statistiek & data analyse

Établissement
Katholieke Universiteit Leuven (KU Leuven)

Book
Statistiek en wetenschap

Overzichtelijke samenvatting / schema van het vak statistiek & data analyse 1e jaar biochemie & biotechnologie Bevat alle info om te moeten slagen samengegoten in een mooi schema Door in eerste zit

[Montrer plus]

Aperçu 3 sur 26 pages

Voir l'exemple

Livre entier ? Oui
Publié le 16 décembre 2024
Nombre de pages 26
Écrit en 2022/2023
Type Resume

€2,99

Egalement disponible en groupe à partir de €11,95

Ajouter au panier

Ajouter au liste de veux

Garantie de satisfaction à 100%
Disponible immédiatement après paiement
En ligne et en PDF
Tu n'es attaché à rien

Document également disponible en groupe (1)

Bachelor Biochemie & biotechnologie

€ 25,39 € 11,95 7 éléments

1. Examen - Examenvragen + oplossingen gip
2. Resume - Samenvatting algemene natuurkunde 1
3. Resume - Schema statistiek & data analyse
4. Resume - Samenvatting h1& 2 celbiologie & biochemie
5. Examen - Oplossing examenvragen levensmiddelenchemie & technologie
6. Resume - Samenvatting microbiologie
7. Examen - Oplossing examenvragen microbiologie
Montrer plus

Hoofdstuk 1: Doel van statistiek
DOEL = antwoorden formuleren op onderzoeksvragen over een populatie, gebaseerd op bevindingen in een willekeurige steekproef uit
die populatie

Stappen in een statistische analyse:
1. Het opzetten van relevante experimenten: verzamelen van gegevens
2. Een exploratieve analyse van de gegevens: beschrijvende statistiek
3. Het nemen van beslissingen obv een wiskundig model: statistische inferentie

Verzamelen van gegevens: begrippen
▪ Variabelen: verschillende eigenschappen die gemeten worden
o Notatie = hoofdletter: X, Y, Z, …
▪ Uitkomstenverzameling: alle mogelijke resultaten
o S1 = { }
▪ Steekproefgrootte: onderzochte aantal
o Notatie: n
o Hoe groter, hoe meer informatie
▪ Resultaten: notatie
o Bij 1 toevalsvariabele X: x1, x2, … , xn
o Bij 2 toevalsvariabelen X en Y: (x1, y1), (x2, y2), … , (xn, yn)
o Bij p toevalsvariabelen X1, … , Xp: xij , i = {1,…,n} , j = {1, … , p}
▪ Gegevensmatrix: ondergebrachte gegevens
o Rijen: onderzoekseenheden
o Kolommen: (toevals)variabelen

Verzamelen van gegevens: classificatie van gegevens
Kwalitatieve (categorische) variabelen Kwantitatieve (metrische ) variabelen
NOMINAAL: de niveaus zijn ORDINAAL: elementen van de DISCRETE: beperkt aantal CONTINUE: een (bijna)
niet te interpreteren in termen uitkomstverzameling worden mogelijke uitkomsten. Aantal onbeperkt aantal mogelijke
van meer en minder of van geordend volgens een bepaald elementen uit van de uitkomst- uitkomsten. Wél mogelijk een
groter en kleiner, er is géén ordeningscriterium. Cijfers enverzameling is eindig derde mogelijke uitkomst te
ordening of wiskundige vergelijken maar geen (aftelbaar). Onmogelijk om vinden die tussen 2 ligt.
berekening wiskundige formules tussen 2 opeenvolgende - Tijd per week
- “Westen”, “Zuiden”, - Veel – weinig waarden van de blootgesteld aan iets
“Oosten”, “Noorden” - Klein – groot uitkomstenverzameling een
derde te denken.
- Aantal ongevallen

Overzicht

Opmerkingen:
▪ Omdat de nauwkeurigheid van een meting beperkt is tot de nauwkeurigheid van het meetinstrument, zullen
steekproefgegevens altijd discreet voorgesteld worden, ook al is de achterliggende variabele continu
▪ Wanneer een discrete toevalsvariabelen heel veel verschillende mogelijke uitkomsten heeft, wordt deze in de
praktijk vaak beschouwd als een continue toevalsvariabele

,Hoofdstuk 2: Beschrijvende statistiek
Absolute en relatieve frequentie
DOEL BESCHRIJVENDE STATISTIEK: de gegevens uit de steekproef op een duidelijke en verantwoorde manier voorstellen en
samenvatten
Frequentietabellen voor kwalitatieve variabelen Frequentietabel voor kwantitatieve variabelen
▪ Gegeven: x1, … , xn ▪ Uitkomstenverzameling: S = {m1, … , mk}
▪ Uitkomstenverzameling: S = {m1, … , mk} o Eindig: frequentietabel, staafdiagram, …
▪ Absolute frequentie nj : aantal uitkomsten xi die gelijk ▪ Uitkomstenverzameling: S = {m1, … , mk}
zijn aan mj o Oneindig: discretisatie of groepering van
▪ Relatieve frequentie / steekproefproportie: fj,n = nj/n gegevens
o ∑𝑗=1 𝑘 𝑓𝑗,𝑛 𝑛1 𝑛2
= + + ⋯+ = 1
𝑛𝑘 o Deel S op in k klassen: ∆ = klassenbreedte
𝑛 𝑛 𝑛 𝑛 o Nieuwe discrete uitkomstenverzameling
▪ Frequentietabel: samengevoegde frequenties: S = {m1 , … ,, mk} met mj als klassenmiddens
o Tabel:

▪ Grafische voorstelling: staafdiagram, taartdiagram, …

▪ Grafische voorstelling: histogram
o Toont hoe steekproefgegevens verdeeld zijn
o Benadert theoretische verdeling vd variabele
o Oppervlak = 1
▪ In R:

▪ In R:

▪ Histogram met frequentiedichtheden: de hoogte boven
een klasse is gelijk aan de frequentiedichtheid
o Relatieve frequentie van die klasse gedeeld
door de overeenkomstige klassenbreedte
𝑓𝑗,𝑛 𝑛𝑗
o ℎ𝑗 = ℎ(𝑚𝑗 ) = =
∆𝑗 ∆𝑗 𝑛
𝑛𝑗
o Totale opp = ∑𝑘𝑗=1 ∆𝑗 ℎ𝑗 = ∑𝑘𝑗=1 =1
𝑛

Cumulatieve frequenties en kwantielen
* Enkel kwantitatieve variabelen
Cumulatieve verdelingsfunctie: het relatief aantal steekproefuitkomsten xi die niet groter zijn dan x
1
▪ 𝐹̂𝑛 (𝑥) = (𝑎𝑎𝑛𝑡𝑎𝑙 𝑥𝑖 ≤ 𝑥; 𝑖 = 1, … 𝑛)
𝑛
𝑖
▪ Indien er geen samenvallende waarden zijn: 𝐹̂𝑛 (𝑥𝑖 ) =
𝑛
▪ De verdelingsfunctie 𝐹̂𝑛 kent aan elke observatie de rang ervan toe, gedeeld door de steekproefomvang
Voorbeeld: →

Kwantielfunctie: 𝑄̂𝑛 , inverse van de verdelingsfunctie 𝐹̂𝑛
− Gegeven een bepaald percentage 0 < 𝑝 ≤ 1, welk reëel getal x situeert zich dan in de overeenkomstige positie in de steekproef?
▪ 𝑄̂𝑛 (𝑝) is het kleinste getal x waarvoor: 𝐹̂𝑛 (𝑥) ≥ 𝑝
𝑖−1 𝑖
▪ 𝑄̂𝑛 (𝑝) = 𝑥𝑖 indien: <𝑝≤
𝑛 𝑛
𝑄1 = 𝑄̂𝑛 (0,25)
Kwartielen: 𝑄2 = 𝑄̂𝑛 (0,50)
𝑄3 = 𝑄̂𝑛 (0,75)
− Symmetrische verdeling: 𝑄2 − 𝑄1 ≈ 𝑄3 − 𝑄2
𝑄 − 𝑄2 ≫ 𝑄2 − 𝑄1 (𝑟𝑒𝑐ℎ𝑡𝑠𝑠𝑐ℎ𝑒𝑒𝑓)
− Asymmetrische verdeling: 3
𝑄3 − 𝑄2 ≪ 𝑄2 − 𝑄1 (𝑙𝑖𝑛𝑘𝑠𝑠𝑐ℎ𝑒𝑒𝑓)

, Centrumkenmerken
Steekproefgemiddelde Mediaan
𝑥̅ = 𝑥̅𝑛 𝑥(𝑛+1) (𝑛 𝑜𝑛𝑒𝑣𝑒𝑛)
2
1
= (𝑥1 + ⋯ + 𝑥𝑛 ) 𝑀𝑒𝑑(𝑥1 , … 𝑥𝑛 ) = { 𝑥𝑛 +𝑥𝑛+1
𝑛 2 2
1
(𝑛 𝑒𝑣𝑒𝑛)
2
= ∑𝑛𝑖=1 𝑥𝑖
𝑛 − n oneven: 𝑀𝑒𝑑 = 𝑄̂𝑛 (0,5)
Discrete gegevens: 𝑆 = {𝑚1 , … , 𝑚𝑘 }: − n even: 𝑄̂𝑛 (0,5) = 𝑥𝑛/2
1
𝑥̅ = ∑𝑘𝑗=1 𝑚𝑗 𝑛𝑗 − Beduidend minder gevoelig aan uitschieters
𝑛
= ∑𝑘𝑗=1 𝑚𝑗 𝑓𝑗,𝑛
Erg gevoelig aan uitschieters!
Getrimd gemiddelde Modus
Een vast percentage (5 of 10%) van de kleinste en de grootste Voor kwalitatieve en kwantitatieve discrete variabelen:
gegevens worden weggelaten uit de gegevensverzameling en het − De modus is het element uit de uitkomstenverzameling
gemiddelde van de resterende gegevens wordt berekend dat het meest voorkomt in de steekproef, of dat de
− Meer reguliere observaties worden behouden dan bij hoogste frequentie vertoont
berekening van de mediaan − Bij histogram gebaseerd op continue gegevens wordt
− Indien het trimmingspercentage te groot is, worden te de modus gedefinieerd als het klassenmidden waar het
veel reguliere observaties weggelaten gekozen histogram de hoogste waarde bereikt
− Indien het trimmingspercentage te klein is; worden te
weinig uitschieters verwijderd

Spreidingskenmerken
Bereik Interkwartielafstand IQR Median Absolute Deviation
𝑅 = 𝑥𝑛 − 𝑥1 𝐼𝑄𝑅 = 𝑄3 − 𝑄1 𝑀𝐴𝐷 = 𝑀𝑒𝑑𝑖=1,…,𝑛 | 𝑥𝑖 − 𝑀𝑒𝑑(𝑥1 , … 𝑥𝑛 |
− Weinig informatief = 𝑄̂𝑛 (0,75) − 𝑄̂𝑛 (0,25) Je berekent dus eerst de afstand van elke
− Erg afhankelijk van Geeft de lengte v/e gebied weer, rond de observatie tot de mediaan en beschouwt
steekproefgrootte n mediaan gelegen dat ongeveer de helft vd dan de mediaan van al deze afstanden
− Erg gevoelig aan uitschieters gegevens bevat → Erg ongevoelig aan uitschieters
→ Minder gevoelig aan uitschieters Bij normale verdeling geldt voor
Bij normale verdeling geldt voor voldoende grote n:
voldoende grote n: →
𝐼𝑄𝑅
~2
𝐼𝑄𝑅 𝑀𝐴𝐷
→ ~1,34 𝑀𝐴𝐷
𝑠 → ~ 0,67
𝑠
𝑀𝐴𝐷
Genormaliseerde MAD:
0,67
Standaardafwijking en variantie
Standaardafwijking: Variantie
1
1
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑠2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑠=√ 𝑛−1
𝑛−1
𝑛 2
Discrete gegevens: 𝑠 = √ ∑𝑘𝑖=1(𝑚𝑗 − 𝑥̅ ) 𝑓𝑗,𝑛
𝑛−1
− Erg gevoelig aan uitschieters
Bij normale verdeling geldt:
→ Steeds ongeveer 2/3e van de gegevens binnen een afstand van 1 stddeviatie aan weerszijden vh steekproefgemiddelde ligt
→ Steeds ongeveer 95 procent van de gegevens binnen een afstand van 2 stddeviaties aan weerzijden vh
steekproefgemiddelde ligt.
𝑥 −𝑥̅
z-score: 𝑧𝑖 = 𝑖
𝑠
→ Bij gegevens uit een normale verdeling geldt dat ongeveer 2/3e van de gegevens een z-score heeft die gelegen is tussen -1 en
1 en ongeveer 95 procent van de gegevens een z-score tussen -2 en 2.

Boxplot
Levert heel wat informatie over de verdeling:
▪ Centrum: mediaan, eventueel gemiddelde
▪ Spreiding: IQR= lengte van de doos
▪ Scheefheid:
o Symmetrie: mediaan in midden van de doos; even lange whiskers
o Rechtsscheef: mediaan in onderste helft; bovenste whiskers langer
▪ Zwaarte van de staarten: veel uitschieters = zwaarstaartige verdeling
o Lengte snorharen is gebaseerd op de normale verdeling

Uitschieters detecteren: (voor normale verdeling)
− Boxplot-regel: de kans dat reguliere observaties de whiskers overschrijden is 0,7%
o Werkt erg goed als er maximum 25% uitschieters zijn
− Via de z-scores: als |𝑧𝑖 | > 2,58
o Uitschieters beïnvloeden 𝑥̅ en 𝑠 en daardoor kunnen uitschieters toch |𝑧𝑖 | < 2,58 hebben
𝑥 −𝑚𝑒𝑑(𝑥1 ,…,𝑥𝑛 )
− Via robuuste z-scores: 𝑖
𝑀𝐴𝐷/0,67
o Werkt steeds goed, tot max 50% uitschieters

Les avantages d'acheter des résumés chez Stuvia:

Qualité garantie par les avis des clients

Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.

L’achat facile et rapide

Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.

Focus sur l’essentiel

Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.

Garantie de remboursement : comment ça marche ?

Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.

Auprès de qui est-ce que j'achète ce résumé ?

Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur Sciencestudent123. Stuvia facilite les paiements au vendeur.

Est-ce que j'aurai un abonnement?

Non, vous n'achetez ce résumé que pour €2,99. Vous n'êtes lié à rien après votre achat.

Peut-on faire confiance à Stuvia ?

4.6 étoiles sur Google & Trustpilot (+1000 avis)

59063 résumés ont été vendus ces 30 derniers jours

Fondée en 2010, la référence pour acheter des résumés depuis déjà 15 ans

Commencez à vendre!

Populaire universiteiten

Populaire hogescholen

Populaire studieboeken voor Communicatie en Taal

Populaire studieboeken voor Economie en Bedrijf

Populaire studieboeken voor Exact en Informatica

Populaire studieboeken voor Gedrag en Maatschappij

Populaire studieboeken voor Gezondheid en Geneeskunde

Populaire studieboeken voor Recht en Bestuur

Vendeur