Resume

Statistiek voor data science samenvatting | 17/20 EERSTE ZIT HIR

9 vues 0 fois vendu

Cours
Statistiek voor data science (D0H19A)

Établissement
Katholieke Universiteit Leuven (KU Leuven)

Deze samenvatting omvat alle leerstof uit de lessen Statistiek voor data science , gegeven aan de tweedejaars studenten Handelsingenieur door Christophe Croux. Deze samenvatting is gebaseerd op notities uit de lessen, aangevuld met de cursus en de powerpoints. Ik scoorde met deze samenvatting een 1...

[Montrer plus]

Aperçu 4 sur 33 pages

Voir l'exemple

Publié le 3 octobre 2024
Nombre de pages 33
Écrit en 2024/2025
Type Resume

adamloots Membre depuis 1 année 52 documents vendus

€9,99

Egalement disponible en groupe à partir de €24,99

Ajouter au panier

Ajouter au liste de veux

Garantie de satisfaction à 100%
Disponible immédiatement après paiement
En ligne et en PDF
Tu n'es attaché à rien

Document également disponible en groupe (1)

Pakket tweede jaar HIR

€ 60,89 € 24,99

2x vendu

7 éléments

1. Resume - conceptuele natuurkunde met technische toepassingen 15/20 eerste zit | hir
2. Resume - externe financiële verslaggeving samenvatting | 14/20 eerste zit hir/tew
3. Resume - Kansrekenen en beschrijvende statistiek | 14/20 eerste zit hir
4. Resume - Statistiek voor data science samenvatting | 17/20 eerste zit hir
5. Resume - Productie en logistiek management samenvatting | 18/20 eerste zit hir/tew
6. Resume - Linear optimisation samenvatting | 15/20 eerste zit hir
7. Resume - Bedrijfsfinanciering samenvatting | 18/20 eerste zit hir/tew
Montrer plus

Statistiek voor data science
6. Hoofdstuk 6: Verdeling van steekproefgrootheden
6.0 Inleiding
In de praktijk kennen we meestal de kansverdeling niet van een situatie en dus ook niet de
verwachte waarde en de variantie. We bekijken kort 2 termen:
- Parameter: een numerieke beschrijvende maat van een populatie. De waarde ervan
is bijna altijd onbekend (bv: 𝑝 (kans op succes) in een binomiaal experiment, µ
(verwachting) en σ (standaardafwijking) bij een normale verdeling).
- Steekproefgrootheid: een numerieke beschrijvende maat van een steekproef. Deze
grootheid wordt berekend uit de waarden in de steekproef (bv: 𝑥 (gemiddelde) en 𝑠
(standaardafwijking) van een steekproef).

6.1 De verdeling van een steekproefgrootheid
De uitkomst van een steekproefgrootheid hangt van het toeval af en is bijgevolg een
stochastische variabele met een kansverdeling. Zo kan de kansverdeling voor een
steekproefgrootheid helemaal verschillen van een andere rond eenzelfde populatievariantie.

6.2 De centrale limietstelling

Eigenschappen van de kansverdeling van 𝑥: veronderstel een aselecte steekproef van 𝑛
waarnemingen getrokken uit een willekeurige populatie:
- De verwachting van de kansverdeling van het steekproefgemiddelde is de
verwachting van de populatie waaruit de steekproef wordt genomen. Dat wil zeggen:
µ𝑥 = 𝐸(𝑥) = µ.
- De standaardafwijking van de kansverdeling van het steekproefgemiddelde is gelijk
σ
aan: σ𝑥 = , waarbij σ𝑥 staat voor de standaardfout (standard error SE) van het
𝑛
gemiddelde en σ de standaardafwijking is van de populatie waaruit men trekt.

,Hierbij komen 3 belangrijke stellingen te pas:
- Steekproef uit een normale verdeling: als een aselecte steekproef van 𝑛
waarnemingen uit een populatie met een normale kansverdeling wordt genomen, zal
de kansverdeling van 𝑥 een normale verdeling zijn (blijft normaal).
- Steekproef uit een willekeurige verdeling: centrale limietstelling: als een aselecte
steekproef van 𝑛 waarnemingen uit een willekeurige populatie met verwachting µ en
standaardafwijking σ wordt genomen, zal, als 𝑛 groot genoeg is, de kansverdeling
van 𝑥 bij benadering normaal zijn met verwachting µ𝑥 = µ en standaardafwijking
σ
σ𝑥 = . Hoe groter de steekproef is, des te beter zal de benadering zijn.
𝑛
- De vraag rijst nu: Hoe groot moet 𝑛
zijn opdat de normale verdeling
een goede benadering geeft? Het
hangt af van de vorm van de
populatie, hoe meer de verdeling
afwijkt van de oorspronkelijke
populatie, des te groter de
steekproefomvang moet zijn. Voor
de meeste populaties zien we dat
𝑛 ≥ 30 voldoende zal zijn.

7. Hoofdstuk 7: Betrouwbaarheidsintervallen
gebaseerd op één enkele steekproef
7.1 Schatten van een parameter
(Punt)schatter: een regel of een formule voor een populatieparameter die ons zegt hoe we
uit de steekproef een getal moeten berekenen om de populatieparameter te schatten. Een
(punt)schatter is dus een steekproefgrootheid. De uitkomst van een schatter (een concreet
getal dus) noemen we een schatting.

Betrouwbaarheidsinterval (of intervalschatter): een regel of een formule die ons zegt hoe we
uit de steekproef een interval moeten berekenen dat de waarde van de parameter met een
bepaalde (hoge) waarschijnlijkheid bevat.

,7.2 Betrouwbaarheidsinterval voor een verwachting (𝑛 groot)
De betrouwbaarheidscoëfficiënt(1 − α) is de kans dat een betrouwbaarheidsinterval de
populatieparameter bevat. Uitgedrukt als percentage noemen we dit het
betrouwbaarheidsniveau.

Betrouwbaarheidsinterval voor µ (bij grote 𝑛):
σ
- σ bekend: 𝑥 ± 𝑧α/2σ𝑥 = 𝑥 ± 𝑧α/2 .
𝑛
𝑠
- σ onbekend: 𝑥 ± 𝑧α/2σ𝑥 ≈ 𝑥 ± 𝑧α/2 .
𝑛
⇒ Waarbij 𝑧α/2 de 𝑧-waarde is die hoort bij een oppervlakte α/2 in de staart van een
standaardnormale verdeling. σ𝑥 de standaardafwijking van de kansverdeling van 𝑥. σ en 𝑠 de
standaardafwijkingen in resp. populatie en steekproef.

Voorwaarden voor de geldigheid:

- De steekproef is een aselecte steekproef uit de populatie.
- De steekproefgrootte 𝑛 is groot (𝑛 ≥ 30). Deze voorwaarde komt voort uit de
centrale limietstelling. Hierdoor is de kansverdeling van 𝑥 bij benadering normaal. Bij
een grote 𝑛 zal 𝑠 ook een goede schatter zijn voor σ.

We bekijken een voorbeeld ter illustratie:

, 7.3 Betrouwbaarheidsinterval voor een verwachting (𝑛 klein)

Bij kleine steekproeven kunnen we niet langer veronderstellen dat de kansverdeling van 𝑥 bij
benadering normaal is, omdat de centrale limietstelling enkel geldt voor grote 𝑛, behalve als
de populatie waaruit we 𝑥 vinden normaal verdeeld is dan is 𝑥 ook normaal verdeeld (supra).

De standaardafwijking σ van de populatie is bijna altijd onbekend. Bij kleine steekproeven
kan 𝑠 van de steekproef een slechte benadering zijn voor σ van de populatie. Als de
populatie waaruit de steekproef wordt getrokken normaal verdeeld is, kunnen we bij een
𝑥−µ
onbekende σ gebruik maken van de steekproefgrootheid 𝑡 = .
𝑠/ 𝑛

2
𝑡-verdeling: een verdeling gebaseerd op een 𝑁(0, 1) en χ verdeling (zie slide 17-18 voor
achtergrondinfo die niet strikt te kennen is). De 𝑡-verdeling lijkt sterk op de normale
verdeling, maar is variabeler. Ze hangt niet alleen af van 𝑥, maar ook van 𝑠. Hij hangt af van
de vrijheidsgraden. Als de steekproef omvang 𝑛 heeft, dan heeft de 𝑡-verdeling 𝑛 − 1
vrijheidsgraden. Ook heeft deze heeft zwaardere staarten dan de normale verdeling. Hoe
kleiner 𝑛, hoe zwaarder de staarten. Voor 𝑛 → ∞ wordt de 𝑡-verdeling terug een
standaardnormale verdeling.

𝑠
Betrouwbaarheidsinterval voor kleine steekproef: 𝑥 ± 𝑡α/2 , waarbij 𝑡α/2 gebaseerd is op
𝑛
(𝑛 − 1) vrijheidsgraden. We doen dit bij de veronderstelling van een aselecte steekproef
uit een populatie genomen die bij benadering normaal is verdeeld en waarbij σ onbekend is.
We moeten aannemen dat de populatie waaruit de steekproef werd genomen normaal
verdeeld is. We moeten dus het interval vormen met een 𝑡α/2-waarde in plaats van een 𝑧α/2
-waarde (dat geeft een breder interval). We krijgen een lagere nauwkeurigheid omdat de
breedte van het interval omgekeerd evenredig is met 𝑛.

7.4 Betrouwbaarheidsinterval voor een fractie (𝑛 groot)
Als we de BI willen zoeken van een fractie dan zoeken we eigenlijk naar de “kans op succes”
#𝑠𝑢𝑐𝑐𝑒𝑠𝑒𝑛
𝑝 in een binomiaal experiment. We baseren ons hierbij op de steekproeffractie 𝑝= 𝑇𝑜𝑡𝑎𝑎𝑙
die de fractie positieve antwoorden geeft t.o.v. de totale antwoorden. Om de kansverdeling

Les avantages d'acheter des résumés chez Stuvia:

Qualité garantie par les avis des clients

Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.

L’achat facile et rapide

Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.

Focus sur l’essentiel

Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.

Garantie de remboursement : comment ça marche ?

Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.

Auprès de qui est-ce que j'achète ce résumé ?

Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur adamloots. Stuvia facilite les paiements au vendeur.

Est-ce que j'aurai un abonnement?

Non, vous n'achetez ce résumé que pour €9,99. Vous n'êtes lié à rien après votre achat.

Peut-on faire confiance à Stuvia ?

4.6 étoiles sur Google & Trustpilot (+1000 avis)

52355 résumés ont été vendus ces 30 derniers jours

Fondée en 2010, la référence pour acheter des résumés depuis déjà 14 ans

Commencez à vendre!

Populaire universiteiten

Populaire hogescholen

Populaire studieboeken voor Communicatie en Taal

Populaire studieboeken voor Economie en Bedrijf

Populaire studieboeken voor Exact en Informatica

Populaire studieboeken voor Gedrag en Maatschappij

Populaire studieboeken voor Gezondheid en Geneeskunde

Populaire studieboeken voor Recht en Bestuur

Vendeur