STATISTIEK I Volledige samenvatting van HC en het BOEK
38 vues 1 fois vendu
Cours
Statistics I (R_STAT.I)
Établissement
Vrije Universiteit Amsterdam (VU)
Book
Statistiek in de praktijk Theorieboek
Veel tijd en energie in deze samenvatting gestopt. Het is een combinatie van wat in de HC naar voren is gekomen en wat aangegeven staat in het boek. Heb uiteindelijk voor dit vak een 9,8 gehaald.
Hoorcolleges + Collegeclips aantekeningen Statistiek I 2021/2022
Samenvatting Statistiek (kansrekening en inductieve statistiek)
Samenvatting Statistiek (kansrekening en inferentiële statistiek) - hoofdstuk 8
Tout pour ce livre (27)
École, étude et sujet
Vrije Universiteit Amsterdam (VU)
Criminologie
Statistics I (R_STAT.I)
Tous les documents sur ce sujet (7)
Vendeur
S'abonner
CrimiVU123
Avis reçus
Aperçu du contenu
H1 statistiek in de praktijk
Centrummaten = tendentiematen:
- Mediaan = middelste getal/waarneming
- Modus = getal/waarneming die het meest voorkomt
- Gemiddelde (gevoelig voor uitschieters)
Bij symmetrische verdeling; mediaan en gemiddelde zijn hetzelfde. -> als de verdeling schever wordt
liggen het gemiddelde en de mediaan verder uit elkaar.
Uitbijters erin laten -> naar mediaan kijken
Uitbijters er uit halen -> gemiddelde. Uitschieters corrigeren/weglaten
Meetniveau van variabelen:
1. Kwalitatief: waarde in woorden plaatst element in categorie
a. Nominaal = geen volgorde (haarkleur, geslacht)
b. Ordinaal = rangorde, volgorde van belang, ene scoort hoger dan de andere
(opinieschaal, opleidingsniveau)
2. Kwantitatief: waarde in getallen, tellen eigenschappen van element meten
a. Interval = verschillen, zonder nulpunt -> als waarde 0 is, dan is het kenmerk nog wel
aanwezig (Tempratuur, IQ, leeftijd, gewicht)
b. Ratio = natuurlijk/absoluut nulpunt -> als waarde 0 is dan is er een afwezigheid van
het kenmerk.
Elementen = objecten die worden beschreven door een gegevensverzameling (mensen,
studenten, dieren, objecten)
Variabelen = een meetbaar kenmerk dat verschillende waarden of scores kent -> eigenschap van
een element (geslacht, leeftijd, cijfer)
Exploratieve data – analyse (onderzoek) = gegevens onderzoeken om hun belangrijkste kenmerken te
beschrijven. Om variabelen te beschrijven en relaties tussen de variabelen.
Staafdiagrammen & taartdiagrammen -> kwalitatieve variabelen – frequenties + relatieve
frequenties van de categorieën
Rug aan rug stamdiagram (2) histogram: lijndiagram:
, De verdeling van een variabel is
toont de waarden die deze
Globale patroon van verdeling beschrijven door middel van: aanneemt en hoe vaak dit gebeurt.
1. Vorm
2. Centrum
3. Spreiding
1. Vorm van verdeling beschrijven:
a. Histogram
b. Stamdiagram
- Symmetrisch
- Scheef
o Scheef naar links = negatief scheef -> lange lijn naar links (mediaan & gemiddelde
links van modus)
o Scheef naar rechts = positief scheef -> lange lijn naar rechts (mediaan & gemiddelde
rechts van modus)
o Hoogste punt = modus.
- Uitschieters = uitbijters = waarnemingen die buiten het globale patroon van een verdeling
vallen
- Gepiekt of uniform
- Uni modaal = verdeling met maar 1 top
2. Centrum = mediaan -> midden punt
3. Spreiding = van hoever tot hoever het loopt. (met of zonder uitschieters)
Trend: aanhoudende lange termijn stijging/daling. trendlijn is het geschatte verloop van een
bepaalde ontwikkeling, vaak gebaseerd op historische data.
Tijdsgrafiek = als waarnemingen van een variabel over een bepaalde tijd zijn genomen (tijd =
horizontaal, waarde = verticaal) -> kan trends weergeven of andere veranderingen over tijd.
Variabelen:
1. Onafhankelijke variabelen = variabel die in het onderzoek vaststaat, verklaart de
afhankelijke variabel, de oorzaak (interventieprogramma)
2. Afhankelijke variabelen = meet, wat ga je meten, de variabel die je wilt verklaren, het effect
(gedetineerde die recidiveren)
1.2 Verdeling beschrijven
Meten van het centrum:
- Gemiddelde
- mediaan
Resistente maat = invloed van uitschieters beperken, reageert niet sterk op veranderingen in enkele
waarnemingen.
- Gemiddelde is geen resistente maat omdat het niet bestand is tegen de invloed van extreme
waarnemingen.
- Mediaan is een resistente centrummat
Mediaan: aantal waarnemingen + = (n+1)/2 = mediaan positie van de mediaan in de
geordende lijst. (mediaan = typerende waarde)
, Meten van de spreiding: Variatie
- Kwartielen
- Standaardafwijking
- Bereik
1. Kwartielen:
Percentiel = is de waarde dat p procenten van de waarnemingen lager uitvalt of eraan gelijk is.
30ste percentiel = de waarde zodat 30% van de verdeling
hieronder valt of gelijk is
Mediaan = 50e percentiel (50%) -> middelste waarneming
vijf-getallen samenvatting: voor het beschrijven van een
scheve verderling of verdeling met sterke uitschieters.
Boxplot = grafiek van de vijf-
Q0 Minimum getallensamenvatting
Q1 25% De mediaan van de
waarnemingen links Boxplots laten minder details zien
van de mediaan dan histo/stam diagrammen ->
Q2 50% Mediaan gebruiken om verschillende
Q3 75% De mediaan van de verdelingen met elkaar te
waarnemingen rechts vergelijken.
van de mediaan
Q4 Maximum
De 1,5 X IKA regel voor uitschieters
De afstand tussen de kwartielen (de spreidingsbreedte van de middelste helft van de gegevens) is
een resistentere spreidingsmaat = interkwartielafstand (IKA)
Interkwartielafstand (IKA) = de afstand tussen het eerste en derde kwartiel -> box grootte
IKA = Q3 – Q1
Linkerstaart = links van de mediaan (minimum en eerste kwartiel)
Rechter staart = rechts van de mediaan (maximum en derde kwartiel)
IKA: gebruiken voor opsporen van verdachte uitschieters -> een waarneming is een verdachte
uitschieter als deze minimaal:
1,5 X IKA
- Boven: het derde kwartiel (Q3) = Q3 + (1,5 X IKA)
- Onder: het eerste kwartiel (Q1) = Q1 – (1,5 X IKA)
Gemodificeerde boxplots = daarbij worden de uitschieters eruit gehaald, apart weer gegeven. Door
middel van de 1,5 X IKA regel.
, 2. Standaardafwijking = meet de spreiding door te kijken hoe ver de waarnemingen van hun
gemiddelde zijn verwijderd.
= variantie: het gemiddelde van het kwadraat van de afwijkingen van de waarnemingen van hun
gemiddelde.
Variantie = gemiddelde van de gekwadrateerde afwijkingen (s2)
ver van gemiddelde = grote gekwadrateerde afwijk.
dicht bij gemiddelde = kleine gekwadrateerde afwijking
X1 – X| = de afwijking van de waarde x1 ten opzichte van hun gemiddelde (X|)
De som van alle afwijkingen – gemiddelde zal altijd 0 zijn.
= de wortel van de variantie
S = meet de spreiding rondom het gemiddelde -> alleen gebruiken wanneer het gemiddelde als
centrummaat is gekozen.
S = niet resistent -> uitschieters kunnen S groot maken
Waarom delen door n-1 en niet door n ?
=> aangezien som van afwijkingen steeds 0 is kan laatste afwijking gevonden worden uit
eerste n-1, dus n-1 kunnen vrij bewegen = aantal vrijheidsgraden
N – 1 = bij steekproef gemiddelde -> maar zegt niks over de gehele populatie, dus kan geen
uitspraak doen over het populatiegemiddelde. Door N -1 te doen, komt er een zuiverdere
schatting.
= steekproef correctie -> alleen toepassen als je met steekproefgemiddelde rekent
De steekproefvariantie s2 is een schatter van de ‘echte’ populatievariantie σ2
Waarom? De waarnemingen in de steekproef liggen in het algemeen dichterbij het
steekproefgemiddelde, dan bij het populatiegemiddelde
Logisch want… het steekproefgemiddelde ligt per definitie ‘midden’ tussen alle steekproefwaarden,
terwijl het populatiegemiddelde in het beroerdste geval zelfs best helemaal buiten de steekproef kan
liggen
Als je toch de formule voor variantie gebruikt om op basis van de steekproef de populatievariantie te
schatten, dan zul je meestal iets te optimistisch zijn en een te kleine variantie schatten
Door te delen door n-1 corrigeer je dit
- Als de getallen van een representatieve steekproef zijn, dan levert deze berekening de beste
schatting op van de standaarddeviatie van de populatie
Maar als je alle gegevens hebt (bv alle lengtes van alle Nederlanders) dan doe je niet N -1 omdat
je, als je deelt door N -> een uitspraak kan doen over het populatiegemiddelde, omdat je alle
gegevens hebt.
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur CrimiVU123. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €4,89. Vous n'êtes lié à rien après votre achat.