Samenvatting Statistiek 1 van Moore, McCabe en Craig & Passer
16 views 0 purchase
Course
1.3 Statistics I (FSWPE1032)
Institution
Erasmus Universiteit Rotterdam (EUR)
Samenvatting van de hoofdstukken 1 t/m 6 uit het boek Introduction to the Practice of Statistics van Moore, McCabe en Craig en hoofdstuk 1, 4, 5 en 8 uit het boek Research Methods: Concepts and Connections van Passer.
Cases zijn de objecten die beschreven worden door een data set. Voorbeelden zijn klanten,
bedrijven, vakken binnen een studie etc.
Een label is een speciale variabele die in bepaalde datasets wordt gebruikt om het verschil
aan te geven tussen verschillende cases.
Een variable is een karaktereigenschap van een case
1. Een categorical variable plaats een case is een groep of categorie. Deze kunnen
worden weergegeven in:
a. Een bar graph
b. Een pie charts
2. Een quantitative variable betreft numerieke waarden waarop je aritmetische
handelingen, zoals optellen en delen, kan toepassen. Deze kunnen worden
weergegeven in:
a. Een stemplot
b. Een histogram
De mean is het gemiddelde van een reeks waarnemingen. De formule is (x1+x2+ … xn)/n
De median is het middelpunt van een verdeling. Zo vind je de mean:
1. Rangschik alle observaties van klein naar groot
2. Als N oneven is, is de median het middelste getal. Deze vind je door: (n+1)/2
3. Als N even is, is de median het getal tussen de twee middelste getallen
De interquartile range IQR is de afstand tussen het eerste en derde kwartiel. Een getal mag
als outlier beschouwd worden als de waarneming meer dan 1,5 x IQR boven het derde, of
onder het eerste kwartiel valt.
Stappen voor Std. Deviatie:
1. Bereken de mean
2. Bereken per x het verschil met de mean
3. Kwadrateer de verschillen van 2
4. Bereken de mean van die verschillen van 3 ( = variantie)
5. Neem daar de wortel van
De 68-95-99.7 rule houdt in dat:
- 68% van alle observaties ligt tussen σ en μ
- 95% van alle observaties ligt tussen 2 σ en 2 μ
- 99.7% van alle observaties ligt tussen 3 σ en 3 μ
Als x een observatie is van een verdeling die een σ en een μ heeft, dan is de standardized
value (of z-score) van x: Z = (x - μ)/ σ
1
,Hoofdstuk 2
Een response variable meet de uitkomst van een studie. Een explanatory variable verklaart
of veroorzaakt verandering in de response variabele.
Scatterplot: laat de relatie zien tussen twee quantitative variables:
- Positively associated als hoge waarden van de ene variabele ook hoge waarden bij
de andere variabele oproept
- Negatively associated als hoge waarden van de ene variabele lage waarden bij de
andere variabele oproept
De correlation (r) meet de directie en sterkte van een lineaire relatie tussen twee
quantitative variabele:
- Correlatie maakt geen gebruik van een (E) en (R)
- Correlatie eist dat allebei de variabelen quantitative zijn
- De correlatie r zelf heeft geen eenheid of speciale meeting; het is gewoon een getal
- Correlatie is heel gevoelig voor outliers
1. De joint distribution is de hoeveelheid van een cel gedeeld door de totale eenheid aan
observaties.
2. De marginal distribution is de verdeling van één variabele in een two-way table. Er zijn
dus twee marginal distributions, een voor elke categorische variabele in een two-way
table.
3. Als we gebruik maken van een voorwaarde en op basis daarvan een verdeling opstellen
voor de andere variabele, noemen we dat een conditioned distribution.
Wat zijn de criteria voor het vaststellen van een causaliteit?
- De associatie is sterk
- De associatie is consistent
- Hogere dosissen zijn geassocieerd met sterkere reacties
- De voorgestelde oorzaak is aannemelijk
2
, Hoofdstuk 3
Anecdotal data representeert individuele cases, die vaak onze aandacht vangen omdat ze
opvallend zijn. Deze data is niet representatief voor een grote groep.
Available data zijn gegevens die zijn geproduceerd voor een doel of die mogelijk handig
kunnen zijn om vragen te beantwoorden (bibliotheek en internet)
Bij een observational study observeren we individuelen en meten we variabelen maar
proberen we niet de responses te beïnvloeden.
Bij een experiment zetten we opzettelijk verschillende situaties neer en observeren we de
responses.
De individuelen waarop een onderzoek wordt uitgevoerd, heten de experimental units. Als
de units mensen zijn, heten ze ook wel subjects. Experimentele situaties die toegepast
worden op de units heten treatments. De outcomes zijn de gemeten variabele die gebruikt
worden op de treatments mee te vergelijken.
De basisprincipes over hoe een statistisch experiment eruit moet zien:
1. Er moeten twee of meer treatments vergeleken worden. Zo behoudt men de
controle over de lurking variables.
2. Er moet willekeurigheid in een experiment zitten. Gebruik verandering om
experimental units toe te wijzen aan de treatments. Zo voorkom je ook een bias.
3. Herhaal elke treatment op verschillende units om toeval uit de resultaten te halen.
Blok design:
Een block is een groep experimental units of subjects die, voorafgaande aan het onderzoek,
al bekend staan om het hebben van eenzelfde x (bv mannen en vrouwen blokken). Hier
wordt verwacht dat ze de respons gaan beïnvloeden. Bij een block design is het willekeurig
toewijzen van een treatment aan een units verspreid per blok. Een voorbeeld van blocking is
Matched pairs, het vergelijken van twee treatments. In sommige matched pairs krijgt elk
subject allebei de treatments.
Het design van een studie refereert aan de methode die gebruikt is bij het selecteren van
een sample van een populatie. Probability sampling designs gebruiken willekeurige kansen
om een sample te selecteren. Dit kan doormiddel van een SRS, hierbij heeft elke sample
dezelfde kans op geselecteerd te worden. Een voluntary response sample, waarin mensen
zichzelf aanbieden, is bias want het zijn vaak mensen met een extreem negatieve of juist
extreem positieve mening.
- Met een menselijke populatie kunnen zelfs probability samples lijden aan bias. Dat
kan komen door een aantal dingen:
o Undercoverage, een bepaalde groep wordt buiten het onderzoek gehouden
o Nonresponse, mensen kunnen niet bereikt worden of werken niet mee
o Response bias
o Misleidende resultaten door poor worded questions
3
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller PsychStudent2021. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $7.58. You're not tied to anything after your purchase.