100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached
logo-home
Samenvatting 4.4 applied multivariate data analysis (Field) $7.17
Add to cart

Summary

Samenvatting 4.4 applied multivariate data analysis (Field)

3 reviews
 29 purchases
  • Course
  • Institution
  • Book

Nederlandse samenvatting van de hoofdstukken 2, 5, 8, 10, 11, 12, 13, 14, 15 (Field, 2013). Deze samenvatting heeft mij goed geholpen het tentamen te halen :). Inclusief begrippen, formules, belangrijke grafieken. Erg gestructureerd, hoofdstukken en paragrafen zijn vermeld.

Last document update: 4 year ago

Preview 4 out of 68  pages

  • No
  • H2, h5, h8, h10, h11, h12, h13, h14, h15
  • January 3, 2021
  • January 3, 2021
  • 68
  • 2019/2020
  • Summary

3  reviews

review-writer-avatar

By: renskalkhoven • 2 year ago

review-writer-avatar

By: wvaneenige • 4 year ago

review-writer-avatar

By: sddj • 4 year ago

avatar-seller
Samenvatting Blok 4.4


Field (2013)

H2, H5, H8, H10, H11, H12, H13, H14, H15

,H2 – Everything you never wanted to know about statistics

Par. 2.2 Building statistical models
We bouwen (statistische) modellen van processen in de wereld om een poging te doen om
te voorspellen hoe deze processen opereren onder zekere omstandigheden.
A.d.h.v. modellen (theorieën) kunnen we processen testen om zo nieuwe kennis te vergaren.
We willen a.d.h.v. de modellen accurate voorspellingen maken over de echte wereld.

De mate waarin een statistisch model de verzamelde gegevens (observed data)
vertegenwoordigt, is de fit van het model.
Goed vertegenwoordigd? à good fit: hiermee kun je accurate voorspellingen doen over de
echte wereld.
Moderate fit à niet compleet betrouwbare, accurate voorspelling.
Poor fit à compleet anders dan de situatie in het echt, geen overeenkomsten,
voorspellingen met dit model zijn compleet inaccuraat = slecht.

Par. 2.3 Populations and samples
Wetenschappers zijn geïnteresseerd in de general population om general conclusions te
trekken.
We verzamelen data van een deel van de populatie = sample.
Hieruit trekken we conclusies voor de hele populatie. Hoe groter de steekproef hoe beter.

Wetenschappers (gedrag/sociaal) proberen data vaak te beschrijven met linear models.
Dit zorgt voor 2 typen bias:
1. Veel modellen in de wetenschappelijke literatuur zijn misschien niet degenen die het
beste pasten (omdat er geen non-lineair models zijn geprobeerd).
2. Veel datasets zijn niet gepubliceerd omdat het lineaire model niet paste en
wetenschappers niet hebben gekeken naar niet-lineaire modellen.

Belangrijk om je data altijd eerst te plotten.

Par. 2.4 Statistical models
De data die we observeren kan voorspeld worden door het passende model en een beetje
error:

Outcomei = (model) + errori

Het model in de vergelijking hangt af van:
1. het ontwerp van het onderzoek
2. type data
3. wat je wilt bereiken met het model

Statistische modellen bestaan uit variabelen en parameters.
Variabelen = gemeten constructies die variëren over mensen/dingen in de steekproef.
Parameters = worden geschat op basis van de data (i.p.v. gemeten) en zijn meestal
constanten waarvan wordt aangenomen dat ze een fundamentele waarheid
vertegenwoordigen over de relaties tussen variabelen in het model.
Voorbeelden parameters:
• Mean, median (die schatten het centrum van de distributie).
• Correlatie, regressiecoëfficiënt (schatten de relatie tussen 2 variabelen).

Als we alleen geïnteresseerd zijn in het samenvatten van de uitkomst, zoals we doen
wanneer we een gemiddelde berekenen, dan zullen we geen variabelen in het model
hebben, alleen een parameter, dus bijv:

, Outcomei = (b) + errori
Vaak willen we echter een uitkomst van een variabele voorspellen. We geven meestal
voorspellende variabelen aan met de letter x, dus:
Outcomei = (bXi) + errori
Nu voorspellen we de waarde van de uitkomst voor een bepaalde entiteit (i) op basis van de
score op de voorspellende variabele (Xi). Aan de voorspellende variabele is een parameter
(b) gekoppeld, die ons iets vertelt over de relatie tussen de voorspeller (Xi) en de uitkomst.
Als we een uitkomst van 2 voorspellers willen voorspellen kunnen we ook een andere
voorspeller toevoegen:
Outcomei = (b1X1i + b2X2i) + errori

à We kunnen de waarden van een uitkomstvariabele voorspellen op basis van een soort
model. De vorm van het model verandert, maar er zal altijd sprake zijn van error en er zullen
altijd parameters zijn die ons vertellen over de vorm van het model.

We kunnen steekproefgegevens gebruiken om te schatten wat de populatieparameters
waarschijnlijk zullen zijn. Daarom gebruiken we het woord schatting, want wanneer we
parameters berekenen op basis van steekproefdata, zijn dit slechts schattingen (d.w.z. een
‘beste schatting’) van wat de echte parameter in de populatie is.

Par. 2.4.2 Assessing the fit of a model: sums of squares and variance revisited
Met de meeste statistische modellen kunnen we bepalen of het model juist is door te kijken
hoe verschillend onze echte gegevens zijn van het model dat we hebben gemaakt.
Voorbeeld: gemiddelde = 2.6, docent scoort 1.
Outcomedocent1 = gem. + errordocent1
1 = 2.6 + errordocent1
errordocent1 = 1-2.6 = -1.6 (=error).

Deviatie is een ander woord voor errror.
Error = deviatie = residual = deviation
Deviance = outcomei – modeli
dus error = waargenomen score – voorspelde score

We willen de nauwkeurigheid/’fit’ van het model in het algemeen weten. We kunnen niet
deviaties bij elkaar optellen, want sommigen zijn positief en sommigen negatief, dus dan
eindtotaal 0.
Om dit probleem op te lossen à kwadrateren.

Hoe meer data, hoe hoger de SS.


Om de gemiddelde fout in de populatie te schatten, moeten we niet delen door het aantal
scores dat bijdraagt aan het totaal, maar door de degrees of freedom (df) = het aantal scores
dat wordt gebruikt om het totaal te berekenen gecorrigeerd voor het feit dat we proberen de
populatiewaarde te schatten.


Statistisch gezien hebben de degrees of freedom betrekking op het aantal observaties dat
vrij kan variëren.
Als we één parameter constant houden, moeten de vrijheidsgraden één lager zijn dan het
aantal scores dat is gebruikt om die parameter te berekenen.
Dus N-1.

Wanneer ons model het gemiddelde is, heeft de gemiddelde kwadratische fout een speciale
naam: de variantie.

, Als de variantie groot is, is de mean geen goede representatie van de geobserveerde scores
à poor fit.

Par. 2.4.3 Estimating parameters
De mean is de parameter/score met de minste error in totaal. Het is de beste fit dan elke
andere waarde à using mean to minimize error à minimizing the sum of squared error =
method of least squares.

Par. 2.5 Going beyond the data
Par. 2.5.1 The standard error
Standaard deviatie vertelt hoe goed het gemiddelde de steekproef representeert. Dit is
belangrijk om te weten omdat je conclusies wilt trekken over de populatie.

Sampling variation = steekproeven variëren omdat ze verschillende mensen uit de populatie
bevatten.
Alle samples samen vormen een sampling distribution = de frequentieverdeling van
steekproefgemiddelden uit dezelfde populatie.
Sampling distributions zijn er meer voor het idee, maar komen in het echte leven eigenlijk
niet voor.
We kunnen de sampling distribution gebruiken om te kijken hoe goed een sample de
populatie representeert.

De standaard deviatie van sample means is de standard error of the mean (SE) of standard
error. In de echte wereld kunnen we niet honderden steekproeven verzamelen en dus
vertrouwen we op benaderingen van de standard error.

Central limit theorem = naarmate steekproeven groter worden (groter dan 30) heeft de
steekproefverdeling een normale verdeling met een gemiddelde gelijk aan het
populatiegemiddelde en een standaard deviatie van:


Dit is de formule van de standard error!!
!! Note: we hebben het nu steeds over de mean, maar elke parameter kan een sampling
distribution en standard error hebben.

Par. 2.5.2 Confidence Intervals
We kunnen grenzen berekenen waar de populatie binnenvalt. Zulke grenzen heten
confidence intervals. Ze vertellen ons de kans dat ze de echte waarde bevatten van de
parameter die we proberen te schatten (bijv. gemiddelde).

95% confidence intervals, maar ook 99%,
à Als we van 100 steekproeven het gemiddelde berekenen en vervolgens een
betrouwbaarheidsinterval voor het gemiddelde hadden berekend, zan zouden 95 van deze
steekproeven en dan het confidence interval ervan de echte waarde van de populatie mean
bevatten.

Normal distribution à mean=0, standaard deviatie=1
à 95% van z-scores valt tussen -1.96 en 1.96. We weten van Central limit theorem dat in
grote steekproeven (>30) de sampling distribution normaal verdeeld is.




De mean is altijd in het centrum van het CI. Als het interval klein is, ligt de sample mean erg
dicht bij de populatie (true) mean.

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

Quick and easy check-out

You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller tamaradolk. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $7.17. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

62774 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy study notes for 15 years now

Start selling
$7.17  29x  sold
  • (3)
Add to cart
Added