Multivariate analyse
- Analyse van soc-wetenschappelijke probleemstellingen met 3 of meer variabelen
- Verzamelnaam vr een hele fam analysetechnieken
- Bv: hoe pol vertrouwen beïnvloed dr onderwijsniveau en tevredenheid ohfunctioneren?
Studiemateriaal
- Boek: inleiding multivariate analyse vr de soc wetenschappen (2017)
- Slides en aanvulligen hoorcolleges
- Slides oefeningensessies en STATA/SPSS handouts en instructievideo’s
- Online formuleblad (F) -> krijg je op examen
- Voorbeeldvragen bb
Werkwijze hoorcollege
- Handboek basis vr hoorcolleges
- Aanvulligen en uitbreidingen in slides
- Theoretisch inzicht, correcte interpretatie en toepassing
Werkwijze oefeningensessies
- Werken met gegevens uit grootschalige enquêtes
- Datamanipulatie: werken met variabelen en bestanden
- Toepassen van multivariate analysetechnieken
- Met aandacht vr courante praktische problemen
Examen
- Afzonderlijk examen vr theorie (2/3 ptn) en oefeningen STATA/SPSS (1/3 ptn)
- Wnnr gn voldoende: beide delen opnieuw afleggen
- Theorie: 21 multiple choice vragen met verhoogde cesuur (5 antwoordmogelijkheden dus 60% -
> 13 vd 21 vragen juist vr voldoende): theorievragen, interpretatievragen en
toepassingsvragen (per soort vraag: 5 basisvragen en 2 uitdieping) -> goede tot perfecte
beheersing basis 10-12/20, <14 vergt bijkomende kennis uitdiepingsmateriaal
- Praktijk: op pc, antwoordne in AlephQ, gesloten boek
Tips
- Zorg dat je alle zoemgroepen onder de knie hebt: theorie- examen bestaat voor 1/3 uit
gelijkaardige vragen
- Besteed voldoende aandacht aan H 1: hoe versch analysetechnieken van mekaar en wat
rationale daarachter (bv wrm moeten we dummy-variabelen gebruiken, waarom hebben we
een logit-transformatie nodig...)
- Ga aan de slag met de SPSS/STATA-outputs uit hoorcolleges: zorg dat je van elke parameter
achterliggende logica begrijpt en parameters correct kan interpreteren (vbn uit oefensessies
leveren bijkomende oefening)
- Repliceer zélf alle analyses uit hoorcolleges: data en syntax/code beschikbaar op
Blackboard/Acco-site
DEEL 1: PROBLEEMSTELLING
Hoofdstuk 1: Van probleem nr analyse
Multivariatie analysetechnieken: verzamelnaam vr groep van statistische technieken gericht op
analyse van samenhang tssn drie of meer variabelen onderling
Sterk heterogeen qua opzet en finaliteit: verschillen sterk van elkaar in hoe je die gebruikt en hoe
ze in elkaar zitten
- Analyse van probleemkenmerk of probleemrelatie
- Dependente vs nt-dependente technieken
- Meetniveau van afhankelijke/onafh variabele, aantal afhankelijke variabelen
- Aantal dimensies
- Orthogonaliteit van dimensies
- …
1
Statistiek II 2022
,Keuze van multiv analystechniek varieert in eerste instanteie ifv de achterliggende ondezoeksvraag
(zie eerste puntje)
- Analyse van probleemkenmerk (bv pol vertrouwen, zittenblijven…): vraag nr factoren die
kenmerk verklaren bv leeftijd
- Analyse van probleemrelatie (bv verschil objectieve bestaansonzekerh nr gewest): kan verschil
verlaard worden dr regionale variatie in socio-eco pos van gezinshoofd
- Veelh van items/uitspraken bevraagd in survey: welke achterliggende opinies/attitudes worden
gemeten (synthese/ datareductie = veelh aan indicatoren tracten te herleiden tot enkele
achterliggende concpeten of dimensies)?
Dit hoofdstuk geeft overzicht vd verschillende analysetechnieken die id volgende hoofdstukken
telkens adhv een concrete soc-wetens probleemstelling worden uitgewerkt
1.1 Notatie
1.1.1 Types variabelen
-Kwantitatieve variabele (interval of ratio): inkomen in euro, leeftijd in jaar
-Manifest opgemeten (bv leeftijd van respondenten): persoon kan daar meteen op
antwoorden
- Kan zowel rol van te verklaren (afhankelijke) variabele als verklarende (onafhankelijke) var
opnemen
- Dichotome categorische variable met twee categorieën (nom of ordinaal)
- Manifest opgemeten (bv geslacht van respondenten)
- Kan zowel rol van te verklaren (afhankelijke) variabele als verklarende
(onafhankelijke) var opnemen
- Polytome cat variabele (nom of ordinaal) met drie of meer categorieën
- Manifest opgemeten (bv gewest/woonplaats respondent)
- Kan zowel rol van te verklaren (afhankelijke) variabele als verklarende
(onafhankelijke) var opnemen
- latente variabele (interval of ratio)
- Nt-rechtstreeks opgemeten bij respondenten (bv complexe schaal berekend obv
opgemeten items, lksdfjschaal wordt dus achteraf opgesteld)
1.1.2 Types samenhang
- Symm samenhang tssn twee kenmerken: er wordt gn onderscheid gemaakt tssn afh
en onafh variabe, dus jkdkjkjfj we doen verder gn uitspraken over vanuit welke richting
- Assym samenhang waarbij onafh var een lin (causaal) effect uitoefent op een afh var
Klsmdjfk l-kdlslfk Bij een lin effect heeft eenzelfde verandering id onafh var steeds eenzelfde
verandering id afh variabele tot kjsdflksdjflksqjflmk gevolg (zie box 7.1)
Lskdfjslmdi-oidksjlf Causale interpretatie hangt af van onderzoeksdesign (zie 11.4.1)
- Assym samenhang waarbij onafh var nt-lin effect uitoefent op afh var
- Bij nt- lin effect wordt de verandering in afh var ten gevolge van een eenzelfde ver in
onafh var gradueel ldksjldkdlksfld groter of kleiner (zie box 8.1)
Ldkjflkdfjlk -ldjkldki Causale interpretatie hangt af van onderzoeksdesign (zie 11.4.1)
- interactie-effect: assym samenhang waarbij de combinatie van twee of meer onafh var
een causaal effect kldsflkdj uitoefent op de afh var
lsdjflkflksdl- kdflfkk Causale interpretatie hangt af van onderzoeksdesign (zie 11.4.1)
1.2 Sociaalwetenschappelijke probleemstellingen en hun basisformat
Fasen in soc-wetens ondezoek
Je start met probleemstelling, daarna vraag je je af hoe je dat gaat
onderzoeken
Na rapportage kom je tot nieuwe probleemstelling
Wij zien vooral de data-analyse en rapportagefasen
2
Statistiek II 2022
,Bivariate causale structuur:
- Causale interpretatie regressieresultaten mogelijk als gegevens afkomstig zijn van
experimenteel design waar personen random aan experimentele condities werden toegewezen
- ‘Student/Teacher Achievement Ratio’-experiment
Invloed van klasomvang op leesvaardigheid kleuters?
11600 kleuters in 1985-86 random toegewezen aan 3 klastypes: initieel gn significante
verschillen tussen klastypes en leeftijd/SES
Echter differentiële uitval nr achtergrondkenmerken tijdens follow-up (4 jaar)
Nrmate achtergrondkenmerken zelf invloed hebben op leesvaardigh vertekent dit het
effect van klastype: multiv analyse alsnog vereist!
- Afhankelijke var: percentielscore Stanford Achievement Test (SATP)
- Klastype (GKCLASSTYPE)
Kleine klas (13-17 lln)
Standaardklas (22-25 lln) + part-time ondersteuning leerkracht
Standaardlas (22-25 lln) + voltijdse ondersteuning leerkracht
- Dummy WHITE/ASIAN: blanke/Aziatische (1) versus andere leerlingen (0)
- Dummy GIRL: vrouwelijke (1) versus mannelijke leerlingen (0)
- Dummy FREELUNCH: gratis schoolmaaltijd (1) versus andere (0)
- Dummy WHITETEACHER: blanke leerkracht (1) versus andere (0)
- Variabele GKTYEARS: ervaring van leerkracht in kleuteronderwijs (in jaren)
- Dummy TEACHERMA: leerkracht met masterdiploma (1) versus andere (0)
- Model 1: meervoudige regressie van SATP nr GKCLASSTYPE
- Model 2: controle vr socio-demog/eco kenmerkne lln: WHITE/ASIAN, GIRL, FREELUNCH
- Model 3: controle vr kenmerken leerkracht: WHITETEACHER, GKTYEARS, TEACHERMA
SSR [df] 33094 [2] 473694 [5] 528259 [8]
SSE [df] 4646046 [5725] 4205446 [5722] 4150880 [5719]
F [p] 20,390 [,000] 128,90 [,000] 90,978 [,000]
Adj. R Square ,01 ,10 ,11
Significantieniveaus: * p < .050, ** p < .010, *** p < .001
- Causale interpretatie regressieresultaten mogelijk als de gegevens afkomstig zijn van
experimenteel design waar personen random aan experimentele condities werden toegewezen
(cf. ‘exogene’ variatie, niet gelieerd aan andere kenmerken)
- Multivariate analyse van gegevens afkomstig van STAR-experiment suggereren een causaal
effect van klascondities op leerresultaten van kinderen
De bivariate causale structuur: het effect van klastype op leerresultaten van lln
Klastype ---------------- Leerresulta
-> ten
1.2.1 Werkzaamheid en overgewicht: de schijnbare causaliteit
Situering en probleemstelling:
3
Statistiek II 2022
, - Uit gezondheidsenquête blijkt dat overgewicht (BMI>27) vaker voorkomt bij mensen die niet
beroepsactief zijn dan bij werkenden. Is er sprake van een causale relatie tussen
beroepsactiviteit en overgewicht?
De bivariate causale structuur: het effect van beroepsactiviteit op overgewicht
- Kan samenhang tssn inactiviteit en overgewicht causaal (als oorzaak-gevolg-relatie) worden
geïnterpreteerd?
Onderzoek geeft aan dat BMI om allerlei redenen toeneemt met de leeftijd…
Werkzaamheid ligt lager in oudere leeftijdsgroepen
- Causaliteit kan nt worden afgeleid uit bivariate samenhang: relatie tssn inactiviteit en
overgewicht mog louter veroorzaakt dr associatie van beide kenmerken met leeftijd: ouderen
werken minder vaak en hebben hoger BMI, terwijl jongeren vaker beroepsactief zijn en
gekenmerkt worden dr lager BMI, mr beide kenmerken zijn verder mog nt geassocieerd…
Het format van de schijnbare causalitiet
Er is relatie, mr vraag is of we wel pijl mogen
trekken of niet
Samenhang tssn twee kenmerken wordt
Analyse van kruistabellen en elaboratie: veroorzaakt omdat ze beide samenhangen met
- ander kenmerk
Id configuratie van schijnbare causaliteit verdwijnt samenhang tssn nl leeftijd en overgewicht
inactiviteit
na controle vr leeftijd, i.e. wnnr gekeken wordt naar respondenten met eenzelfde leeftijd
- Relatie tssn inactiviteit en overgewicht wordt in H6 onderzocht adhv kruistabellen: kruistabel
tssn inactiv en overgewicht vr respondenten van alle leeftijden vergelijken met kruistabel tssn
beide kenmerken in afzonderlijke leeftijdsgroepen
- Principe van statistische controle neemt bij regressietechnieken de vorm aan van een vgl van
versch modelspecificaties (i.e. vergelijken van regressieparameter voor en na controle leeftijd)
Model 1 Model 2 Model 3
Exp(b) Sig Exp(b) Sig. Exp(b) Sig.
.
Werk ,642 *** ,822 ,797
Leeftijd
25-34 jaar (ref.) - -
35-44 jaar 1,62 ** 1,63
45-54 jaar 2,58 *** 2,59 **
55-64 jaar 2,78 *** 2,64 ***
Leeftijd*Werk
25-34 jaar (ref.) -
35-44 jaar ,997
45-54 jaar ,991
55-64 jaar 1,169
Constant ,463 *** ,217 *** ,222 ***
Deviance (-2LL) 2447,602 2391,6 2391,2
42 94
Significantieniveaus: * p < .050, ** p < .010, *** p < .001.
1.2.2 Regionale verschillen in objectieve bestaanszekerheid: de indirecte causaliteit
Situering en probleemstelling:
- Uit budgetenquête in 1997 blijkt dat objectieve bestaansonzekerheid (inkomen onder EU
armoedelijn) 3 keer frequenter voorkomt in Wallonië dan in Vlaanderen
- Is er een causaal effect van regio op armoede of kunnen regionale versch verklaard worden dr
regionale variatie in soc-eco activiteit van gezinshoofd? Onderz geeft aan dat gezinshoofden in
Wall vaker inactief/werkloos zijn dan in Vl…
De indirecte causaliteit
- Id causale relatie van regio nr objectieve bestaansonzekerh vormt de soc-eco activ een
intermediaire of tussenliggende var, waardr sprake is van indirecte causaliteit
4
Statistiek II 2022
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller Banu1811. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $4.82. You're not tied to anything after your purchase.