In dit document is de transcriptie van de video's van week 1 van Onderzoekstraining 1. Dit zijn de video's van studiejaar . In het bestand staat het dianummer en daarachter de tekst die je hoort in de video. Ik vind dit zelf erg prettig, zodat ik nog eens terug kan kijken of iets op kan zoeken zond...
Video 1.1: Voorbeelden van statistisch onderzoek (Dia 1 t/m 12)
(1) Welkom bij deze eerste video van de cursus Statistische Methoden in Onderzoek. In deze cursus zullen we
empirische cyclus doornemen, het proces dat men doorloopt bij het doen van empirisch onderzoek.
(2) Het belang van het vak is zeker niet gering, want als het gaat om statistisch onderzoek kun je daar niet om
heen. Berichten van kwantitatief onderzoek zie je overal. Of dat nou het journaal is, of dat het
wetenschappelijke artikelen zijn. En bij dit soort onderzoeken heb je altijd een kritische houding nodig, want
achter de gedane uitspraken zit altijd een grote hoeveelheid keuzes en interpretatie stappen waarbij men
voorzichtig moet zijn. Kortom, een goede grip op statistische kennis hebben is tegenwoordig enorm belangrijk
om te begrijpen wat er allemaal gezegd wordt.
(3) Dat zie je ook in deze quote van Hal Varian uit 2009. Hij zegt namelijk al een lange tijd terug dat er wel
brood te verdienen viel in dit gebied. En gezien zijn functie is dat niet minder waar.
(4) In deze eerste introductie video zullen we het hebben over voorbeelden van statistisch onderzoek. We
zullen het eerst hebben over het presenteren van statistisch onderzoek en daarna zal het schoolvoorbeeld
geïntroduceerd worden waarmee we de rest van de modules zullen werken.
(5) We beginnen met een voorbeeld.
(6) Dit is een voorbeeld van een artikel dat verscheen in de Amerikaanse krant, wat kopt met ‘Retail sales go
down in April 2000’. Nu, als je naar de grafiek kijkt, vind je dit een passende titel? De reden dat we dit
voorbeeld laten zien is omdat er hier allerlei dingen misgaan. Kun jij een aantal dingen bedenken die hier niet
goed gaan? Je kan de video even op pauze zetten om er goed naar te kijken. Het eerste wat we kunnen
bekritiseren hier is de titel. Als we naar de hele grafiek kijken zien we een duidelijke trend omhoog, maar er
wordt nu geklaagd over dat het in een enkele maand omlaag gaat. Ook al kan dit afhankelijk van de situatie nog
een terecht punt zijn. Dalingen komen wel vaker voor. Daarnaast wordt er steeds met de vorige maand
vergeleken, terwijl dat misschien helemaal niet zo relevant is. Een tweede punt van kritiek is dat hoewel in de
grafiek al wordt gecorrigeerd voor seizoensinvloeden, vergelijken met de verkoopcijfers van vorig jaar is
waarschijnlijk nuttiger. Een derde kritiek punt heeft te maken met de verticale as. Zoals je kunt zien begint deze
op 225 miljard in plaats van op 0. Hierdoor lijken de afwijkingen in het plaatje veel groter dan dat deze in
werkelijkheid zijn. Tot slot lijkt er ook iets mis te gaan bij de labels op de X-as. Als we deze laatste twee
problemen oplossen door de X-as en de Y-as te repareren is dit wat je ongeveer krijgt.
(7) Nu lijken de verkoopcijfers eigenlijk over het algemeen gematigd te stijgen, lang niet zo dramatisch als in
het eerste plaatje. Als we ook nog de tweede suggestie meenemen, en de maanden in de verschillende jaren
met elkaar vergelijken, krijgen we het volgende.
(8) Als we nu kijken naar april van 1999 en april van 2000 dan zie je dat de nieuwe boodschap eigenlijk het
omgekeerde is van de aanvankelijke boodschap. De les die we hieruit kunnen trekken is dat je bij de manier
waarop je statistische informatie presenteert je bewust moet zijn van wat je eigenlijk aan het presenteren
bent. En als je statische informatie leest als gebruiker, zal je voortdurend op je hoede moeten zijn ten aanzien
van de interpretatie van de data die je hebt.
(9) Dan gaan we nu verder met het schoolvoorbeeld.
(10) Dit voorbeeld gebruiken we om een idee te geven van een aantal gangbare stappen in kwantitatief
empirisch onderzoek. Het is gebruikelijk om te beginnen met gedeeltelijk geformuleerde vraagstellingen die je
later verder ontwikkelt. Over het algemeen gaat dit verhaal over de schulden bij afstuderen. Binnen
Amerikaanse universiteiten is er belangstelling voor het begrijpen van wat de oorzaak is van variatie in
schulden bij afstuderen. Dat is nog een vrij breed probleem. Wat kan mogelijk verklarend zijn van het niveau
van de schulden bij afstuderen? Wat zijn de consequenties van het betrekken van bepaalde verklaringen in
onze analyse? En vooral: hoe moeten we dingen analyseren? Een voorbeeld van een mogelijke verklaring voor
variatie van schulden bij afstuderen is hoe een universiteit gefinancierd is. Privaat of publiek. In Amerika
hebben ze veel van beide typen universiteiten dus is dit een nuttige kwestie om te onderzoeken. Wat we
kunnen gebruiken als mogelijke verklaringen hangt natuurlijk af van de data die beschikbaar is. En in dit geval is
de volgende data beschikbaar.
(11) Er is data over schulden bij afstuderen, dat is gemiddeld over de studenten heen, per universiteit.
Daarnaast hebben we data over de totale kosten van studeren bij een universiteit. Ook is er data beschikbaar
over het type financiering van universiteit. Verder hebben we het soort locatie en een aantal andere variabelen
met betrekking tot studenten: scores en kosten. We hebben nu de data. Maar wat is de volgende stap? Eén van
de stappen die we nu moeten nemen is het kiezen van geschikte methoden en technieken om onze gegevens
te analyseren. Er zijn heel veel verschillende methoden en technieken voor het doen van onderzoek, dus we
, moeten een manier hebben om te kiezen uit al die methodes. Wat hierbij helpt is weten langs welke dimensies
we onze methoden kunnen kiezen. Welke methodes geschikt zijn hangt namelijk af van de volgende dimensies.
(12) Allereerst hebben we het onderzoekontwerp. Dit hangt af van welke variabelen je in je data set hebt.
Sommige data bijvoorbeeld, die hebben een dwarsdoorsnede karakter, ook wel cross sectie genoemd. Die zijn
gemeten op één moment in de tijd en hebben bijvoorbeeld betrekking op verschillende personen, bedrijven,
landen et cetera. Een voorbeeld is de verkiezingsuitslag in de Verenigde Staten. Van verschillende staten is het
stemgedrag of de uitkomst van de stemming van de presidentsverkiezingen gemeten. De data zijn dus van één
tijdstip, namelijk de dag van de verkiezingen met variatie over verschillende eenheden van onderzoek. Het
omgekeerde kan ook. Dit noemen we dan een tijdreeks. Er is dan één eenheid van onderzoek die wordt
gevolgd over de tijd heen. Een voorbeeld hiervan is het dagelijks aantal covid-meldingen in Nederland in het
jaar 2020. Je kan deze twee niveaus ook combineren, dan krijg je een panel. Dat is dan een tijdreeks van
dwarsdoorsnedes. Voorbeelden zijn: de uitslagen van alle presidentsverkiezingen in ieder Amerikaanse staat
over de tijd, of het dagelijks aantal Covid-meldingen in verschillende provincies over een bepaalde periode.
Afhankelijk van het onderzoeksontwerp dat je hebt, heb je verschillende methoden en technieken om die te
analyseren. In deze video’s zullen we ons met name richten op cross secties. Ook het steekproefontwerp is van
belang. De meeste boeken zullen het vooral hebben over aselecte steekproeven. Maar in de praktijk is dat vaak
veel te duur en kiezen onderzoekers vaak voor bijvoorbeeld gestratificeerde steekproeven of
clustersteekproeven. In de latere modules zullen we hier meer op ingaan. In de volgende video zullen we de
informatieinhoud van de variabelen bespreken, ook wel het meetniveau genoemd. Het meetniveau van een
variabele kan nominaal, ordinaal, interval of ratio zijn. Het andere onderwerp van de volgende video is de
complexiteit van de analyse. Gaat het over één grootheid, univariaat? Over twee grootheden, bivariaat? Of nog
meer variabelen, multivariaat? Ten slotte kunnen er ook redenen zijn voor het kiezen van bepaalde methodes
die niets met statistiek pur sang te maken hebben. Maar met dingen zoals communicatie, politiek en de
beperkte middelen die men tot beschikking heeft. Mensen kunnen bijvoorbeeld zeggen: “Laten we het niet te
moeilijk maken. We houden het bij een simpel plaatje.”. Wij gaan vooral over die informatieinhoud en die
complexiteit verder nadenken. In de volgende video zullen we zien hoe deze onderscheiden ons helpen bij het
nemen van keuzes tussen verschillende beschikbare methoden en technieken.
Video 1.2: Keuze van statistische methoden en technieken (Dia 13 t/m 26)
(13) Welkom bij de tweede video van deze module. In deze video behandelen we twee van de
eerdergenoemde dimensies die belangrijk zijn in de keuze voor statistische methode en technieken.
(14) Namelijk het meetniveau van variabelen en de complexiteit van de analyse.
(15) Allereerst het meetniveau. Waarvoor we eerst een goede definitie moeten neerleggen van het begrip
variabelen.
(16) Als gegevens eenmaal zijn verzameld, dan hebben die gegevens betrekking op variabelen. Dit zijn
grootheden die van waarde kunnen verschillen tussen verschillende subjecten en/of tussen verschillende
perioden in die tijd. Iets als een huis is op zich dus geen variabele maar de waarde van een huis kan dat wel zijn.
Variabelen kunnen zelfstandig gemeten worden, of in samenhang met andere grootheden. Als je één enkele
variabelen meet en die op zichzelf analyseert, spreken we van univariate analyse. Je hebt ook zoiets als
bivariate analyse. En daar gaat het over variatie in tweetallen van variabelen. Een voorbeeld zou zijn je lengte
en gewicht. Dus als je van een hele klas lengte in relatie tot het gewicht bepaalt, dan praat je over een bivariate
analyse. Het analyseren van de gezamenlijke uitkomst. Als je dit met nog meer variabele doet hebben we het
over multivariate analyse. Verder is het ook altijd zo dat variabelen een meetniveau hebben. Een meetniveau,
dat kun je zien als attribuut informatie. Dat is een stukje extra informatie die meelift met de getallen en je
nodig hebt om die getallen goed te interpreteren. Als het gaat om getallen kun je eigenlijk nooit die getallen
goed begrijpen of daar over redeneren zonder dat je ook iets weet over die attribuut informatie. Dus je hebt
nooit cijfers zonder achterliggend verhaal.
(17) Het belangrijkste onderscheid bij meetniveaus is het onderscheid tussen kwalitatieve en kwantitatieve
meetniveaus. Het kenmerkende verschil tussen deze twee categorieën is dat bij kwantitatieve meetniveaus de
verschillen tussen waarnemingsuitkomsten van variabelen altijd een vaste betekenis hebben. De afstand van
een plek naar Groningen bijvoorbeeld, is een voorbeeld van een variabele met een kwantitatief meetniveau.
Omdat het verschil tussen 2 km en 1 km hetzelfde is als het verschil tussen 50 km en 49 km. Dus, verschillen
tussen uitkomsten hebben altijd een vaste interpretatie. De variabelen met een kwalitatief meetniveau is
bijvoorbeeld geslacht. Je zou zelf de variabelen kunnen coderen als 0 of 1 maar dan dient het alleen ter
naamgeving. Binnen zowel kwalitatieve en kwantitatieve meetniveaus kunnen we er verder onderscheid
maken.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller NMIWNH. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $3.70. You're not tied to anything after your purchase.