Samenvatting data analytics hoorcolleges
College 1
Wetenschap & statistiek
- Doel van onderzoek: Simpelweg wil men in de wetenschap met een bepaalde mate van
zekerheid uitspraken over de werkelijkheid doen.
- Statistiek: Je wil eigenlijk altijd iets over de populatie zeggen (bv. Nederlanders zijn
gemiddeld 1,75M) maar die kun je vaak nooit in zijn totaliteit meten > daarom trekken we
steekproeven.
- Hypotheses geven doorgaans uitdrukking aan onderliggende relaties van factoren. Door
voldoende onderzoek kan dit leiden tot theorievorming, waarin de relaties tussen factoren
uitgedrukt wordt. Dit heet toetsende statistiek: je gaat na of een hypothese houdbaar is.
- Nut: Statistiek is het hulpmiddel in kwantitatief onderzoek om onder andere na te gaan:
Of je onderzoek je hypothese ondersteunt of niet;
Hoe de relaties te waarderen (bv. zijn de verbanden sterk of zwak);
Om (nog meer) patronen in je data te ontdekken (bv. Factoranalyse);
Om je methode te verantwoorden (bv. Kwaliteit van je schalen, power);
Of om eenduidige omschrijvingen te geven (IQ scores)
Verschil steekproef/populatie
Beschrijvende en inferentiële statistiek
- Beschrijvende statistiek: berekening en interpretatie van samenvattende statistische maten:
Bv. Index als BNP, CBS (geboortecijfers) > doorgaans gebaseerd op werkelijke gegevens op
populatie niveau.
- Inferentiële (afleidende statistiek): gebaseerd op een steekproef & kansrekening iets zeggen
over de populatie (afleiden van je steekproef en generaliseren).
Voorbeelden
- Bv. Van alle DBC studenten de lengte meten > beschrijvende statistiek want je meet de hele
populatie.
- Bv. Obv een steekproef de lengte van alle DBC studenten schatten > inferentiële statistiek
want je leidt een lengte af obv je steekproef en generaliseert deze naar de populatie
(DBC’ers).
! Beide vormen kunnen gebruikt worden om een hypothese te toetsen, verschil is de mate van
zekerheid !
,Je hebt een populatie, daarmee kun je op basis van een H0 (nulhypothese) een waarde aan
toekennen > dan trek je een willekeurige steekproef en wat zegt deze over de populatie> Dan kun je
nagaan of die hypothese klopt
Centrale vraag: is het geobserveerde verschil toevallig(steekproeffluctuatie) of is de waarde in de
populatie anders(significant verschil).
Steekproeffluctuatie: Toevallige verschillen door steekproeftrekking
Voorbeeld:
Het gemiddelde iq van DBC studenten is 120> wat is het gemiddelde IQ en wat zegt dit over de
andere mogelijke steekproeven die we kunnen trekken> ligt de waarde van de steekproeven rond de
120 (IQ).
Hypotoetsen VS schatten
- Toetsen: Je veronderstelt dat er een bepaalde waarde is> je trekt een steekproef> je gaat
dan kijken of die waarde overeenkomt met hetgeen dat je veronderstelt hebt
- Schatten: Je doet een schatting op basis van een steekproef
Voor hypothesen te toetsen kun je verschillende experimenten uitvoeren.
Selectie effect: voorbeeld:
- Het tentamen is makkelijker dan het hertentamen
- Het hertentamen is makkelijker dan het tentamen;
- Obv deze informatie kunnen we niets zeggen over de moeilijkheid van het tentamen. > Dit
zijn twee verschillende groepen (selectie effect) > je kunt deze gegevens dus niet met elkaar
vergelijken
Zorg altijd dat je steekproef voldoende groot is
Ook zorg je dat je relatief kijkt> bijvoorbeeld: verkeerongevallen in Nederland gegroeid, maar het
aantal mensen in Nederland is ook gegroeid.
Conclusies
We leren drie hele belangrijke inzichten op basis van deze illustraties die relevant zijn voor statistiek:
1. Statistiek is een middel waarmee bepaalde claims gecontroleerd kunnen worden (in
combinatie met onderzoek natuurlijk).
2. Vergelijkbare groepen zijn nodig voor een vergelijking tussen A & B (& C etc.) (Tentamen
hertentamen voorbeeld). ◦ Hoe groter het verschil, hoe waarschijnlijk dat deze werkelijk is
(geen normale steekproeven fluctuatie(toeval)).
3. Hoe groter de groepen, hoe meer vertrouwen we in dit verschil hebben (afname
gevoeligheid voor uitschieters).
Kern van de cursus
- Begrijpen waarom statistische methodes van belang zijn
- Op welke basis concepten/gedachten gang deze methoden berusten;
- Een aantal van die methode leren toepassen (dmv. Oefening in de werkcolleges)
,Nut van kennis over kwantitatief onderzoek
1. Helpt je om betere keuzes te maken, zowel voor de consument als ook het bedrijf.
2. Helpt je om onderzoek in de media beter te begrijpen en te evalueren.
3. Helpt je om onderzoek in de wetenschap beter te begrijpen
4. Geeft meer algemene kennis
5. Het helpt je beter onderbouwd onderzoek te doen! (Projectgroepen, onderzoekstage, etc.)
6. Het helpt je kritischer te worden door deze kennis!
Meetniveau ’s
Een vragenlijst (enquête) bestaat uit vragen die op verschillende meetniveau ’s gemeten zijn. Er zijn 4
verschillende meetniveaus:
1. Nominaal (kwalitatief): benoemen = niet beter of slechter (geen waarderingsverschil) bv
Geslacht , politieke keuze, woonplaats
2. Ordinaal (kwalitatief): ordenen = van laag naar hoog/van hoog naar laag
(waarderingsverschil) bv. Opleidingsniveau
3. Interval (kwantitatief): gelijke intervallen, geen absoluut (natuurlijk) nulpunt bv. IQ ,
temperatuur
4. Ratio (kwantitatief): natuurlijk nulpunt, gelijke intervallen, gelijke, betekenisvolle
verhoudingen bv. Leeftijd in jaren (iemand is 30 keer zo oud …)
Dichotome meting: ja of nee
Voorbeeld
- Aantal gewerkte uren : ratio
- Opleidingsniveau : ordinaal
- Politieke voorkeur :nominaal
- Burgerlijke staat : nominaal
- Inkomen in euro’s : ratio
- Temperatuur : interval
SPSS
Data view: Iedere regel representeert een proefpersoon
Variabele view: Iedere regel representeert een variabele. Bijvoorbeeld (identiteit, value)
Uitleg termen variabele view:
- Name: geef een korte naam zonder spatie (‘gld1’ staat voor de eerste vraag over geld,
namelijk bezit van een auto). Deze wordt ook gebruikt als kolomtitel in het databestand.
- Type: je gegevens kun je het beste numeriek, dus als cijfers, invoeren. Indien je tekst wenst
in te voeren kies dan voor het type ‘string’.
- Label: hier kun je een uitvoerige omschrijving geven. Het ‘Label’ staat als variabelennaam in
de output.
- Values: hier kun je de waarden van een variabelen van een label voorzien. Bv. 1= man en 2=
vrouw.
, - Missing: Als er gegevens ontbreken kun het beste ‘99’ invoeren in dataview. In de variable
view klik je rechts bij ‘missing values’ en geef je de waarde ‘99’ in (discrete missing value).
Klik op ‘OK’.
- Measure: Hiermee geef je het meetniveau van de variabele aan. ◦ 1. Nominal Nominaal;
bijvoorbeeld geslacht ◦ 2. Ordinal Ordinaal; bijvoorbeeld opleidingsniveau ◦ 3. Scale
Interval en Ratio; bijvoorbeeld inkomen of leeftijd.
Hypothesen
Hypothesen= zijn toetsbare verwachtingen over de uitkomsten van je analyses (onderzoek) (welke
relaties zijn er tussen variabelen?
Hypothesen worden meestal opgedeeld in twee delen:
- Nulhypothese (h0) - wordt gebruikt wanneer er onvoldoende bewijs is voor het alternatief
Meestal aannames zoals: er is geen verband, geen verschil, geen effect
- Alternatieve hypothese (h1) - Meestal: er is wel een verband, verschil, effect
Voorbeeld 1:
- H0: er is geen samenhang tussen opleidingsniveau en inkomen
- H1: er is een samenhang tussen opleidingsniveau en inkomen
Voorbeeld 2:
Onderzoeksvraag: “Is er een positief verband tussen de mate waarin iemand over geld beschikt en de
mate waarin hij/zij zich gelukkig voelt?”
- Beschrijf de nul- & alternatieve hypothese
- Mogelijk antwoord: H0: Geld heeft geen invloed op geluk H1: Geld heeft invloed op geluk
Met onderzoek gaan we altijd uit van H0 en kijken dus met behulp van statistiek of H0 houdbaar is
(en daarmee of H1 verworpen kan worden) of dat H0 verworpen kan worden (en of H1 aangenomen
kan worden). Op die manier gaan we niet opzoek naar bevestiging maar werken doormiddel van
weerlegging (witte & zwarte zwaantjes).
Kansberekening
- De kans dat je uit een stok kaarten een klaver, ruiten, harten of schoppen kaart trekt = 100%,
oftewel p = 1,00
- De kans dat je een schoppen kaart trekt = één op vier: p = 0,25
- De kans dat je een rode kaart trekt is= 50%, oftewel p = 0,50
Totaal van kansen op een bepaalde gebeurtenis is 100% > Bv. 60% regen, 40% droog.
- In statistiek spreken we niet van procenten maar we drukken de kans uit in een waarde die
loopt van 0,00 tot 1,00. Kans wordt aangegeven met de letter p (probability) ◦ Bv. p (regen) =
0,60, p (droog) = 0,40
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller isajanssen18012002. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $6.87. You're not tied to anything after your purchase.