Hoofdstuk 1: Introducte
__________________________________________________________________________________
Sociale wetenschappers bestuderen een onderwerp naar interesse, bv. Hoe goed werkt een
programma?
Statstsche methoden worden gebruikt om gevonden informate te analyseren. Statstsche
argumenten komen voor in reclames, nieuws, politeke campagnes en in enquêtes over meningen
over tegenstrijdige issues. Statstsche wetenschap helpt je om deze informate te begrijpen en om te
kunnen evalueren welke argumenten valide of niet valide zijn. www.youtube.om/user/ThisisStats
The General Social Survey: is een vragenlijst over 2000 volwassen die data geef over meningen en
gedrag van het Amerikaanse volk. Sociale wetenschappers gebruiken het om te onderzoeken hoe
volwassen Amerikanen een grote verscheidenheid aan vragen beantwoorden. (sample survey)
Statstek: Statstek is de wetenschap van het verzamelen, organiseren en interpreteren van
numerieke feiten, die gegevens of data worden genoemd.” = Het instrumentarium om empirisch
onderzoek uit te kunnen voeren.
Het is de gereedschapskist om alles voor je onderzoeksvraag te kunnen doen.
Methodologie is de systematsche wijze van hoe je empirisch onderzoek zou moeten uitvoeren.
Statsteke wetenschap biedt methodes voor:
-Designing onderzoek: plannen hoe data te verzamelen voor een onderzoeksstudie om vragen te
onderzoeken. Wat is de onderzoeksvraag? Welke data? Hoe ga ik de steekproef selecteren? Welke
toetsen ga ik doen? (zo een onderzoek plannen dat de data informatef is. ij een vragenlijst
specifceert het design hoe mensen geselecteerd worden.)
-Descripton (beschrijving): de verkregen data uit het onderzoek samenvaten. Om de informate
verkregen uit de data te begrijpen. Geef een beschrijving van een bepaalde steekproef/populate op
basis van data verzameld voor deze steekproef/populate. (data in tabel/grafek zeten of
gemiddelden/percentages beschrijven = beschrijvende statstek (descriptve statstcs)).
-Inferente (conclusie): voorspellingen/conclusie maken over een bepaalde populate gebaseerd op
de data verzameld voor een steekproef uit de populate (inferental statstcs).
Als het onwaarschijnlijk is dat de hypothese opgaat dan verwerpen we dat het waar is.
eschrijven en inferente zijn de twee manieren om de data te analyseren.
Geef een beschrijving van een bepaalde steekproef/populate op basis van data verzameld
voor de steekproef/populate
Trek een conclusie (inferentee over een bepaalde populate op basis van data verzameld voor
een steekproef uit deze populate.
Kansrekening gaat veelal uit van deducte. Gegeven dat we alle details weten van een bepaalde
populate, hoe waarschijnlijk is dan een bepaalde (steekproef-)uitkomst?
Van algemeen naar specifek.
Statistiek gaat veelal uit van inducte. Gegeven dat een bepaalde (steekproef-) uitkomst, wat kunnen
we met welke waarschijnlijkheid zeggen over de populate?
Van specifek naar algemeen.
Statstsche technieken worden gebruikt om de hele populate te beschrijven. Soms worden er eerst
aannames over de populate gemaakt om vervolgens op basis van een steekproef te bepalen in
hoeverre de aannames opgaan.
,Overeenkomsten tussen statstek en kansrekening
- Rekenen met toeval (randomness)
- Statstsche technieken worden gebruikt om de hele populate te beschrijven. Gemiddelde leefijd
van de Olympische sporterse.
- Sommige statstsche technieken maken eerst bepaalde aannames over de populate om vervolgens
op basis van een steekproef te bepalen hoe onwaarschijnlijk het is dat de aannames opgaan.
eschrijvende Statstek: Descriptive statistics summarize sample or populaton data with numbers
(averages/percentagese, tables, and graphs. Geef een beschrijving van een bepaalde
steekproef/populate op basis van data verzameld voor deze steekproef/populate. Ook gebruikt als
data beschikbaar is voor de hele populate. Wanneer steekproef en populate hetzelfde zijn.
Inferentiële Statstek: Inferential statistics use sample data to make predictons about populaton
parameters. Trek een conclusie (inferentee over een bepaalde populate op basis van data verzameld
voor een steekproef uit deze populate. Data alleen toegankelijk voor de steekproef, maar we willen
een voorspelling maken over de hele populate. (parameter= een numerieke samenvatng van hele
populate. v. Populatepercentage dat in de hemel geloof 85%.)
De conclusies die worden verkregen door inferentiële staststek hoeven niet altjd waar te zijn, er zit
dus een mate van onzekerheid in.
Succes in statstekonderwijs verhogen door:
- Onderzoeken met behulp van Data: de informate die uit observates (van karakteristeken) is
verzameld.
- Goede data nodig om deze onderzoeksvraag te beantwoorden:
betrouwbaar (consistente: metng is relatef stabiel, je wil dat het steekproef gemiddelde niet heel erg
varieert van het populate gemiddelde.
en valide (meet beoogt te metene. iets wat je observeert in je steekproef dat dat een goed beeld
geef van het construct dat je hebt waargenomen. Het kan zijn dat het instrument niet goed werkte
(meetout) het kan zijn dat je steekproef niet selectef is getrokken en daardoor kan het niet iets
zeggen over gehele populate. Het kan ook te maken hebben met constructvaliditeit, mensen kunnen
niet het goede antwoord geven omdat de vraag niet duidelijk is, of omdat ze een sociaal wenselijk
antwoord geven. De steekproefgroote beïnvloed de validiteit.
(Databases: bestaande gearchiveerde collecte van data).
Laatste is perfect, laten geen biyes zien.
populate: de totale set van deelnemers, relevant voor de onderzoeksvraag. Vb populategrootheid
(parameter): gemiddeld aantal uren online zelfstudie per week.
steekproef: een deel van de populate waarover data verzameld is. Vb steekproefgrootheid (statstc):
gemiddeld aantal uren online zelfstudie per week.
,Conceptuele populate: een populate die niet echt bestaat, maar hypothetsch is. v. Een nieuw
medicijn voor longkanker onderzoeken bij verschillende medische centra. Deze medische studie heet
een Clinical trial.
Data fle: statstsche sofware analyseert de data in een spreadsheet vorm. Heef een aparte kolom
voor elke deelnemer en een aparte kolom voor de observates van bepaalde karakteristeken (seks,
ras, huwelijkse staat, leefijd, inkomen). Sofware past statstsche methoden toe op
gegevensbestanden (data fles).
Machine learning maken van voorspellingen voor individuen/populates gebaseerd op voorgaande
resultaten van deze of vergelijkbare individuen/populates.
Zoals Netlix, door eerdere series die je hebt gezien voorspellen zij welke series jij waarschijnlijk ook
nog leuk vond.
Hoofdstuk 2: Steekproef trekken en meten
__________________________________________________________________________________
Variabele: elk kenmerk van een subject, die we kunnen meten. (geslacht, inkomen, mening etc.)
Gedrags-, stmulus-, subject- en fysiologische-variabelen.
De valide statstsche methode die we kunnen gebruiken voor een variabele hangt af van zijn
meetschaal:
-Categorische (kwalitatefe variabele: als de maatschaal een set van categorieiën is. Huwelijkse staat
(single, getrouwd, gescheiden enz.), geslacht, muzieksmaak, religieuze afecte.
Hierbij is het niet mogelijk om een gemiddelde te berekenen.
Nominaal: ongeordende categorieiën, is beschrijvend kleur ogen
Ordinaal: geordende categorieiën, geef een volgorde opleiding niveau
Dit zijn discrete variabelen.
-Numeriek (kwanttatefe: als de maatschaal numerieke waardes heef die verschillende grootes van
de variabele representeren. v. Inkomen, aantal broertjes/zusjes, leefijd, studiejaren.
Hierbij is het wél mogelijk om een gemiddelde te berekenen.
Interval: gelijke afstanden tussen opeenvolgende waarden Graden Celsius
Ratio: gelijke afstanden én een absoluut nulpunt Kelvin (bij 0 graden is er geen energie)
Kunnen zowel discreet als contnu zijn.
-Bereik
Discrete variabele: als de mogelijke waarden een set van aparte nummers vormen (0, 1, 2, 3) De
meeteenheid die ondeelbaar is, er bestaat niks tussen. Geen anderhalve zus. (het aantal:
broertjes/zusjes). Categorische variabelen, nominaal/ordinaal zijn discreet.
Continue variabele: oneindig deelbaar meeteenheid (lichaamslengte) kan je tot op heel veel getallen
achter de komma opschrijven.
In praktjk zijn bijna alle variabelen discreet gemeten. Ook al zijn ze in theorie contnue (leefijd, in
jaren).
Natuurlijke ordening van waarde: ordinale schaal. Denk aan sociale klasse, politeke philosofy
(extreem links, links, midden, rechts, extreem rechts). Geordende data.
Randomiseren is om een goede representatviteit van de steekproef te krijgen.
n = deelnemersaantal van de steekproef: steekproefgroote.
, A selecte steekproef (simple random sample): is de kans dat iedereen uit de populate een gelijke
kans heef om geselecteerd te worden. Dit is belangrijk, omdat je er zeker van moet zijn dat je data
niet biased (vertekend) is. Dit zou inferentiële statstek nuteloos maken: je kunt dan niets zeggen
over de populate.
Sampling frame: een lijst van alle deelnemers uit de populate.
Random numbers: zijn door de computer gegenereerd a.d.h.v. een schema.
Het doel van inferentiële statstek is een betrouwbare en valide uitspraak over de populate te doen
mbv een steekproef. Maar er doen zich hierbij een aantal problemen voor:
Condites in een experiment heten treatments (behandeling). Dit wordt gebruikt in een
experimenteel design, waarin randomisate is gebruikt. Random sampling controleert de mate van
-Steekproefout (sampling error) toevallige steekproefversciillen: De afwijking tussen de steekproef
en de populate. Een steekproefout treedt op als we statstek gebruiken, gebaseerd op een
steekproef, om de waarde van een populateparameter te voorspellen. eschrijf hoe de resultaten
kunnen variiëren van steekproef tot steekproef. Random steekproeven zijn meer representatef voor
de populate dan nonprobability samples.
-Steekproefvertekening (Sampling bias) selectieve werving: Wanneer het niet mogelijk is om vast te
stellen dat alle leden uit de populate een even grote kans hebben om in de steekproef te komen.
Probability sampling method, waarschijnlijkheidssteekproef is een vorm van random sampling en
houdt in dat de waarschijnlijkheid dat iedereen die geselecteerd kan worden bekent is. (inferentele
statsteke methode). Nonprobability sampling methods je kunt de waarschijnlijkheid van de
mogelijke deelnemers niet vaststellen. Denk aan volunteer sampling. De bias hier wordt ook wel
selecte bias genoemd. Zelfs met random sampling kan bias optreden, bv. Door undercoverage. Een
bepaalde groep uit de populate wordt amper gerepresenteerd.
-Meetfout (Response bias) incorrect antwoord: Slecht verwoorde of verwarrende vragen resulteren
in response bias, incorrect response. Mensen kunnen liegen als het een sociaal onacceptabel
antwoord is. Kunnen antwoord geven dat ze denken dat de interviewer wil hebben.
-Selectieve respons (non-response bias) selectieve deelname: als geselecteerde steekproef
deelnemers weigeren deel te nemen, of ze niet te bereiken zijn. v. 100000 mensen stuur je verzoek
en 4500 antwoorden, misschien geef deze 4.5% geen representatef beeld van het totaal. Missing
data is ook een probleem. Als deelnemers geen antwoord geven op sommige gemeten variabelen
(vooral in longitudinaal), of sommige vallen uit.
Bias: validiteitsfouten; heb je enigszins in de hand, een valide instrument, iedereen antwoord laten
geven, zorg dat iedereen aanwezig is. Error: betrouwbaarheidsfouten; is niet op te lossen, je
observeert een steekproef en niet de gehele populate, door een grote steekproef of een homogene
doelpopulate kan je dit wel voorkomen.
De oplossing hiervoor: “Een aselecte (of andere probabilistsche) steekproef van voldoende omvang
die informate (data) oplevert over iedereen die benaderd is, met correcte responses voor alle
subjecten op alle items.”
Andere methodes voor random sampling. Kiezen tussen de steekproefmethoden hangt af van
samenstelling doelpopulate, onderzoeksvraag en haalbaarheid van de te vormen steekproef:
Enkelvoudige a selecte steekproefrekken: elke combinate van deelnemers heef evenveel kans om
de steekproef te vormen. Je stelt een steekproefader vast (sampling frame) bijvoorbeeld een lijst
met alle studentnamen uit de studentadministrate. Je trekt willekeurig/aselect een steekproef van n
personen. ijvoorbeeld door nummers toe te wijzen aan iedere student.
Makkelijkste manier en meest gebruikte manier. Elke steekproef is valide, omdat je willekeurig kiest.