Statistiek 1
Week 1
Hoorcollege 1
Statistiek → gaat over het verzamelen, organiseren en interpreteren van (numerieke) data.
Het is dus empirisch onderzoek waar door middel van zintuiglijk waarnemen (vragenlijsten,
experimenten etcetera) iets wordt geleerd van de wereld om ons heen.
Statistische geletterdheid = vermogen om statistische resultaten te begrijpen en kritisch te
evalueren. Een gebrek hieraan kan leiden tot bijvoorbeeld misverstanden, misvattingen en
wantrouwen.
Verschil tussen kansrekening en statistiek:
❖ Kansrekening (probability) → gaat veelal uit
van deductie (van algemeen naar specifiek).
Je weet al iets over de populatie en daardoor
kun je uitspraken doen over de
waarschijnlijkheid waarmee bepaalde situaties
zich voordoen.
❖ Statistiek → gaat veelal uit van inductie (van
specifiek naar algemeen). Je weet specifieke
uitkomsten/een steekproef, maar nu wil je een
uitspraak kunnen doen over de hele populatie.
In hoeverre geven bijvoorbeeld 100 studenten informatie over de volledige populatie
(alle studenten van die studie).
Overeenkomst tussen statistiek en kansrekening:
● Kansrekening en statistiek houden beide rekening met toeval (randomness). Je kunt
hierdoor niet met een bepaalde zekerheid uitspraken doen, maar je kunt wel dingen
stellen met een bepaalde mate van waarschijnlijkheid. Wanneer je veel rode sokken
, pakt hoeft het niet te betekenen dat de meerderheid van de sokken rood zijn (het kan
zo zijn dat je toevallig telkens een rode sok pakt), maar de kans is wel groot dat er
veel rode sokken zijn als je die ook telkens pakt (waarschijnlijk).
● Statistische technieken (gemiddelde, minimum, maximum etcetera) worden gebruikt
om hele populatie te beschrijven. Technieken zoals gemiddelde worden gebruikt voor
zowel steekproef als populatie.
● Statistiek maakt aannames over de populatie (bijvoorbeeld nulhypothese = er is
geen effect of relatie tussen variabelen) om deze op basis van een steekproef te
weerleggen (falsificeren). Het is sterker om een stelling te weerleggen (denk hierbij
aan de zwanen. Wanneer je zegt dat alle zwanen wit zijn heb je maar 1 zwarte
zwaan nodig om het tegendeel te bewijzen, maar elke witte zwaan die je tegenkomt
is van te weinig bewijs dat alle zwanen wit zijn, je moet dus het tegendeel bewijzen
(falsificeren).
Er zijn verschillende soorten statistiek:
➢ Beschrijvende statistiek = vat een steekproef of populatie samen aan de hand van
data (weergegeven in nummers, tabellen en grafieken). Denk hierbij aan gemiddelde,
mediaan, SD etcetera. Er zit hier geen onzekerheid. Je kijkt naar de steekproef en
het gemiddelde daarvan en dat is het (je doet geen uitspraken over de populatie).
(De steekproefgrootte is hetzelfde als de populatiegrootte).
➢ Inferentiële statistiek = kun je op basis van je steekproef uitspraken/voorspellingen
doen over de populatie parameter, op basis van de data uit de steekproef. In dit
geval is er wel sprake van onzekerheid. Dit is dus inductie.
(De steekproefgrootte is kleiner dan de populatiegrootte).
Populatie parameter = een waarde die de hele populatie beschrijft (bijvoorbeeld het
populatiegemiddelde). Dis is iets wat je nooit precies weet maar je geeft een
schatting/gemiddelde weer. Meestal wordt er onderzoek gedaan met een steekproef, het
getal dat hier uitkomt noem je dan de statistiek (dat is dan je beste informatie over de
parameter). Dus hier is geen onzekerheid, je weet precies de waarde van de hele populatie.
Methodologie = systematische wijze waarop je (empirisch) onderzoek moet uitvoeren. Denk
aan een onderzoeksdesign opstellen en hoe zet je dit op en voer je dit uit.
Statistiek = het instrumentarium om empirisch onderzoek uit te kunnen voeren. Ga ik
gegevens verzamelen door observaties of interviews of een random steekproef en hoe ga ik
het rapporteren.
Statistiek en methodologie zijn dus verschillend, maar kunnen niet zonder elkaar al wil je
goed empirisch onderzoek uit te kunnen voeren.
Je hebt een theorie en die voorspelt data. Aan de hand van de data kun je de theorie
toetsen, maar daar heb je wel instrumenten voor nodig (dat noem je statistiek →
steekproefgrootheid), zoals gemiddelde, correlaties, SD etcetera.
,De data moet betrouwbaar (= als je meting nog ene keer doet komt er ongeveer hetzelfde uit
→ consistente antwoorden krijgen, bij een grote steekproef zijn de waardes ook meer
consistent) en valide (het gemiddelde van de steekproef moet representatief zijn voor het
gemiddelde van de gehele populatie, je wilt meten wat je beoogt te meten) zijn.
Variabelen:
Variabele = wanneer je een bepaald construct wil meten moet je dit operationaliseren naar
een variabele. Bijvoorbeeld het construct werkdruk, kan geoperationaliseerd worden naar
hoeveel uur werk je aan school. Het is een karakteristiek die kan verschillen tussen
subjecten. Denk hierbij aan leeftijd, geslacht, etniciteit, opleidingsniveau en ga zo maar door.
Het is variabel, want voor iedereen is het anders (het wisselt van persoon/subject → je krijgt
verschillende antwoorden in je steekproef).
- Het aantal vragen is gelijk aan het aantal variabelen.
- Een observatie is een waarde van een bepaalde variabele
In deze tabel kun je zien dat de variabelen ‘day’, ‘starting time’, ‘method’ en ‘yield’ zijn. De
andere waardes zoals ‘Turbo’ zijn dus de observaties/waardes van die variabelen.
(elke rij (horizontaal) gaat over een aparte participant en elke kolom (verticaal) gaat over een
variabele).
Er zijn verschillende soorten variabelen (een soort variabele bepaald welke statistische
gereedschappen je kunt gebruiken):
➔ Gedragsvariabelen
➔ Stimulus variabelen
➔ Subjectvariabelen
➔ Fysiologische variabelen
Er zijn verschillende meetniveaus/meetschalen (NOIR → nominaal/ordinaal/interval/ratio):
➔ Categorisch/kwalitatief (niet numerieke variabelen/gemeten in groepen):
, - Nominaal = ongeordende categorieën. Je kunt ze cijfers geven maar die cijfers
hebben geen betekenis. Bijvoorbeeld geslacht, valt onder te verdelen in man (1) en
vrouw (2). Er zit hier niet echt een ordening van laag naar hoog of van weinig naar
veel in, denk aan kleur ogen.
- Ordinaal = geordende categorieën. het is een natuurlijke rangordening van hoog
naar laag. van een meting → de cijfers geven een gerangschikte volgorde aan.
(Denk aan de top 3 beste zomerhits). Hierbij is het niet duidelijk hoe groot het
verschil was tussen de nummer 1 en 2 (dus ongelijke intervallen). Een ander
voorbeeld is leeftijd of laag, midden, hoog.
➔ Kwantitatief/numeriek (gemeten op schaal):
- Interval = gelijke afstand tussen opeenvolgende waarden. Denk hierbij aan graden
celcius. Hier kunnen er ook waarden onder de 0 komen. Een ander voorbeeld is
zeeniveau, deze kan ook onder 0 komen.
- Ratio = de cijfers vertegenwoordigen weer gelijke opeenvolgende waarden, maar
nu is en een absoluut nulpunt. Verhoudingen tot 0 zijn in dit geval betekenisvol. Denk
hierbij aan Kelvin. Dus een nul betekent ook echt dat het geen waarde heeft/dat het
er niet is. Ook gewicht is een voorbeeld, je kunt niet negatief wegen.
Het meetniveau van je variabele bepaalt welke statistische tool je kunt gebruiken. Zo kun je
niet de gemiddelde kleur berekenen, maar wel de proporties van kleuren.
Leeftijd is ordinaal.
Er zijn ook verschillende soorten waardebereik (je treft voor ieder subject een andere
waarde aan):
➔ Discreet = eindig aantal waardes die je kunt waarnemen (dus een eindig ondeelbare
meeteenheid). Denk hierbij aan het aantal broers en zussen, je kunt namelijk niet 1,4
broers hebben. Het is dus telbaar (er is een vast aantal wat je zou kunnen
waarnemen).
➔ Continu = oneindig meetbare en deelbare meeteenheid. Denk aan lichaamslengte
die je oneindig nauwkeurig achter de komma zou kunnen meten. Wanneer je de
lengte meet rond je vaak af, je meet dan om discrete wijze, maar in theorie is het dus
wel continu meetbaar.