Statistiek Informatiekunde
Hoofdstuk 1, What is statistics?
Statistieken zijn measures verkregen uit samples. Statistieken kunnen worden onderverdeeld in
beschrijvend en inferentieel.
Beschrijvende statistiek
Dit kan worden gebruikt om de kenmerken van een monster te beschrijven. Een voorbeeld is het
bovengenoemde gemiddelde spreektempo in de steekproef van honderd Belgisch-
Nederlandssprekenden.
Inferentiële statistiek
Hierdoor kan de onderzoeker de kenmerken van een steekproef gebruiken om conclusies te trekken
over de populatie in het algemeen. Als we de gemiddelde spreeksnelheid van Belgisch-Nederlandse en
Nederlands-Nederlandse sprekers vergelijken, kunnen inferentiële statistieken ons vertellen of het
verschil statistisch significant is of alleen maar aan toeval kan worden toegeschreven.
Het verschil tussen een sample statistic en de bijbehorende populatieparameter wordt de
steekproeffout (sampling error) genoemd. Hoe kleiner de steekproeffout, hoe dichter de steekproef de
karakteristieken van de populatie vertegenwoordigt. Hoe hoger de steekproeffout, hoe moeilijker het
zal zijn om de resultaten van je onderzoek uit te breiden is naar de bevolking.
De beste sampling methode is random sampling. Dit houdt in dat elke deelnemer van de populatie
evenveel kans heft om geselecteerd te worden. Als alternatief kan je een zogenaamde representative
sampling gebruiken. Representatieve steekproeven houden in dat de onderzoeker een steekproef
zodanig trekt dat deze de populatie op bepaalde kenmerken aansluit. Ten slotte is er convenience
sampling, de minst betrouwbare, maar waarschijnlijk de meest gebruikte methode. Iemand kan
eenvoudigweg in een paar gemakkelijk bereikbare steden opnames maken van verschillende sprekers
van het Nederlands. Hoe minder willekeurig de steekproefprocedure is, hoe groter het risico op
vertekening.
Bepaalde alternatieve hypothesen worden directioneel genoemd. Ze geven een richting aan de
ongelijkheid die de onderzoeker veronderstelt, omdat ze uitdrukkingen bevatten als ‘X is meer dan Y’
en ‘hoe groter X, hoe groter Y’. Andere alternatieve hypothese zijn daarentegen niet-directioneel. De
onderzoeker heeft geen verwachtingen over de frequentie van metaforische uitdrukkingen die door
mannen en vrouwen worden gebruikt. Ze verwacht eenvoudigweg een verschil tussen de geslachten te
vinden. Het kan worden uitgedrukt als ‘X is niet gelijk aan Y’.
→ Waarom hebben we de nul- en alternatieve hypothesen nodig? Dit komt omdat de hedendaagse
wetenschap gebaseerd is op de logica van falsificatie. Het is onmogelijk om te bewijzen dat iets juist
is, maar het is mogelijk om het tegendeel te verwerpen.
Normaal verdeling →
Dit is een heel belangrijk concept
in de statistiek omdat veel
tests, die parametrisch
worden genoemd, ervan
uitgaan dat de gegevens normaal
verdeeld zijn
P-value
, De p-waarde toont de waarschijnlijkheid dat een bepaalde teststatistiekwaarde of extremere waarden
worden verkregen als de nulhypothese waar is.
! Als een p-waarde kleiner is dan een conventioneel niveau/significance level (meestal 0,05 of 0,01),
wordt de nulhypothese verworpen. . De significance level is de mate van risico dat je bereid bent te
nemen dat je een nulhypothese die feitelijk waar is, verwerpt. Het is van cruciaal belang dat het
significantieniveau vóór de statistische analyse wordt bepaald, en niet erna.
Als het significantieniveau 0,05 is, betekent dit dat er een kans van 5% is om de nulhypothese te
verwerpen, terwijl deze feitelijk waar is.
Degrees of freedom
Naast de teststatistische waarde moet men ook het aantal vrijheidsgraden kennen (vaak aangeduid als
df) om de p-waarde te berekenen. In een notendop is dit het aantal waarden dat vrij kan variëren. Voor
veel statistische tests is dit de steekproefomvang min één.
Voor verschillende aantallen vrijheidsgraden zullen de critical values van de teststatistiek (dat wil
zeggen de waarden die overeenkomen met een bepaald significantieniveau, bijvoorbeeld 0,05 of 0,01)
verschillend zijn.
Type I error: ‘false alarm’ of ‘false positive’ - wanneer je een nulhypothese verwerpt die feitelijk klopt
Type II error: ‘false negative’ - wanneer de onderzoeker een nulhypothese accepteert die feitelijk
onjuist is en er sprake is van een echt verschil tussen groepen
→ Als de alternatieve hypothese richtinggevend is, is het juist om een eenzijdige toets te gebruiken.
Als het niet-directioneel is, moet normaal gesproken een tweezijdige toets worden gebruikt.
De reden om onderscheid te maken tussen eenzijdige en tweezijdige toetsen is dat je verschillende
minimum- of maximumtoetsstatistieken nodig hebt om een significant resultaat te verkrijgen. Als je
hypothese niet-directioneel is, dat wil zeggen: ‘X is anders dan Y’, kun je een extreem resultaat
waarnemen in de linker- of rechterstaart. Dit is de reden dat de waarde van 0,05 wordt opgesplitst in
0,025 (voor de linkerstaart) en 0,025 (voor de rechterstaart).
Types variabelen
De uitkomstvariabele, of degene die verandert als functie van een aantal andere interessante
parameters, wordt de respons of afhankelijke variabele genoemd. De variabelen die de uitkomst
beïnvloeden, worden verklarende of onafhankelijke variabelen genoemd.
Nominale variabelen zijn twee of meer categorieën die elkaar uitsluiten. Als het aantal
categorieën slechts twee bedraagt, spreekt men van een binaire variabele. Een spreker van
bijvoorbeeld een taal kan mannelijk of vrouwelijk zijn, moedertaal of niet-moedertaal; Je kan
niet tot beide variabelen behoren.
Wanneer de categorieën kunnen worden geordend hebben we te maken met ordinale
variabelen. Een voorbeeld zijn antwoorden in een vragenlijst op een vijfpunts Likertschaal,
b.v. ‘helemaal mee oneens’ –
‘mee oneens’ –
‘noch eens, noch oneens’ –
‘mee eens’ –
‘helemaal mee eens.
Als gelijke intervallen op de schaal gelijke verschillen tussen de punten op de schaal
vertegenwoordigen, hebben we te maken met een intervalvariabele. Een bekend voorbeeld is
de temperatuur op de schaal van Celsius of Fahrenheit. Het verschil tussen 20 en 25 graden is
hetzelfde als het verschil tussen 25 en 30 graden. Het is echter belangrijk dat
intervalvariabelen geen nulpunt bevatten, of als dat wel het geval is, is dit willekeurig.