Samenvatting Statistiek voor
dummies
Deborah Rumsey
Inhoudsopgave
HOOFDSTUK 1 – STATISTIEK IN EEN NOTENDOP............................................................................................. 2
HOOFDSTUK 4 – DE GEREEDSCHAPSKIST VAN DE STATISTICUS.......................................................................4
HOOFDSTUK 5 – GEMIDDELDEN, MEDIANEN EN MEER...................................................................................8
HOOFDSTUK 6 – HET COMPLETE PLAATJE: CATEGORISCHE GEGEVENS VISUALISEREN...................................11
HOOFDSTUK 7 – GETALLEN IN BEELD............................................................................................................ 12
HOOFDSTUK 8 – KANSVARIABELEN EN DE BINOMIALE VERDELING...............................................................15
HOOFDSTUK 9 – DE NORMALE VERDELING................................................................................................... 17
HOOFDSTUK 10 – DE T-VERDELING............................................................................................................... 20
HOOFDSTUK 11 – STEEKPROEFVERDELINGEN EN DE CENTRALE LIMIETSTELLING...........................................22
HOOFDSTUK 12 – RUIMTE GEVEN AAN HET TOEVAL: DE FOUTMARGE..........................................................25
HOOFDSTUK 13 - BETROUWBAARHEIDSINTERVALLEN: DE BEST MOGELIJKE SCHATTING MAKEN..................28
HOOFDSTUK 14 - BEWERINGEN, HYPOTHESES TOETSEN EN CONCLUSIES......................................................31
HOOFDSTUK 15 – VEELGEBRUIKTE TOETSEN: FORMULES EN VOORBEELDEN.................................................34
HOOFDSTUK 16 – PEILINGEN, ENQUÊTES EN ONDERZOEKEN........................................................................37
HOOFDSTUK 17 – EXPERIMENTEN................................................................................................................ 39
HOOFDSTUK 18 – ZOEKEN NAAR VERBANDEN: CORRELATIE EN REGRESSIE...................................................42
HOOFDSTUK 19 – KRUISTABELLEN EN ONAFHANKELIJKHEID.........................................................................45
SPIEKBRIEF STATISTIEK................................................................................................................................. 48
1
,Hoofdstuk 1 – Statistiek in een notendop
Statistiek is overal. Het is van belang is om niet alles aan te nemen als de waarheid. Durf je af te
vragen, waarom?
Twee belangrijke manieren om gegevens te verzamelen zijn enquêtes en experimenten.
Bij een observatieonderzoek wordt informatie van of over personen verzameld zonder dat dit invloed
op deze mensen heeft. Een veelgebruikt type observatieonderzoek is de enquête of peiling, waarbij
een vooraf geselecteerde groep personen wordt gevraagd om en aantal vragen te beantwoorden.
Enquêtes kunnen zowel schriftelijk (per post of digitaal), via televisiezenders, telefonisch etc.
Een ‘goed opgezette enquête’ kan betrouwbare, waardevolle informatie opleveren.
Een andere vorm van observatieonderzoek is het experiment. Hierbij worden deelnemers
blootgesteld aan bepaalde invloeden van buitenaf, waarbij wordt gekeken welke reacties dit
oplevert. Bij dit type onderzoek is standaard een controlegroep aanwezig, die zonder het te weten
een placebo krijgt toegediend.
Bij een goed opgezet experiment kijkt een onderzoeker naar de verschillen in reacties tussen de
verschillende groepen proefpersonen, incl. de controlegroep. Als deze verschillen statistisch
significant zijn, is de conclusie dat er een verband van oorzaak en gevolg bestaat. Statistisch
significant betekent dat de kans klein is dat de verschillen door toeval zijn ontstaan.
De sleutel bij het samenstellen van een goede steekproef is willekeur. Het onbedoeld bevoordelen of
juist uitsluiten van bepaalde groepen wordt onzuiverheid genoemd, zeer vaak aangeduid met de
Engelse term bias.
In de statistiek worden twee manieren gebruikt om gegevens overzichtelijk weer te geven: in de
vorm van getallen (ook wel statistische kengetallen genoemd) en in grafische vorm, dus als grafieken
of diagrammen.
Statistische kengetallen zijn getallen die de relevante eigenschappen van een verzameling gegevens
beschrijven:
> Bij categorische gegevens (waarbij personen worden ingedeeld naar bijv. geslacht, woonplaats etc.)
bestaan de statistische kengetallen doorgaans uit absolute aantallen individuen in de afzonderlijke
groepen of het percentage individuen binnen elke groep. Deze gegevens worden aangeduid met het
begrip frequentie. Vaak weergegeven in de vorm van simpele cirkel- of staafdiagrammen.
> Numerieke gegevens weerspiegelen doorgaans meetwaarden of tellingen waarbij de getallen zelf
een bepaalde betekenis hebben, zoals gewicht of lengte. Vaak weergegeven in een histogram of
boxplot.
Met grafieken krijg je vaak in één opslag een beeld van belangrijke of opvallende zaken, zonder dat je
lange reeksen getallen moet doorworstelen. Gegevens kunnen echter nog gemakkelijker dan met
kengetallen misleidend of suggestief worden gepresenteerd.
Een variabele is iets wat geteld, gemeten of in een categorie ondergebracht kan worden. Een
verdeling is de verzameling mogelijke waarden van een variabele en hoe vaak deze waarden
optreden. Er zijn verschillende soorten verdelingen voor verschillende soorten variabelen.
> Als de variabele bestaat uit het aantal keren succes bij een bepaald aantal pogingen (bijv. het
aantal mensen dat genas na het gebruik v.e. bepaald medicijn), krijg je binomiale verdeling.
2
,> Als een variabele waarden aanneemt volgens een klokvormige curve, zoals bijv. de scores bij een
nationale IQ-test, wordt gesproken over een normale verdeling.
> Als de variabele is gebaseerd op steekproefgemiddelden van een beperkte hoeveelheid gegevens,
bijv. wanneer er slechts tien mensen deelnemen aan een programma voor gewichtsverlies, kan een
t-verdeling de beste keuze zijn.
Veel statistische gegevens zijn bedoeld om uitspraken te doen over de gehele populatie. Dit is bijna
altijd het geval bij uitslagen van peilingen en enquêtes. Het gevaarlijke van deze uitspraken is dat
niemand kan garanderen dat ze honderd procent correct zijn, tenzij de volledige populatie in het
onderzoek is betrokken. De nauwkeurigheid van een steekproef wordt ook wel foutmarge genoemd.
Hier wordt mee bedoeld dat je enige onzekerheid in het resultaat accepteert omdat je niet de
volledige populatie in het onderzoek kunt betrekken.
Het gebied tussen de foutmarges wordt het betrouwbaarheidsinterval genoemd. Bijv. stel dat uit
onderzoek komt dat 60% wekelijks tankt. Er is een foutmarge van 2%. Het betrouwbaarheidsinterval
is dan het gebied tussen 58% en 62%.
Een van de grondvesten van onderzoekszoekswetenschappen is het toetsen van hypotheses. De
volgende elementen v.e. populatie worden het meest getoetst:
> het gemiddelde v.d. populatie (is het waar dat de pizza’s altijd binnen 30 min. worden bezorgd?)
> een percentage v.e. populatie (is het waar dat 80% v.d. kiezers de politicus steunt?)
> het verschil tussen twee gemiddelden of percentages (is het waar dat het gemiddelde
gewichtsverlies bij dit nieuwe dieet vijf kilo hoger ligt als bij een ander populair dieet?)
Een van de belangrijkste doelen van onderzoek is het vinden van verbanden tussen variabelen. Het is
van belang dat je weet aan welke voorwaarden voldaan moet worden om te komen tot
geloofwaardige resultaten.
Bij verbanden geeft de correlatie de sterkte en richting van een lineair verband tussen x en y weer.
Het toepassen van resultaten om voorspellingen te doen over een bepaalde variabele, gebaseerd op
gegevens van een andere variabele, wordt regressie genoemd.
Een van de meest gemaakte fouten bij het trekken van conclusies uit statistisch onderzoek is het
toepassen van de resultaten op een veel grotere groep dan de eigenlijke populatie binnen het
onderzoek.
Een andere fout die onderzoekers vaak maken is een onterecht verband van oorzaak en gevolg
leggen tussen twee variabelen. Alleen na een goed opgezet experiment kun je uitspraken doen over
oorzaak en gevolg bij een gevonden verband tussen variabelen.
3
, Hoofdstuk 4 – de gereedschapskist van de statisticus
Statistiek is het gehele proces van gegevens verzamelen om vragen te beantwoorden, waarbij zowel
de verzamelde gegevens als de uiteindelijke antwoorden bestaan uit getalsmatige informatie.
Een onderzoeker komt via de volgende stappen tot een antwoord:
1. Bepaal de populatie;
2. Verzamel de benodigde gegevens;
3. Structureer en analyseer de gegevens;
4. Trek conclusies uit de verzamelde gegevens, samenvattingen en analyses om de
oorspronkelijke vraag te beantwoorden.
Met gegevens (of data) wordt de informatie aangeduid die je verzamelt in de loop van een
onderzoek. Niet alle gegevens bestaan uit getallen. De meeste gegevens zijn onder te verdelen in
twee groepen: numeriek en categorisch.
> Numerieke gegevens: Bestaan uit getallen en worden ook wel kwantitatieve gegevens genoemd.
Numerieke gegevens kunnen worden onderverdeeld in twee soorten: discreet en continu. Discrete
gegevens zijn zaken die afzonderlijk geteld kunnen worden en waarvan de waarden ook afzonderlijk
weergegeven kunnen worden (vb. aantal tanden van een hond, bladzijden in een boek). Continue
gegevens representeren meetwaarden die niet kunnen worden weergegevens als verzameling
aftelbare waarden, maar alleen als een gebied van waarden (interval) op de getallenlijn (vb.
lichaamslengte, gewicht, IQ, bloeddruk).
> Categorische gegevens: duiden bepaalde vastomlijnde eigenschappen aan die niet als getal of
meetwaarde uitgedrukt kunnen worden, zoals het geslacht, burgerlijke staat of woonplaats. Andere
namen voor categorische gegevens zijn kwalitatieve gegevens en bijv. ja/nee-gegevens.
Een gegevensset of dataset is de volledige verzameling gegevens van een steekproef. Alle gegevens
verwerkt in een tabel wordt een datamatrix genoemd.
Een variabele is een willekeurig kenmerk of getal dat van individu tot individu kan verschillen. Dit
kunnen telwaarde, meetwaarde of categorische waarde zijn.
De volledige groep die wordt onderzocht, wordt de populatie genoemd. Dit kunnen groepen
individuen of items zijn. Bij een goed opgezet onderzoek wordt een populatie zeer duidelijk en
zorgvuldig gedefinieerd. Bij veel slechte onderzoeken is het onduidelijk wie of wat wel en niet tot de
populatie behoort, voorbeeld: slapen baby’s beter met achtergrondmuziek? Hoe wordt baby’s bij
deze vraag gedefinieerd? Deze populatie is op deze manier nog te vaag.
Statistici willen iets kunnen zeggen over een grote groep mensen of andere zaken (dus de gehele
populatie), maar hebben geen tijd of middelen om ieder individu v. die populatie te onderzoeken.
Daarom selecteren ze een kleine groep individuen uit die populatie om te onderzoeken en op basis
van dat onderzoek trekken ze conclusies over de populatie als geheel (voorbeeld ter vergelijking,
roeren in een pan soep en proeven). De uit de populatie geselecteerde groep die daadwerkelijk
wordt onderzocht, wordt steekproef genoemd.
Een goede steekproef wordt samengesteld door een willekeurige keuze te maken uit de gehele
populatie. In statistiekjargon wordt gezegd dat je een aselecte steekproef neemt. De definitie van
een aselecte steekproef is dat elke zo gekozen steekproef van dezelfde grootte een even grote kans
heeft om uit de totale populatie geselecteerd te worden. Het woord aselect geeft ook letterlijk aan
dat je geen specifieke selectie toepast.
4
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller LKS. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $7.05. You're not tied to anything after your purchase.