Statistiek in de praktijk theorieboek l David S. Moore l George P. McCabe l 5 e herziene druk l 2009
Samenvatting statistiek in de praktijk.
Inhoud
Hoofdstuk 1,Kijken naar gegevens – verdelingen...................................................................................2
1.1. Weergeven van verdelingen met grafieken.................................................................................3
1.2. Verdelingen beschrijven..............................................................................................................5
1.3. De normale verdelingen..............................................................................................................7
Hoofdstuk 2, Kijken naar gegevens – relaties.......................................................................................10
2.1. Spreidingsdiagrammen..............................................................................................................10
2.2. Correlatie...................................................................................................................................11
2.3. Kleinste-kwadrantenmethode...................................................................................................11
2.4. Aandachtspunten bij regressie en correlatie.............................................................................13
2.5. Oorzaak en gevolg.....................................................................................................................14
Hoofdstuk 3, Gegevens verwerven.......................................................................................................15
3.1. Eerste stappen...........................................................................................................................15
3.2. Opzet van experimenten...........................................................................................................15
3.3. Een steekproeftrekking..............................................................................................................17
3.4. Naar statistische inferentie........................................................................................................18
Hoofdstuk 4, Kansberekening: de studie van het toeval......................................................................20
4.1. Toeval........................................................................................................................................20
4.5. De wetten van de kansberekening.............................................................................................20
Hoofdstuk 5, Steekproefverdelingen....................................................................................................22
5.1. Steekproefverdelingen voor aantallen en proporties................................................................22
5.2. Steekproefgemiddelden............................................................................................................23
Hoofdstuk 6, Inleiding tot inferentie....................................................................................................25
6.1. Schatten met betrouwbaarheid.................................................................................................25
6.2. Significantietoetsen...................................................................................................................27
6.3. Gebruik en misbruik van toetsen...............................................................................................29
6.4. Onderscheidingsvermogen en inferentie bij beslissingsproblemen..........................................29
Hoofdstuk 7, Inferentie voor verdelingen.............................................................................................31
7.1. Inferentie voor het gemiddelde van een populatie...................................................................31
7.3. Facultatieve onderwerpen bij het vergelijken van verdelingen.................................................35
Hoofdstuk 8, Inferentie voor fracties....................................................................................................36
8.1. Inferentie voor een enkele fractie.............................................................................................36
1
,Statistiek in de praktijk theorieboek l David S. Moore l George P. McCabe l 5 e herziene druk l 2009
8.2. Vergelijken van 2 fracties...........................................................................................................37
Hoofdstuk 9, Analyse van kruistabellen................................................................................................39
9.1. Gegevensanalyse voor kruistabellen.........................................................................................39
9.2. Inferentie voor kruistabellen.....................................................................................................40
9.3. Formules en modellen voor kruistabellen.................................................................................41
Hoofdstuk 10, Inferentie voor regressie...............................................................................................42
10.1. Enkelvoudige lineaire regressie...............................................................................................42
10.2. Meer details over enkelvoudige lineaire regressie..................................................................45
Bijlagen.................................................................................................................................................48
Bijlage 1. Tabel A, standaardnormale kansen z-waarden.................................................................48
Bijlage 2. Tabel D, kritieke waarden voor een t-verdeling................................................................50
Bijlage 3. Tabel E, kritieke waarden voor de F-verdeling..................................................................51
Bijlage 4. Tabel F, kritieke waarden voor de –verdeling...................................................................53
Hoofdstuk 1,Kijken naar gegevens – verdelingen.
Inleiding.
Statistiek= de wetenschap van de kennisverwerving op basis van gegevens.
Gegevens= numerieke feiten.
Gegevensverzameling= Verzameling dat informatie bevat over een verzameling elementen.
2
,Statistiek in de praktijk theorieboek l David S. Moore l George P. McCabe l 5 e herziene druk l 2009
Elementen= de objecten die beschreven worden door een gegevensverzameling. Elementen kunnen mensen,
dieren, dingen zijn.
Geval= De gegevens voor 1 element vormen als geheel een geval.
Variabele= een eigenschap van een element. Het kan verschillende waarden aannemen voor verschillende
elementen.
- Kwalitatieve variabele= plaatst een element in 1 of meer groepen of categorieën.
- Kwantitatieve variabele= neemt numerieke waarden aan, waarvoor rekenkundige bewerkingen zinvol
zijn.
- De verdeling van een variabele vertelt welke waarden aangenomen worden en hoe vaak deze
waarden aangenomen worden.
Spreadsheet= Een gegevensverzameling (software) waarin rijen de elementen weergeven en de kolommen de
variabelen.
Je dient er voor te zorgen dat elke variabele werkelijk meet wat je wilt meten. Een ongelukkige keuze van
variabelen kan leiden tot bedrieglijke conclusies. Vaak is een relatieve aantal keren (percentage) dat iets
voorkomt van meer betekenis dan een eenvoudige optelling van die gebeurtenissen.
1.1. Weergeven van verdelingen met grafieken.
Exploratieve data-analyse= Gegevens onderzoek om de belangrijkste kenmerken te kunnen beschrijven aan de
hand van statistische hulpmiddelen en ideeën.
Er zijn 2 basisstrategieën voor de ordening van gegevensverzameling:
1. Begin met elke variabele op zich en onderzoek daarna de onderlinge verbanden tussen de variabelen.
2. Begin met een diagram of diagrammen, en voeg vervolgens de numerieke samenvattingen toe van de
specifieke aspecten van de gegevens.
1.1.1. Grafieken voor kwalitatieve variabelen.
Verdeling bij een kwalitatieve variabele= de categorieën rangschikken in een lijst om het aantal of het
percentage elementen weer te geven die in elke categorie valt.
Staafdiagram= Diagram dat op een snelle manier de omvang van de categorieën laat zien. De hoogte van de
staven geeft de percentages van de categorieën weer.
Taartdiagram= Diagram dat op een snelle manier de verhouding van een groep ten opzichte van het geheel
laat zien. Taartdiagrammen kennen geen schaalverdeling, er wordt gebruik gemaakt van percentages. Het is
noodzakelijk om alle categorieën, die samen het geheel vormen, op te nemen. Gebruik een taartdiagram alleen
om de verhouding van elke categorie tot het geheel te benadrukken.
Staaf- en taartdiagrammen zijn beperkt voor de gegevensanalyse, omdat kwalitatieve gegevens over een
enkele variabele ook zonder een grafiek eenvoudig zijn te begrijpen.
1.1.2. Gegevensanalyse in actie: blijft u even aan de lijn.
Je dient de achtergrond van de gegevens goed te begrijpen, begin met het grafisch weergeven van de
gegevens. Als je naar een grafische voorstelling kijkt, let dan op het globale patroon en op opvallende
afwijkingen daarvan.
1.1.3. Stamdiagrammen
Stamdiagram (stam-en-blad diagram/ stem-and-leaf plot/ stemplot)= een snelle manier om de vorm van een
verdeling in beeld te brengen, terwijl de feitelijke numerieke waarden in de grafiek worden opgenomen.
Werkt het best voor een klein aantal waarnemingen, alle met een waarden >0.
Gebruik stamdiagram:
- Elke waarneming wordt verdeeld in een stam die bestaat uit alle cijfers behalve de laatste, en een
blad. Het blad is de laatste cijfer. Stammen mogen zoveel getallen bevatten als nodig is, maar elk blad
bevat maar 1 cijfer.
3
, Statistiek in de praktijk theorieboek l David S. Moore l George P. McCabe l 5 e herziene druk l 2009
- De stammen worden in oplopende volgorde in een verticale lijst met de kleinste bovenaan geplaatst.
Dan wordt er een verticale streek aan de rechterkant van deze kolom getrokken.
- De bladeren van een rij worden gerangschikt in oplopende volgorde van links naar rechts vanaf de
stam.
Rug-aan-rug stamdiagram= Een stamdiagram met gemeenschappelijke stammen voor 2 verwante verdelingen
die met elkaar wordt vergeleken.
Stamdiagrammen werken niet goed bij grote verzamelingen gegevens, waar elke stam aan een groot aantal
bladeren plaats moet bieden. Als je veel bladeren hebt, kan je het aantal stammen in het diagram vergroten
door elke stam in tweeën te splitsen, 1 met bladeren 0 tot 4 en de andere met de bladeren 5 tot 9.
1.1.4. Histogrammen.
Histogram= verdeelt het waarde bereik van een variabele in intervallen en toont slechts het aantal of
percentage waarnemingen dat in elk interval terechtkomt.
- Nadeel: Het kost meer tijd om histogrammen met de hand te construeren dan stamdiagrammen, en ze
laten de feitelijk waargenomen waarden niet zien.
- Verschil staafdiagram en histogram: Histogram toont de verdeling van de frequenties of relatieve
frequenties van de waarden van een enkele variabele en een staafdiagram vergelijkt de omvang van
de verschillende categorieën. De horizontale as van een staafdiagram hoeft geen maatschaal te
hebben. Bij staafdiagrammen zit ook blanco ruimte tussen de kolommen om de categorieën te
scheiden en de histogrammen heeft geen ruimte er tussen om aan te geven dat alle waarden van de
variabele zijn gedekt.
-
1.1.5. Onderzoeken van verdelingen.
Belangrijkste kenmerken van een verdeling:
- Kijk naar het globale patroon in een diagram of grafiek en naar opvallende afwijkingen.
- Het globale patroon van een verdeling kan beschreven worden d.m.v. de vorm, centrum en spreiding.
- Een belangrijk type afwijking is een uitschieter, een individuele waarde die buiten het globale patroon
valt.
Mediaan= Het centrum van een spreiding (tussen de laagste en hoogste waarde).
Unimodaal= Een verdeling met 1 top.
Symmetrische verdeling= Een verdeling waarbij de waarden die lager of hoger dan het centrum zijn, elkaars
spiegelbeeld zijn.
4