INTRODUCTION TO THE
PRACTICE OF STATISTICS
Moore, McCabe & Craig
Samenvatting
In deze samenvatting zijn de hoofdstukken 1 t/m 7 opgenomen. De paragrafen 2.4, 2.5, 7.3
en de secties ‘Beyond the basics’ ontbreken.
,Introduction tot he practics of statistics – Moore, McCabe, Craig Ninth Edition
CHAPTER 1 – LOOKING AT DATA-DISTRIBUTIONS / KIJKEN NAAR DATA-VERDELINGEN
Statistiek is de wetenschap over het leren van gegevens. Data zijn numerieke of kwalitatieve
beschrijvingen van doelgroepen/zaken die we willen bestuderen.
1.1 Data
Een statistieke analyse begint met een verzameling aan gegevens. Deze komen tot stand door eerst
te beslissen welke casus/doelgroep/zaak (cases) je wil bestuderen. Dit kunnen klanten, bedrijven,
vakken in het onderwijs of delen van een experiment zijn. Voor ieder onderwerp verzamelt men
informatie over bepaalde kenmerken, weergegeven in kolommen. Deze kenmerken worden
variabelen (variables) genoemd. In de verschillende cases kunnen variabelen een andere waarden
(value) hebben. Een label (label) is een speciale variabel die wordt gebruikt om het onderscheid aan
te tonen tussen verschillende cases.
VB: Kortingscoupons van een restaurant
Een website verkoopt coupons die gebruikt kunnen worden om korting te krijgen op verschillende
gerechten in een lokaal restaurant. Figuur 1 geeft informatie over de zeven verschillende coupons die
beschikbaar gesteld waren afgelopen weekend. Dit zijn cases. De gegevens van iedere coupon worden
elk op een nieuwe regel vermeld en de eerste kolom heeft de coupons genummerd van 1 tot 7. De
overige kolommen geven het type van het restaurant, de naam, het afgeprijsde gerecht, de reguliere
prijs en de kortingsprijs weer.
Figuur 1
label variabel 1 variabel 2 variabel 3 variabel 4 variabel 5
categorische waard. |kwantitatieve waard.
Sommige variabelen, zoals de naam of het type restaurant zijn makkelijk te categoriseren. De
kolommen van de reguliere prijs en de kortingsprijs hebben numerieke waarden, waarop we de
rekenkunde kunnen toepassen. Het is logisch om een gemiddelde van de normale prijzen te geven,
maar het is niet logisch om een gemiddeld type restaurant te geven.
Je hebt dus twee soorten variabelen:
Categorische variabelen (categorical variable) plaatst een case in een van de
verschillende categorieën.
Kwantitatieve variabelen (quantitative variable) neemt numerieke waarden aan
waarvoor rekenkundige bewerkingen zoals optellen en middeling zinvol zijn.
,Een passend label voor je onderwerp moet zorgvuldig gekozen worden. In het bovenstaande
voorbeeld is het een logische keus om de naam van het restaurant te kiezen als label. Maar als er
twee of meer kortingsbonnen beschikbaar zijn voor één restaurant, dan is de naam van het
restaurant niet genoeg om iedere coupon te kunnen onderscheiden.
! In sommige softwareprogramma’s voor de statistiek is het niet toegestaan om spaties te gebruiken
bij de namen van de variabelen. Je kunt het oplossen door een _ tussen twee begrippen te plaatsen.
Een ander belangrijk deel van de beschrijving van kwantitatieve variabel is zijn meeteenheid (unit of
measurement). Voor zowel de RegPrice als de DiscPrise, is de meeteenheid overduidelijk de dollar. In
andere cases kan de meeteenheid minder duidelijk zijn. Als we bijvoorbeeld de lengte van kinderen
meten, moeten we kiezen tussen inches of centimeters.
Wanneer je een statistieke studie of dataverzameling op de planning hebt staan is het belangrijk om
jezelf de volgende vragen te stellen:
1. Wie? Over welke doelgroepen gaan de data? Hoeveel casussen bevat de dataset?
2. Wat? Hoeveel variabelen bevat de dataverzameling? Wat zijn de precieze definities van deze
variabelen? Wat is de meeteenheid van iedere kwantitatieve variabel?
3. Waarom? Welk doel hebben de data? Hopen we hiermee specifieke vragen te beantwoorden?
Willen we conclusies trekken over casussen waar we geen data van hebben? Zijn de variabelen die
we hebben verzameld bruikbaar voor het vooropgestelde doel?
! Ben er zeker van dat de variabelen die je kiest echt meten wat je voor ogen hebt. Een beperkte
keuze aan variabelen kan leiden tot misplaatste conclusies. Een voorbeeld hiervan is dat de
maatstaf/rato (rate) waarmee iets gebeurt veel betekenisvoller is dan een simpele telling van
gebeurtenissen.
VB: Scholen vergelijken op basis van afgestudeerden
Als je geïnteresseerd bent in hoe goed de scholen er in slagen om leerlingen succesvol te laten afstuderen,
is het beter om een andere maatstaf te gebruiken. School A heeft 1000 studenten, waarvan er 800 zijn
afgestudeerd in 6 jaar. Dan is het rato afgestudeerden 800:1000=0.80 of 80%.
School B heeft 2000 studenten, waarvan er 1200 zijn afgestudeerd in 6 jaar. Het rato afgestudeerden is
1200:2000=0.60 of 60%. Hoe kun je deze twee scholen nu goed met elkaar vergelijken? College B heeft
meer afgestudeerden, maar college A heeft een beter rato afgestudeerden.
1.2 Displaying Distributions with Graphs
Statistische hulpmiddelen helpen ons om gegevens te onderzoeken en om hun belangrijkste
kenmerken te beschrijven. Dit onderzoek wordt exploratieve data-analyse genoemd (exploratory
data analysis). Er zijn twee basisstrategieën die ons helpen bij het organiseren van onze verkenning
van een reeks gegevens:
Begin bij het onderzoeken van iedere variabel op zich. Pas daarna bekijk je de relatie tussen
de verschillende variabelen.
Begin met een grafiek of zelfs meerdere grafieken. Voeg vervolgens numerieke overzichten
van specifieke aspecten van de gegevens toe.
, Categorische variabelen: staafdiagrammen en cirkeldiagrammen
De waarden van categorische variabelen zijn labels voor de categorieën, zoals ‘ja’ en ‘nee’. De
verdeling van een categorische variabel (distribution of a categorical variable) geeft de categorieën
weer en geeft ofwel het aantal of het percentage van de gevallen die in elke categorie vallen. Een
alternatief voor het percentage is de proportie, de telling (binnen één waarde) gedeeld door de som
van de tellingen. Het percentage is simpelweg de proportie maal 100.
VB: Percentage VS. proportie
Aan 10 ondervraagden wordt de vraag voorgelegd of ze een muziekinstrument kunnen bespelen. Ze
kunnen kiezen uit de antwoorden ‘ja’ en ‘nee’. 7 ondervraagden antwoordden met ‘ja’, 3 ondervraagden
antwoordden met ‘nee’. Het aantal (count) dat ‘ja’ heeft ingevuld is 7. Het percentage van ondervraagden
dat ‘ja’ heeft ingevuld is 70%. De proportie van de ondervraagden dat ‘ja’ heeft ingevuld is 0,7 (7:10 = 0,7).
Figuur 2
! Merk op dat wanneer een van de waarden 'overig' is, dat die waarde alle andere online bronnen
omvat buiten de bronnen die als opties zijn gegeven. Bekijk goed wanneer je kiest voor deze waarde.
Je wil niet dat er belangrijke informatie verloren gaat door de data op deze manier te presenteren.
Figuur 3 Figuur 4
! De categorieën in de staafdiagram kunnen in iedere volgorde genoteerd worden. Let er op dat je
altijd de meest logische volgorde aanhoudt. Dit kan zijn van de hoogste percentage naar de laagste
percentage of op alfabetische volgorde.
! Bij een cirkeldiagram moet je alle categorieën bij elkaar voegen, die samen het totaal. Een
categorie als ‘overige’ kan gebruikt worden, maar de som van de procenten moet 100% zijn. Dit
gegeven maakt een staafgrafiek meer flexibel.