Samenvatting: ‘introduction to the practice of statistics’
Hoofdstuk 1.1:
Een statistische analyse begint met een set van gegevens. Een set gegevens kan
geconstrueerd worden door eerst te beslissen welke gevallen of eenheden we willen
bestuderen. Voor elk geval onderzoeken we informatie over kenmerken die we variabelen
noemen.
Cases: Zijn de objecten beschreven door een set aan data.
- Voorbeelden zijn: klanten, bedrijven, subjecten in een studie, etc.
Label: Is een speciale variabele die in sommige gegevenssets wordt gebruikt om de
verschillende gevallen te onderscheiden.
Variabele: is een kenmerk van een geval/casus.
Verschillende casussen/gevallen kunnen verschillende waarden van de variabelen hebben.
Voorbeeld 1.1:
Een website biedt kortingsbonnen die kunnen worden gebruikt om kortingen te krijgen voor
verschillende items bij verschillende restaurants. Kortingsbonnen voor eten zijn erg populair.
De speadsheet hieronder geeft informatie over 4 restaurants. Dit zijn de cases. Gegevens
voor elke kortingsbon staan op een andere regel en in de eerste kolom zijn de kortingsbonnen
genummerd van 1 tot 4. De overige kolommen geven het type restaurant, de naam, het
afgeprijsde item, de normale prijs en de kortingsprijs.
A B C D E F
ID Type Naam Item Prijs Kortingsprijs
1 Italiaans Domino’s Pizza 20 10
2 BBQ Smokey Barbecue 30 17
3 Mexicaans Amigos Tacos 16 8
4 Vis Sea Shrimp 20 11
Cases: ??
Variabelen: zijn dus het type restaurant, de naam, etc.
Categorische variabelen: plaatst een case in een aantal groepen of categorieën.
Kwantitatieve variabelen: heeft een numerieke waarden. Optellen en gemiddelde
berekenen kunnen zinvol zijn.
Voorbeeld 1.2:
Het kortingsbonnentabel (zie hierboven) heeft 6 variabelen; kortingsnummers, type
restaurant, naam van het restaurant, artikel, normale prijs en de kortingsprijs.
- De twee prijsvariabelen (ofwel E en F) zijn kwantitatieve variabelen.
- De andere 4 (ofwel A, B, C en D) zijn categorische variabelen.
,Een geschikt label voor casussen/gevallen moeten zorgvuldig worden gekozen.
- In het voorbeeld van de kortingsbonnen zou een natuurlijke keuze van een label een
naam van het restaurant zijn. Alleen als twee of meer kortingsbonnen beschikbaar
zijn voor een bepaald restaurant, of als een restaurant een keten is met verschillende
kortingen die op verschillende locaties worden aangeboden, dan zou de naam van
het restaurant niet elk van de kortingsbonnen uniek labelen. In het kortingsbonnen
voorbeeld is de eerste variabele, ID, een uniek label voor elke korting bon.
Spreadsheets: (zoals bij voorbeeld 1.1) zijn erg handig voor het uitvoeren van het soort
eenvoudige berekeningen. U kunt een formule typen en dezelfde berekeningen voor elke rij
uitvoeren.
Statistische software → In plaats van een spatie een _ gebruiken. Dus bijvoorbeeld:
Kortings_Prijs.
Een ander belangrijk onderdeel van de beschrijving van een kwantitatieve variabele is de
meeteenheid. Dit vorm een belangrijk onderdeel van de beschrijving van kwanitatieve
variable.
- Unit of measurement: meeteenheid.
- Voorbeelden van meeteenheden: euro’s, dollars, centimeters, etc.
Bij een statistisch onderzoek zijn de volgende belangrijk om te stellen:
1. Wie? Welke cases beschrijven de data? Hoeveel cases bevat de data set?
2. Wat? Hoeveel variabelen bevat de casus? Wat zijn de exacte definities van de
variabelen? Wat zijn de meeteenheden voor elke kwantitatieve variabele?
3. Waarom? Welk doel heeft de casus? Willen we specifieke vragen beantwoorden?
Willen we conclusies trekken over andere casussen dan waar we data voor hebben?
Zijn de opgenomen variabelen gepast voor het doel?
Voorbeeld 1.3:
Stel dat u een onderwijsassistent bent voor een statistiekklas en dat het uw taak is om de
cijfers voor studenten in twee delen van de cursus bij te houden.
→ De cases zijn de studenten in de klas.
Voorbeeld 1.4:
Wie, wat, waarom bij verhaal uit voorbeeld 1.3 (bladzijde 4).
De cases ofwel wie, zijn de studenten in de klas. Er zijn zeven variabelen naar voren gekomen
in de gegevens (wat). Deze omvatten een label voor elke student en scores voor de
verschillende cursusvereisten. Er zijn geen eenheden voor het label en cijfer. De andere
variabelen hebben allemaal punten als eenheid.
Rate: snelheid?
Samenvatting 1.1:
Een set aan gegevens bevat informatie over een aantal gevallen (CASES). Gevallen kunnen
klanten, bedrijven, proefpersonen, eenheden of andere objecten zijn.
,Voor elke case/geval geven de gegevens waarden voor een of meer variabelen. Een
variabelen beschrijft een kenmerk van een geval, zoals lengte, het geslacht of het salaris.
Variabelen kunnen verschillende waarden hebben voor verschillende gevallen/cases.
Een label is een speciaal verifieerbaar dat wordt gebruikt om gevallen in een set gegevens te
identificeren.
Sommige variabelen zijn categorisch en anderen zijn kwanitatief. Een categorische variable
plaatst elk individu in een categorie, zoals mannelijk of vrouwelijk. Een kwantitatieve
variabele heeft numerieke waarden die een bepaald kenmerk van elk geval meten, zoals
lengte in centimeters of jaarsalaris in euro’s.
De belangrijkste kenmerken van een set gegevens beantwoorden de vragen: Wie?, Wat? en
waarom?
Hoofdstuk 1.2:
Exploratory data analysis (Verkennende gegevensanalyse): statistische hulpmiddelen en
ideeën helpen ons gegevens te onderzoeken om hun belangrijkste kenmerken te
beschrijven.
Twee basisstrategieën die helpen bij verkenning van gegevens te organiseren:
1. Begin bij het onderzoeken van de variabele zelf. Daarna verder gaan door de relaties
onder de variabelen te onderzoeken.
2. Begin bij een diagram. Dan het optellen van numerieke samenvattingen van specifieke
aspecten van data.
Categorische variabelen:
De waarden van een categorische variabelenzijn labels voor de categorieën, zoals ‘ja’ en
‘nee’.
- De verdeling van een categorische variabele geeft een lijst van de categorieën en geeft het
aantal cases/gevallen dat in elke categorie valt.
Voorbeeld 1.7:
Resource Count (n) (aantallen)
Google 406
Wikipedia 52
Other 19
Totaal: 477
- Resource → is in dit voorbeeld de categorische variabele.
- Google, wikipedia, other → zijn de waarden van de online resource.
2 typen diagrammen: ‘Categorische variabelen’
1. Staafdiagram:
Categorieën in een staafdiagram kunnen in elke volgorde worden geplaatst.
2. Cirkeldiagram:
, Een cirkeldiagram helpt ons zien welk deel van de diagram elke groep representeert.
- Om een cirkeldiagram te maken, moet je alle categorieën includeren die uiteindelijk het
geheel maken.
Stemplots (Stam en blad diagram): ‘Kwantitatieve variabelen’:
Geeft een snel overzicht van de vorm van de distributie en includeert de feitelijke numerieke
waarden in het diagram.
Stam en blad diagram maken:
1. Scheid elke observatie naar een stam en een blad. Een stam kan zoveel cijfers hebben als
nodig, maar elk blad bevat slechts 1 cijfer.
2. Schrijf de stammen op in een verticale kolom met de kleinste aan top en teken een
verticale lijn aan de rechterkant van de kolom.
3. Schrijf in elk blad aan de rechterkant van de stam, in oplopende volgorde.
→ Voorbeeld:
Voorbeeld 1.11:
50 43 43 44 50 44 35 49 54 76 31 48
61 70 62 47 42 45 43 59 53 53 73
Een studie onderzoek het effect van de absorptie van calcium bij adolescente jongens en
meisjes. Calciumabsorptie wordt uitgedrukt als een procent van calcium in het dieet.
Hierboven staan de gegevens voor een toestand bij proefpersonen die 12 gram per dag
consumeerden.
- Om hier een stamplot van te maken, moeten de eerste cijfers als stelen en de tweede cijfers
als bladeren gebruikt worden.
50 43 43 44 50 44 35 49 54 76 31 48
61 70 62 47 42 45 43 59 53 53 73
Stam: (ofwel de eerste cijfers van alle gegevens in juiste volgorde opschrijven). Het eerste
cijfer van elke waarden wordt gebruikt als stam.
3
4
5
6
7
De eerste invoer in onze gegevens set is 50. Dit verschijnt op de 5-stelngel met een blad van
0:
3