HOOFDSTUK 1
WAAROM STATISTIEK
- Onderzoekers
- Banken
o Aan wie lening
- Verzekeringsmaatschappijen
o Aan wie verzekering & welke premie
- Industrie
o Defecte van producten
- Overheid
o Werking beleidsmaatregelen
- Six Sigma Total Quality Management verbeterprogramma
o Concrete problemen mt grote financiële impact op te lossen & manier
fouten + defecten te herleiden 3.4 / miljoen operaties
o Oplossing praktische problemen
o Doordacht & wetenschappelijk
o Gegevens verzamelen, onderzoeken, inzichten & verbeteringen
WAT
=> Statistiek verwijst altijd naar numerieke informatie
- Bevolkingsstatistieken
o Geboorte- & sterftecijfers, immigraties en emigraties
- Economische statistieken
o Tewerkstellings-& werkloosheidscijfers, investeringen, prijzen, BNP)
- Bedrijfsstatistieken
o Verkoopcijfers, resultatenrekening, groei, aanwervingen, afdankingen
FLORENCE NIGHTINGALE
- Verpleegster tijdens Krimoorlog (1853-1856)
- Overlijdens: gebrek aan hygiëne
- Grafische voorstelling, de coxcomb (=taartdiagram)
DEFINITIE
- Geheel van methodologieën voor het verzamelen, voorstellen, analyseren en
interpreteren van data of gegevens
o Belangrijke hulpwetenschap
o Geneeskunde, economie, chemie…
- Gegevens zijn tegenwoordig massaal aanwezig dankzij de informatisering
o Verwerken tot bruikbare informatie (zie voorbeelden)
Voorbeelden
• Luchtvaartmaatschappijen: no-shows, aantal passagiers die maaltijd nemen,
bagagegewicht
o Overboekingen
• Grootwarenhuizen: gekochte producten, gespendeerde bedragen,
betalingswijzen
o Op maat gemaakte reclamefolders
• Financiële analisten: rendementen individuele aandelen, marktrendement
o Risicobeheer aandelenportefeuilles
• Kwaliteitsmanagers: inspecteren vochtgehalte van geproduceerde koffie
,STUDIE-OBJECT VD STATISTIEK (ONDERWERP)
• Populaties v objecten
o Belgische bevolking, klanten ve grootwarenhuis, verzekeringsnemers
• Processen die objecten genereren
o Industriële & chemische productieprocessen
• Gegevens: geregistreerde eigenschappen of karakteristieken → variabelen
o Waarde vd eigenschap varieert v element tot element
• Steekproef: slechts een deel vd objecten wordt bestudeerd
o GIGO (garbage in, garbage out => geen goede info halen uit lage
kwaliteit v geg
TAKKEN VD STATISTIEK (2 STAPPEN)
Beschrijvende / descriptieve statistiek
- Beschrijven v steekproefgegevens overzichtelijk voorstellen
- Berekenen ve aantal kenmerkende waarden (gemiddelde, variantie)
Verklarende / inferentiële statistiek
- Analyseren & interpreteren v steekproefgegevens
- Antwoorden vinden op vragen of hypothesen
- Nagaan wat de waarde is ve model
- Veralgemening hele populatie => inferentie
Probleem vd verklarende statistiek
=> Veralgemening
- Obv steekproef -> nooit met zekerheid uitspraken over populatie/ proces
- Wel betrouwbaarheid geven v uitspraken
- Betrouwbaarheid -> uitgedrukt m.b.v. kans → kansrekening
- De onbetrouwbaarheid ve uitspraak -> uitgedrukt m.b.v. een foutenmarge
KANS OP WAARSCHIJNLIJKHEID
- Kansrekening: bestudeert processen/experimenten mt onzekere uitkomst
o Vertrekt v aantal veronderstellingen/assumpties
(bv eerlijke dobbelsteen)
- Voorbeelden
o Gooien ve dobbelsteen
o Prijs ve aandeel over 1 jaar
o % defecte producten op productielijn gedurende een shift
- Rechtstreeks bestuderen v populatie/proces (ipv statistiek via steekproefgeg)
Nut van kansrekenen
- Monopoly: waar hotel?
- Meerkeuzevragen mt giscorrectie
KORTOM: ZWAKTES
- Statistiek: beperkte hvlheid steekproef informatie
o Foute uitspraken over populatie
o Voorkomen: kwalitatieve data
- Kansberekening
o Foute veronderstellingen v bestudeerde proces/populatie
Ongeldige conclusies
Gebruik v software: tabellen & voorstellingen => JMP
, HOOFDSTUK 2
Data & gegevens
=> bevatten info over 1 of meerdere variabelen v aantal elementen v populatie /
objecten v proces
MEETSCHALEN
=> Ingedeeld nr meetniveau, afhk v schaal
=> Gegevens verzameld over meerdere eigenschappen of variabelen
Voorbeeld: kleur v wijn
Kwalitatieve of categorische variabelen
• Nominale & ordinale meetschaal
Kwantitatieve variabelen
• Intervalschaal
• Ratio meetschaal
Kwalitatieve variabelen
Nominale variabele
=> Elementen v steekproef/populatie worden in klasse of categorie geplaatst
VOORBEELDEN: geslacht, nationaliteit, godsdienst, gemeente
Cijfercodes: impliceren geen volgorde
=> Toekennen v labels, codenr of letters
VOORBEELDEN: man = 0, vrouw = 1 / postnummers v gemeenten
Ordinale variabelen
=> Nominale variabelen waarbij er een ordening is tss de klassen of categorieën
VOORBEELDEN: aantal Michelinsterren ve restaurant, antwoord op enquêtes
(“1: helemaal eens”, “2: eerder eens”…)
=> Rekenkundige bewerking zinloos (behalve absolute & relatieve frequenties %)
• Geen vaste meeteenheid
=> verschil tss niveaus op meetschaal niet uitdrukken in eenheden
o Verschil tss: 3 & 1 ster ≠ 2 & 1 ster
Kwantitatieve variabelen
=> Uitgedrukt in aantal vaste meeteenheden
=> Bijna alle rekenkundige bewerkingen zinvol
VOORBEELDEN: lengte, gewicht, aantal verkochte auto’s, temperatuur, tijd…
Verschil tss waarde v variabelen kan uitgedrukt worden in eenheden
Intervalschaal
- Geen natuurlijk nulpunt (geen nat ondergrens)
- Verhoudingen niet zinvol
o Verschil tss 2u & 4 u = 21u & 23u, maar 4u ≠ 2keer zo laat als 2u
Ratioschaal
- Absoluut nulpunt
o Bv Kelvin: ondergrens = 0 (koudste)
- Verhoudingen zinvol
o Lente 6cm is dubbel zoveel als 3cm
, Discrete vs continue variabelen
- DISCREET: eindig of oneindig aftelbaar aantal verschillende waarden
o Aantal passagiers op lijnvlucht, kinderen gezin
o Uitdrukken gehele getallen
- CONTINUE: continuüm v waarden aannemen
o Lente, duurtijd, gewicht, body mass index
o Uitdrukken reële getallen
Praktijk: alle waarnemingen v continue variabelen zijn discreet (afronding)
Hiërarchie
=> Hoogste/ meeste informatieve meetschaal ---> nr minste
Ratioschaal, intervalschaal, ordinale & nominale meetschalen
• Geg gemeten op bepaalde schaal -> omgevormd worden nr geg lagere
meetschaal => niet omgekeerd!
• Statistische methoden vr lagere meetschalen ku gebruiken vr hogere
meetschalen => niet omgekeerd!
Meetschalen in JMP
Onderscheid tss nominale, ordinale & kwantitatieve
DATAMATRIX / GEGEVENSMATRIX
Rijen = elementen/ waarnemingen => observatievector
Kolommen: verschillende gemeten variabelen
Univariatie: 1 variabelen
Bivariatie: 2 variabelen
Multivariate: meerdere variabelen
VOORSTELLEN V UNIVARIATE KWALITATIEVE VARIABELEN
Absolute frequentie v klasse
= aantal elementen v steekproef die tot die klasse behoren = frequenties
Relatieve frequentie v klasse
= verhouding v klasse frequentie tot totale aantal waarnemingen in steekproef
Relatieve frequenties & staafdiagram
Frequenties (N) & relatieve frequenties (%)
- Frequentietabel
Staafdiagram
- Absolute (elk blokje is 1 & som vd blokjes = 100%)
- Relatieve frequentie
Staaf & Pareto-diagram
Pareto-diagram => dalende frequenties &cumulatief
- Aandacht op klasse mt hoogste frequenties
Cirkel-, sector- of taartdiagram