volledige samenvatting van het boek m.u.v. JMP (komt niet op het examen) en bewijzen; hiervoor werd plaats gelaten om deze te noteren met verwijzing van de paginanr in het boek
Beschrijvende statistiek
Hoofdstuk 1: Wat is statistiek?
Waarom statistiek?
• Gegevens analyseren → concrete beslissingen
• Voorsprong bij het verzamelen van gegevens
• Six Sigma verbeterprogramma: concrete problemen oplossen die een grote financiële impact
hebben → aantal fouten en defecten maar weinig
o Meer doordachte, wetenschappelijke aanpak van problemen
o Werkwijze:
→ meetfase: verzamelen van gegevens
→ onderzoeken van gegevens door statistische methoden
→ mogelijks interessante inzichten/aanbevelingen
• Datasets met veel gegevens kan niet grondig bestudeerd worden zonder statistische achtergrond
Definitie van statistiek
• Statistiek = numerieke informatie
• Formeel: statistiek = het geheel van methodologieën voor het verzamelen, voorstellen ,analyseren
en interpreteren van data of gegevens
• Statistiek is een hulpwetenschap
• Doel statistiek: gegevens/data verwerken tot bruikbare informatie
Voorbeelden p16
• Luchtvaartmaatschappij
• Vochtigheidsgraad
• Grootwarenhuizen
• Risicograad van beleggen in een bepaald aandeel
Onderwerp van de statistiek
• Populatie = betreffende objecten = doelgroep
• Eigenschappen = variabelen = karakteristieken
→ waarde varieert per element
• Steekproef = deel van de populatie waarvan effectief gegevens worden verzameld
→ verzamelen van gegeven moet kwalitatief gebeuren → GIGO ‘garbage in, garbage out’ = slechte
gegeven zorgen voor niet betrouwbare resultaten
• Verzamelde gegevens kunnen overzichtelijk voorgesteld worden door tabellen en grafieken of door
het berekenen van kenmerkende waarden (=statistieken) bv: gemiddelde
• Beschrijvende = descriptieve statistiek = het voorstellen van steekproefgegevens
o Stap 1: beschrijven van de steekproefgegevens
o Stap 2: analyseren en interpreteren van de steekproefgegevens
1
Shanti Langers
,• Inferentie = het veralgemenen van de conclusies die gemaakt worden o.b.v. de gegevens uit de
steekproef voor de gehele populatie → inferentiële statistiek = wiskundige stat = verklarende stat =
steekproeftheorie
• Veralgemening = zwakte → nooit met zekerheid uitspraken over de gehele populatie
→ graad van betrouwbaarheid uit te drukken door een kans
• Kans op fouten wordt kleiner naarmate er meer kwaliteitsvolle gegeven worden verzameld
Kansrekening
• Kansrekenen = het bestuderen van processen/experimenten met een onzekere uitkomst
→ bestudeerd populaties/processen rechtstreeks
→ statistiek bestudeerd ‘’ via steekproefgegevens
• Voorbeelden: gooien van een dobbelsteen, industrieel vulproces, bestuderen van het belgisch
kiesgedrag
• Zwakke plek kansrekenen: veronderstellingen kunnen fout zijn → ongeldige conclusies
Software
• Maken van overzichtstabellen/grafische weergave van alle gegevens van een steekproef belangrijk
om structuur in berekeningen te hebben
• Statistische softwarepakket: JMP
Hoofdstuk 2: Data en hun voorstelling
Soorten gegevens en meetschalen
• Verschillende soorten meetschalen voor variabelen
o Kwalitatief/kwantitatief
o Nominaal/ordinaal/interval/ratio
Kwalitatieve variabelen (categorische)
• Nominale variabelen: de waarden van de variabele plaatst het element in een bepaalde
klasse/categorie
o Vb: geslacht, postcode, nationaliteit, …
o Zijn cijfercodes → kan je NIET mee rekenen!
o Relatieve/absolute frequenties kunnen WEL bepaald worden
• Ordinale variabelen: een nominale variabele die op een logische manier geordend kan worden
o Vb: Michelinsterren, opties enquête, …
o Zijn cijfer codes → kan je NIET mee rekenen!
o Relatieve/absolute frequenties kunnen WEL bepaald worden
o De waarden kunnen geordend worden
Kwantitatieve variabelen
• Intervalschaal: waarden worden uitgedrukt in een vaste meeteenheden maar er is geen natuurlijk
nulpunt (geen ondergrens)
o Vb: tijdstippen, temperatuur in °C, …
o Verhoudingen zijn niet zinvol (bv: 20°C is niet dubbel zo warm als 10°C)
o Verschillen tussen waarden zijn WEL betekenisvol
2
Shanti Langers
,• Ratioschaal: waarden worden uitgedrukt in een vaste meeteenheden en er is een natuurlijk nulpunt
o Vb: lengte, gewicht, tijdsduur, …
o Verhoudingen zijn WEL zinvol (bv: 20 meter is dubbel zo ver als 10 meter)
o Let op: temperatuur in Kelvin heeft wel een absolute ondergrens → ratioschaal
• Discrete variabelen
o Aantallen; geen tussenwaarden
o Bv: aantal studenten, aantal bomen, …
• Continue variabelen
o Oneindig veel tussenwaarden; oneindig nauwkeurig
o Bv: lengte, gewicht, …
Hiërarchie van meetschalen
• Gegevens van een hogere meetschaal kunnen omgevormd worden naar een lagere meetschaal
maar niet andersom
Ratio
De datamatrix Interval
Ordinaal
• Gegevens worden vaak in een
Nominaal
matrix voorgesteld
• Rijen stellen elementen/waarnemingen voor = observatievector
• Kolommen stellen verschillende gemeten variabelen voor
• Univariante voorstelling: 1 variabele
• Bivariante voorstelling: 2 variabelen
• Multivariante voorstellingen: meerdere variabelen
Voorstellen van univariante kwalitatieve variabelen (frequenties)
• Staafdiagram
o Ordinale variabelen
o Variabelen groeperen en klassen en ordenen
• Paretodiagram
o Ordinale variabelen
o Variabelen groeperen en klassen en ordenen van meest naar minst frequent
o Aandacht vestigen op klassen met hoogte frequenties
o Lijnstuk illustreert de cumulatieve frequenties (schaal op rechter Y-as)
• Taartdiagram, cirkeldiagram, sectordiagram
o Voordeel: verhoudingen zijn duidelijk weergegeven
o Nadeel: onoverzichtelijk bij veel verschillende groepen
Voorstellen van univariante kwantitatieve variabelen
• Stam- en bladdiagram
o Voordeel: geeft beeld van frequenties EN bewaart individuele waarnemingen
o Stam geeft het cijfer voor de komma weer
o Blad geeft telkens 1e cijfer na de komma weer
o Count geeft de frequentie van de waarneming weer
3
Shanti Langers
, • Naalddiagram
o Discrete univariante kwantitatieve variabelen
o Weergeven relatieve/absolute frequentie per waarde
o Vergelijkbaar met staafdiagram
o Nadeel: bij veel mogelijke waarden niet overzichtelijk
• Histogram
o Continue univariante kwantitatieve variabelen
o Interval wordt onderverdeeld in verschillende klassen
o Nadeel: aantal klassen beïnvloed het uitzicht van de histogram
→ te veel klassen: te veel detail, moeilijk conclusie maken
→ te weinig klassen: te weinig informatie, geen accurate conclusie mogelijk
o Standaardregel: √#𝐰𝐚𝐚𝐫𝐧𝐞𝐦𝐢𝐧𝐠𝐞𝐧 = het aantal klassen
o Rechthoeken worden tegen elkaar geplaatst (verschil van naalddiagram en staafdiagram)
→ benadrukken continu karakter van de variabele
• Frequentiepolygoon
o De middens van de toppen van de kolommen van de histogram worden met elkaar
verbonden en het oppervlak onder dit lijnstuk wordt ingevuld
• Empirische cumulatieve verdelingsfunctie
o Discrete en continue kwantitatieve variabelen
o Voordeel: in een enkele oogopslag kan men de kwartielen en de mediaan bepalen
o Vaak gebruikt om na te gaan of de populatie van de steekproefgegevens normaal verdeeld is
Voorstellen van bivariaten variabelen
Kwalitatieve variabelen
• Kruistabel
o Nominale en ordinale gegevens EN kwantitatieve gegevens in klassen
o = soort meervoudig staafdiagram
• Mozaïek plot
o Grafisch alternatief voor kruistabel
• Meervoudig staafdiagram
o Grafisch alternatief voor kruistabel
Kwantitatieve variabelen
• Puntenwolk
o Een puntenconfiguratie die voortkomt door elke waarneming van een steekproef voor te
stellen als een punt
o Geeft beeld van verband tussen de 2 variabelen
o Bubble plot = voor weergave van 3 kwantitatieve variabelen; de grootte van de punten
verschillen
o Gestratificeerde puntenwolk = voor weergave van 2 kwantitatieve en 1 kwalitatieve
variabelen
4
Shanti Langers
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper shantilangers. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €8,99. Je zit daarna nergens aan vast.