Hoofdstuk 1 Laura van den End
HOOFDSTUK 1: DOEL VAN DE STATISTIEK
Statische analyse
- Voorbeeld: Het aantal gevallen van gehoorschade bij jongeren is in de laatste twintig jaar enorm toegenomen. Dat
komt vooral doordat ze langer en meer blootgesteld worden aan luide muziek. Bijna 4.000 Vlaamse jongeren tussen 14
en 18 jaar oud werden ondervraagd. Drie kwart van de jongeren ervaart na een avondje uit tijdelijke symptomen van
oorsuizen. Een op vijf van de jongeren heeft permanent last van oorsuizen of tinnitus. Jongens hebben met 20 procent
meer last dan meisjes, waar 17 procent aangeeft aan blijvende tinnitus te lijden. Jongeren zouden zich niet goed bewust
zijn van de gevaren van te luide muziek. Maar liefst 95 procent is niet bekommerd om permanent oorsuizen. Slechts vijf
procent van de Vlaamse jongeren draagt gehoorbescherming bij het uitgaan. De onderzoekers luiden de alarmbel. Ze
pleiten voor nieuwe en aangepaste preventiecampagnes, want de huidige acties leggen te veel de nadruk op
gehoorschade in het algemeen. Het zou beter zijn om de aandacht te vestigen op symptomen zoals tijdelijk en
permanent oorsuizen, heet het.
Stap 1: Verzamelen van gegevens
- wie of wat wil je onderzoeken?
- Verzameling van alle onderzoekseenheden: populatie
- Vlaamse jongeren tussen 14 en 18 jaar
- Hoeveel onderzoekseenheden onderzoek je?
- Willekeurig geselecteerde deelverzameling van n onderzoekseenheden die onderzocht
worden: steekproef
- Steekproefgrootte n
- Hoe groter n hoe meer informatie
- Beperkingen: tijd, geld, personeel, beschikbaarheid....
- N = 4000 Vlaamse jongeren
- Welke kenmerken onderzoek je?
- Toevalsvariabele X met uitkomstenverzameling S
- Variabele: X kan veschillende uitkomstem hebben
- Toevals" de uitkomst van X ligt niet vast en hangt af van het toeval
- Toevalsvariabele noteren we altijd met HOOFDLETTERS
- X1 = leeftijd in jaren, S= {14,15,16,17}
- X2 = geslacht, S= {MAN, VROUW}
- X3 = graad oorsuizen na een avondje uit, S= {GEEN, TIJDELIJK, PERMANENT}
- X4 = Bekommerd zijn om permanent oorsuizen, S= {JA, NEE}
- X5 = gehoorbescherming dragen bij het uitgaan, S= {JA, NEE}
- X6 = aantal minuten per week blootgesteld aan luide muziek, S= {0,1,2,...}
- Notatie:
- De resultaten die we bekomen uit een steekproef met grootte n noteren we als:
- Bij 1 toevalsvariabele X: x1, x2, x3, ... , xn
- Bij 2 toevalsvariabelen X en Y: (x1,y1), (x2,y2),....., (xn,yn)
- Gegevensmatrix
- Rijen: onderzoekseenheden
- Kolommen: (toevals)variabelen
- Classi catie van variabelen
Geslacht, bekommerd zijn om oorsuizen, gehoorbescherming dragen bij het
uitgaan
Last van oorsuizen
Leeftijd van jongeren in jaren
Statisitek en data-analyse 1
Tijd per week blootgesteld aan luide muziek
fi
,Hoofdstuk 1 Laura van den End
Stap 2: Beschrijvende statistiek
- Bedoeling van statistiek: antwoorden op onderzoeksvragen formuleren gebaseerd op de
bevindingen in de steekproef die niet enkel waar zijn voor de steekproef, maar die gelden voor
de HELE populatie
- Eerst: exploratieve analyse van de steekproefgegevens, daarna naar hele populatie zetten
- Beschrijvende statistiek
- Numeriek en gra sch gegevens samenvatten (H2)
- Wat is de gemiddelde leeftijd van de jongeren in de steekproef?
- Kansrekenen en univariate kansmodellen
- Hoe groot is de kans dat een jongere meer dan 2 uur per week aan luide muziek wordt bloodgesteld?
- Multivariate kansmodellen
- Hoe groot is de kans dat een jongere bekommerd is om gehoorschade, maar toch geen bescherming draagt?
- Centrale limietstelling
- Hoe groot is de kans dat een groep van 5 jongeren gemiddeld minder dan 2 uur pwe week aan luide muziek
wordt blootgesteld?
Stap 3: Interferentie
Experiment: muntstuk van 1 euro opwerpen, we zijn geïnteresseerd in het percentage worpen waarbij kruis gegooid
wordt
- Wet van de grote aantallen
- De kans dat kruis gegooid wordt is gelijk aan 50% = 0,5 populatiepercentage
- Dit populatiepercentage kan benaderd worden door middel van een steekproefpercentage
- We gooien een groot aantal keer met de munt, waarbij telkens genoteerrd wordt of er kruis K of munt M
gegooid wordt
- Na 10 worpen: percentage kruis is 3/10 = 0.3
- Na 30 worpen: percentage kruis is 13/30 = 0.43
- Na lange reeks steeds dichter naar 0.5
- Opstellen van een betrouwbaarheidsinterval
- Interval berekenen dat met grote betrouwbaarheid dit percentage bevat
- Hoeveel procent van de jongeren heeft tijdelijk last van oorsuizen
- Hypothesetest voor 1 kenmerk (1 groep)
- Klopt het dat maar 5% van de jongeren gehoorbescherming draagt?
- Vergelijken van 2 groepen
- Twee gemiddelden vergelijken
- Zijn jongerns langer blootgesteld aan luide muziek dan meisjes?
- Twee proporties verglijken
- Dragen 18 jarigen vaker gehoorbescherming dan 14 jarigen
- Twee verdelingen bekijken
- Verschilt de verdeling van de duurtijd blootgesteld aan luide muizek voor wie wel en woe geen
gehoorbescherming draagt?
- Correlatietest en lineaire regressie
- Is er een (lineair veband tussen de leeftijd van de jongeren en het gehoorverlies (correlatie)
- Zorgt een aangepaste preventiecampange voor een grotere bewustwording bij jongeren (regressie)
- Chi-kwadraattest
- Dragen jongeren die meer bekommerd zijn om oorsuizen vaker gehoorbescherming dan jongeren die minder
of helemaal niet bekommerd zijn?
Statisitek en data-analyse 2
fi
, Hoofdstuk 2 Laura van den End
HOOFDSTUK 2 BESCHRIJVENDE STATISTIEK
Doel van de beschrijvende statistiek: De gegevens uit de steekproef op een duidelijke en
verantwoorde manier voorstellen en samenvatten
- Voor elke variabele de frequentie in tabellen weergeven
- Duiden aan hoe vaak de verschillende uitkomsten voorkomen
- Gra sche methoden
- Samenvattende numerieke getallen
- Verbanden tussen meerdere variabelen voorstellen d.m.v puntenwolken en kruistabellen
Frequentietabellen
Kwalitatieve variabelen
- Uitkomstenverzameling: S = {m1,....,mk}
- Absolutie frequentie: nj van uitkomst mj is gelijk aan het aantal uitkomsten xi in de steekproef
die gelijk zijn aan mj
- Relatieve frequentie: fj = nj ÷ n
Voor de variabele Regio zijn er 5 mogelijke uitkomsten: m1 = C, m2 = N, m3 = NO, m4 = ZO, m5 = W. Voor deze dataset
liggen 24 steden in het noordoosten van de USA, zodat de frequentie n3 = 24 en de relatieve frequentie is 24 ÷ 60
De frequentietabel kan gra sch worden weergegeven met behulp van een staafdiagram: horizontaal = mogelijke
uitkomsten mj; verticaal = nj of fj
De relatieve frequenties bepalen het taartdiagram
Statistiek & Data-analyse 3
fi fi
, Hoofdstuk 2 Laura van den End
Kwantitatieve variabelen
- Uitkomstenverzameling EINDIG => frequentietabel, staafdiagram, taartdiagram
- Uitkomstenverzameling ONEINDIG => zinloos om met frequentie te werken
- Discretisatie of groepering van gegevens: deel S op in een aantal aangrenzende deelintervallen
of klassen. Soms zijn de klassen van gelijke breedte ∆, de klassenbreedte
Een mogelijkheid om de variabele mortaliteit te discretiseren is door gebruik te maken van klassen ]780, 840]; ]840,
900]; ]900, 960], ]960, 1020]; ]1020, 1080] en ]1080, 1140]. De klassenbreedte ∆ = 60
Dit kan gra sch worden weergegeven in een klassiek histogram: de continu tegenhanger van een staafdiagram. Boven
een klassenmidden mj wordt een balk geplaatst met basis ∆ en hoogte fj
Figuur b geeft geen goede indruk, men heeft namelijk de
neiging om het aantal steden met een groot
bevolkingsaantal te overschatten.
Statistiek & Data-analyse 4
fi