Samenvatting beschrijvende statistiek
College 1 Statistiek.
Boek hoofdstuk 1
Data: info die je verzameld door experimenten en enquêtes
Statistics: het analyseren van de vergaarde informatie. Het vertalen naar kennis en het begrijpen van
de wereld. Het leren van data.
Statistische problemen oplossen gaat in 4 stappen:
1. Formuleer een statische vraag
2. Verzamel data
3. Analyseer data
4. Interpreteer resultaten
3 belangrijkste componenten voor het beantwoorden van een statistische vraag
1. Design: het doel en statistische vraag en hoe je de data wil gaan verzamelen, methode.
2. Description: samenvatten en analyseren van de ontvangen data, data verzamelen
3. Inference: besluiten nemen gebaseerd op de data om de vraag te beantwoorden. Besluit wat
belangrijk is.
Probability: wat een raamwerk is om te kwantificeren hoe waarschijnlijk verschillende mogelijke
uitkomsten zijn.
1.2 Sample versus population
Subjects: de entiteiten die gemeten worden.
- zijn vaak mensen
- scholen: studenten, gemiddelde klasgrootte.
- landen: mensen die in armoede leven, geboortecijfer.
- Dagen
Populatie: alle onderwerpen van interesse. (zie voorbeeld blz. 34)
Sample: steekproef
Inferential statistics: verwijst naar methoden voor het nemen van beslissingen of voorspellingen
over een populatie op basis van gegevens die zijn verkregen uit een steekproef van die populatie.
Parameter: numerieke samenvatting van de populatie.
Statistiek: numerieke samenvatting van een steekproef genomen van de populatie.
Random sampling: random steekproef, maakt het representatief voor de gehele populatie.
Foutmarge: is een maat voor de verwachte variabiliteit van de ene aselecte steekproef naar de
volgende aselecte steekproef.
- Stel dit is 3% en het totaal was 60% is de foutmarge tussen de 57 en 63%
N: aantal personen in de steekproef. Zie het voorbeeld op blz. 39 bereken je door 1/wortel van N
x100%.
Statistifically significant: het verschil tussen de 2 behandelgroepen is zo groot.
Data file: analyse van alle gegevens.
,Hoofdstuk 2
Variabele: zijn die kenmerken die worden geobserveerd in een studie.
- Categorisch: als elke waarneming tot een van een reeks verschillende categorieën behoort.
Religie, gender.
- Kwantitatief: als waarnemingen erop numerieke waarden aannemen die verschillende
groottes van de variabele vertegenwoordigen. Leeftijd, inkomsten, broers zussen. (hoeveel
van iets).
Voor kwantitatieve variabele, belangrijk is het beschrijven van de kern en de variabele van de data.
Voor categorisch gaat het om het aantal observaties. Percentage van aantal dagen zon in een jaar.
Kwantitatieve variabele
- Discreet: als de mogelijke waarde een reeks afzonderlijke getallen vormen.
o Aantal huisdieren. Aantal kinderen. 0,1,2,3,4.
- Continuous: als de variabele een interval vormen.
o Hoogte, gewicht, leeftijd.
De verdeling van een variabele beschrijft hoe de waarnemingen over het bereik van mogelijke
waarden vallen.
Modal category: categorie met de grootse frequentie.
Kenmerken om naar te zoeken in de verdeling van een kwantitatieve variabele zijn de vorm, het
midden en de variantie.
Een frequentietabel: is een lijst met mogelijke waarden voor een variabele, samen met het aantal
waarnemingen voor elke waarde
Het aandeel waarnemingen dat in een bepaalde categorie valt, is het aantal waarnemingen in die
categorie gedeeld door het totale aantal waarnemingen.
2.2 graphical summaries of data
De twee belangrijkste grafische weergaven voor het samenvatten van een categorische variabele zijn
het cirkeldiagram en het staafdiagram.
Een staafdiagram geordend bij de frequentie is een pareto grafiek.
- De grafiek helpt om het pareto-principe weer te geven, dat stelt dat een kleine subset van
categorieën vaak de meeste waarnemingen bevat.
Dit is allemaal voor het samenvatten van de categorieën.
Graphs for kwantitatieve variabele.
Een dot plot toont een punt voor elke waarneming die net boven de waarde op de getallenlijn voor
die waarneming is geplaatst. (lijn, met van alle waardes een stip, blz 61).
Stem and leaf plot: elke observatie wordt gepresenteerd met een stem en een leaf. Zie blz. 63.
Om een stengel-en-bladplot compacter te maken, kunnen we deze gegevenswaarden afkappen.
Met beide is het makkelijk om de originele data te reconstrueren omdat het individuele observaties
laat zien.
Histogram: is een grafiek die balken gebruikt om de frequenties of de relatieve frequenties van de
mogelijke uitkomsten voor een kwantitatieve variabele weer te geven.
,Voor een discrete variabele heeft een histogram meestal een aparte balk voor elke mogelijke waarde
Voor een continue variabel moeten we het bereik van mogelijke waarden verdelen in kleinere
intervallen van gelijke breedte.
Stappen voor het construeren van een histogram:
1. Verdeel de data in gelijke intervallen. Voor een discrete variabele gebruik de actual possible
values.
2. Tel het aantal observaties (frequentie) in elk interval.
3. Op de horizontale lijn de waardes of eindpunten van de intervallen.
5 tot 10 intervallen is vaak een goed aantal.
Een histogram visualiseert de verdeling van een kwantitatieve variabele.
Unimodaal: heeft de verdeling een enkele heuvel of piek.
- Shape: symmetrisch of scheef. (blz. 69).
Mode: de waarde die het meest verschijnt.
Bimodal: met 2 pieken of heuvels. Kan bijv. als er observaties van 2 groepen hebben plaatsgevonden.
Tails: de delen van de curve met de laagste en hoogste waarde.
Time series: data verzameld gedurende een bepaalde tijd.
Time plot: kan je de data in verwerken.
2.3 measuring the center of quantitatieve data
The mean (gemiddelde): het gemiddelde is de som van de waarnemingen gedeeld door het aantal
waarnemingen. het is interpreservted als het evenwichtspunt van de verdeling.
Mediaan: de mediaan is de middelste waarde van de waarnemingen wanneer de waarnemingen zijn
geordend van de kleinste naar de grootste. Middelste 2 getallen optellen en dan delen door 2.
Gemiddelde berekenen. X met streepje erop (gemiddelde)= de som van X/ N( aantal observaties).
Meestal is het gemiddelde niet gelijk aan de waarde die was geobserveerd in de steekproef.
Gemiddelde kan beïnvloed worden bij een outlier.
Outlier: een uitschieter is een waarneming die ver boven of ver onder het totale grootste deel van de
gegevens valt.
Als de shape symmetrisch is: is het gemiddelde gelijk aan de mediaan
Als de shape links ligt: gemiddelde is kleiner dan de mediaan
Als de shape rechts ligt: gemiddelde is groter dan de mediaan.
Een numerieke samenvatting van de waarnemingen wordt resistent genoemd als extreme
waarnemingen weinig of geen invloed hebben op de waarde ervan. Het gemiddelde is niet beïnvloed.
Als de distributie scheef is, de mediaan is dan beter om te berekenen boven het gemiddelde.
Als de distributie symmetrisch is of midden scheef, is het gemiddelde eerder om te berekenen..
Mode: waarde die het meest frequent voorkomt.
, Hoorcollege 1 02-11-22
Populatie: totaal aantal personen of elementen waarin je geïnteresseerd bent.
- Scholen, landen, personen.
Steekproef: kleinere groep uit de populatie, zodat je meer leert van de populatie.
Variabele: iets wat varieert, hetgeen wat je gaat meten. Kenmerk van de steekproef en je populatie.
Categorische variabele: kun je indelen in een categorie. Of nominaal (haarkleur). Of ordinaal (het
moet van hoog naar laag kunnen).
- Haarkleur, geslacht.
- Je kan met de getallen niet rekenen.
Kwantitatieve variabele: hebben cijfers wel betekenis, de waarde is hoeveel je van de variabele
hebt. Interval of ratio schaal. Representeert de grootte van de variabele.
- Leeftijd (heeft een numerieke betekenis).
- Ook onderscheid tussen discreet: zijn een aantal vaste waarde die je hebt zonder
tussenliggende waarde. Aantal kinderen per gezin, je kan niet 2,2 kind hebben. Alleen hele
getallen. Wat is het aantal? Dan heb je vaak te maken met een discrete variabele. (lengte in
centimeter).
- Continue variabele: Alle mogelijke waarde vormen een continuüm, alle tussenliggende
waarde hebben wel betekenis. Bijv. bij het meten van lengte 178,7 centimeter bijvoorbeeld.
Type variabele bepaalt welke soort analyses je mag toepassen.
Je meet of kinderen 5 blokjes correct kunnen tellen. Wat voor type variabele is dit? Antwoord je
met ja of nee.
- Categorisch: omdat je antwoord met ja of nee, het gaat dus niet om het correct aantal
getelde blokjes maar om wel of niet. Hierdoor is het een categorische variabele. Kunnen ze
het wel of kunnen ze het niet.
- Kwantitatief discreet
- Kwantitatief continu
Statistic: wordt vaak steekproefwaarde genoemd, het is een waarde die hoort bij de steekproef (s-s)
Parameter: waarde die hoort bij de populatie (p-p). Weet je vaak niet omdat je nooit de hele
populatie meet, maar daardoor gebruik je de statistics om het te kunnen trekken naar de populatie.
- Zijn allebei samenvattingen van je data, bijvoorbeeld een gemiddelde.
Beschrijvende statistiek: gaat over het beschrijven en samenvatten van je data, met name over die
steekproef. Gaat patronen ontdekken in je data.
Toetsende statistiek: gaat om gebruiken van de statistic om iets te zeggen over de populatie. Met
hoeveel zekerheid kunnen we zeggen dat de gegevens van de steekproef iets zeggen over de
populatie. Aan de hand van je steekproef.
Hoe kunnen we 1 variabele beschrijven?
- Grafische weergave
- Kijken wat een goede centrummaat is: hoe is je data ongeveer verdeeld en hoe ziet het
centrum eruit.
- Spreidingsmaten
Centrummaat: 1 representatieve waarde, bijv. je gemiddelde.
Categorische variabele
Hoe goed kunnen Nederlandse peuters tellen voordat zij naar de basisschool gaan.
- Variabele: tellen van 5 blokjes. Antwoord werd beantwoord met ja of nee.
Kan je grafisch weergeven door een cirkeldiagram.
Andere manier om het weer te geven is een staafdiagram.