Samenvatting Inleiding in de statistiek
Topic 2: inleiding data inbreng
Populatie:
→ een verzameling van subjecten die op zijn minst één karakteristiek (eigenschap) gemeen
hebben. (= N)
→ Onbeperkt groot
Steekproef:
→ een deelverzameling van subjecten (toevallig) getrokken uit de studiepopulatie. (=n)
→ Beperkt in aantal
Variabelen:
→ Karakteristieken van een populatie.
→ Bv. kleur van ogen, geslacht, studierichting, …
→ 2 hoofdcategorieën: Categorisch (kwalitatief, discontinu, in groepen, bv blauwe ogen,
groene ogen) en continue (kwantitatief, op een lat te leggen, bv. lengte)
→ Nominaal: je kan niet zeggen die zijn beter dan de andere, er zit geen rang of volgorde
in. Geen orde in te brengen. Bv. mannen en vrouwen, kleur ogen, …
→ Dichotoom: er zijn maar 2 categorieën. Bv. man en vrouw, doof of niet doof, logo en
audio, …
→ Polytoom: er zijn meerdere opties. Bv. blauwe ogen, groene ogen, bruine ogen,
academiejaar, …
→ Ordinaal: Je kan er een orde in steken. Bv. BMI opgedeeld in klassen (ondergewicht,
normaalgewicht, overgewicht, obesitas), mate van gehoorverlies (normaal gehoor, licht
gehoorverlies, matig gehoorverlies, erg gehoorverlies, doof), …
→ Intervalschaal: de afstanden op de schaal zijn van een gekende grootte
(vb. temperatuur).
→ Ratioschaal: de schaal heeft een reëel nulpunt (vb. gewicht).
Continue waarde omzetten naar een ordinale waarde kan.
Als je een continue waarde hebt, dan moet je altijd die inbrengen want anders heb je een
reductie.
1
, Als je gegevens invoert in je syntax moet je eerst variable labels dan formats en dan variable
level invoeren.
!TIP!: De A komt voor de E in het alfabet dus eerst labels en dan level.
Als er geen vast antwoord is dan gebruik je STRING ... (A15).
Voor datums gebruik je bij formats (DATE11) in plaats van (F8.0).
2
, Les 1: Inbreng van gegevens
➢ Syntax file
3
,➢ Data venster (variable view)
4
, ➢ Data venster (Data view)
➢ Notes:
Bij de inbreng van lievelingskleur, mag je lievelingkleur nog niet in je ‘variable view’ zetten
aangezien het programma bij het aanmaken dit er zelf zal inzetten. Idem voor BMI en BMI in
klassen.
Je moet u gegevens invullen voor je de BMI gaat invoeren.
Bij willekeurige data moet je in je ‘variable view’ bij type op de bolletjes duwen en instellen hoe
je wilt dat de data wordt weergegeven.
Voor BMI te berekenen doe je volgende stappen:
1. Transform
2. Compute Valuable
3. Target: BMI
4. Numeric expression: lichaamsgewicht
5. Op pijl klikken zodat het naar het ander venster springt
6. “/” aanklikken
7. “()” aanklikken
8. Lichaamslengte aanklikken
9. Pijl aanklikken
10. “*” aanklikken
11. Stap 8 en 9 herhalen
12. PASTE aanklikken
13. Alles selecteren en runnen
14. Aanvullen met ‘Variable labels’, ‘formats’ en ‘variable level’.
Voor te controleren doe je volgende stappen
5
, 1. Analyse
2. Descriptive statistics
3. Frequencies
4. Body mass index aanklikken
5. Pijl aanklikken
6. PASTE
7. Runnen
Voor BMI om te zetten naar klassen volg je volgende stappen
1. Transform
2. Recode into different variables
3. BMI
4. Pijl aanklikken
5. Output name: BMI_klassen
6. Label: BMI (kg/m²) in klassen
7. CHANGE
8. OLD AND NEW VALUES
9. Range, lowest: (laagste waarde invullen en alle waarden daaronder worden dan
genomen) bv. 18,49999
10. New value: value: 1
11. ADD
12. Range: (tussen twee waarden)
13. Value: 2
14. ADD
15. Zo blijven doorgaan tot alle waarden zijn ingenomen
16. Range, highest: (alle waarden boven de waarde die je ingeeft)
17. Value: (getal waar je dan al zit)
18. ADD
19. CONTINUE
20. PASTE
21. Alles selecteren
22. Runnen
23. Aanvullen met ‘VALUE labels BMI_klassen 1 ‘ondergewicht’ 2 ‘normaal’ …’, ‘Formats’ en
‘Variable level (hier Ordinal)’
6
,Topic 3: datacleaning en beschrijvende statistiek deel 1
→ Datacleaning
Datacleaning moet je sowieso doen op het examen! Controleer altijd of er onmogelijke
waarden aanwezig zijn vooraleer je met de waarden gaat werken. Controleren doe je door
een frequentietabel op te vragen.
Volgende stappen moet je overlopen voor het cleanen van data:
→ Ga op zoek naar onmogelijke waarden.
→ Kopieer niet-cleane variabelen naar nieuwe variabele.
→ Controleer kopie.
→ Eigenlijke datacleaning.
→ Controleer datacleaning.
→ Frequentieverdeling
Frequentietabel:
Relatieve frequentie:
→ De frequentie van voorkomen van dat getal in de totale groep.
Cumulatieve frequentie:
→ De frequentie van voorkomen van dit getal en de getallen eronder. Je telt dus de
voorgaande frequenties erbij op.
Als je de frequentie per geslacht wilt zien moet je split data doen.
Een volgnummer toevoegen doe je via transform → compute variable.
→ beschrijvende statistiek
Maten van centrale locatie
→ Gemiddelde waarde = mean
▪
7
, ▪ = gemiddelde
▪n = aantal meetwaarden
▪xi = de waarden zelf
▪Dit gemiddelde is slechts een schatting voor het eigenlijke gemiddelde ()
van de populatie.
→ Mediaan = median
▪ Alles op een rij zetten van klein naar groot en de middelste waarde nemen.
▪
→ Modus
▪ Waarde die het meest frequent voorkomt in de steekproef.
→ Onderlinge ligging en verdeling:
▪ Als de staart naar recht is dan is het scheef naar rechts verdeeld. Is de staart
naar links is het scheef naar links verdeeld.
Maten van spreiding
→ Spreiding = variabiliteit = gemiddelde afwijking
▪ Afhankelijk van de breedte van je interval heb je veel of weinig spreiding.
▪
▪ Steekproef A: weinig spreiding; Steekproef B: veel spreiding
▪
→ Variantie
▪
▪ S² = variantie
▪ Xi = de bepaalde waarde
▪ = gemiddelde
▪ n = aantal waarden
8