Garantie de satisfaction à 100% Disponible immédiatement après paiement En ligne et en PDF Tu n'es attaché à rien
logo-home
samenvatting theorielessen statistiek - universiteit gent - 2021 €7,48   Ajouter au panier

Resume

samenvatting theorielessen statistiek - universiteit gent - 2021

 228 vues  16 fois vendu

Dit document is een uitgebreide samenvatting van alle theorie (video-) lessen (=hoorcolleges) van het vak statistiek gegeven door John Lievens. Dit document kan gebruikt worden door alle studenten van 1e bachelor politieke en sociale wetenschappen aan de UGent. Alles wat in de lessen besproken wer...

[Montrer plus]

Aperçu 10 sur 107  pages

  • 4 décembre 2020
  • 107
  • 2021/2022
  • Resume
Tous les documents sur ce sujet (17)
avatar-seller
liessimons
Statistiek 2020-2021
1. DEEL 1: UIVARIATE BESCHRIJVENDE STATISTIEK

1.1. DOELSTELLINGEN

1.2. BASISCONCEPTEN

Illustratie
We zullen basisconcepten behandelen die we in het vak veel nodig hebben
We zullen een concreet voorbeeld gebruiken om die basisconcepten te illustreren:
• Onderzoeksvraag: verschillen in museumbezoek bij studenten 1BA PSW in kaart brengen
• We zouden dan een korte vragenlijst afnemen die relevante informatie opleverd om
verschillen in museumbezoek te bergrijpen
o Wat is je geslacht?
Uit empirisch onderzoek is gebleken dat vrouwen meer geneigd zijn om naar een
museum te gaan dan mannen
o Welke opleiding volgde je vorig jaar?
We weten dat hoger opgeleiden meer kans hebben om naar een museum geweest te
zijn dan lager opgeleiden
o Wat is het hoogst behaalde diploma van je ouders?
Opleiding van ouders/cultuurparticipatie kunnen helpen in het begrijpen van
verschillen in museumbezoeken van jongeren.
o Hoe vaak ging je het voorbije jaar naar een museum?
= centrale variabele, dit is de variabele die we willen weten
o Wat is je leeftijd?
Leeftijd kan een rol spelen Onderzoekelement: een student uit
o Naar welke tv-zender kijk je het meest? die populatie --> alle studenten
Relevant als Life style indicator samen vormen de
o Wat is je wekelijks budget voor vrije tijd? onderzoekspopulatie
Is er een economische drempel? Analuse eenheid: student 1ste
bachelor PSW


Belangrijke concepten
onderzoekselementen
• Ook wel elementen, (statistische) eenheden of cases genoemd
• Dit zijn de onderdelen van de realiteit waarop een onderzoek betrekking heeft.
• Je meet iets bij wie?
• Een onderzoekselement moet je eenduidig gaan definiëren omdat uitspraken beperkt zijn tot
de onderzoekelementen.
• Dit zijn individuen, gebeurtenissen, collectiviteiten, landen
o Onderzoekselement is land: werkloosheidcijfers tussen landen van de EU vergelijken
o Onderzoekelement is een gebeurtenis: verkeersovertredingen op bepaalde weg ivm
andere wegen vergelijken
onderzoekspopulatie
• Dit de verzameling van de onderzoekselementen
• Ook een eenduidige difinitie is noodzakelijk want alle uitspraken zullen beperkt blijven tot de
onderzoekspopulatie. Je kan op basis van de steekproef geen uitspraken doen over andere
onderzoekspopulaties (=bereik van de steekproef)
• Vaak gebonden aan tijd en ruimte


1

,analyse-eenheid
• Eenheid waarop de analyse gebeurt (eenheid waar het onderzoek op gebeurt)
Variabele
• Kemerk (=een mogelijke eigenschap van een eenheid) dat we meten bij onze
onderzoekseenheden
• Dit kenmerk varieert over de eenheden
uitkomstenverzameling
• Alle mogelijke uitkomsten van een variabele is de uitkomstenverzameling
• Bv woonplaats: alle gemeentes is uitkomstenverzameling
meten
• Met de vragenlijst zullen we vaststellen welke waarde een eenheid heeft op een variabele
• Dus: via een bepaalde meetprocedure vaststellen wat de waarde van een kenmerk is bij een
element.
• Aantal belangrijke elementen bij meten:
o Nauwkeurigheid: hoe exact zijn we bij onze meting?
§ Hoe we meten zal de exactheid beïnvloeden
§ Ook referentieperiode speelt een rol (20jaar vs 6 maanden)
o Betrouwbaarheid: heeft betrekking op consistentie bij herhaalde waarneming.
o Dit betekent dat indien we de vragenlijst nog eens zouden afnemen, dat er de zelfde
informatie uitkomt als de eerste keer dat de vragenlijst is afgenomen.
o Validiteit: de mate van overeenkomst tussen de indicator (wat we meten) en het
theoretisch concept (wat we wilden meten).
bv toepassing op illustratie: stel dat we wilden weten hoeveel mensen dat we naar
een kunstmuseum gingen, maar er is gevraagd of men naar een gewoon museum is
geweest. (=systematische fout: want er is iets gemeten die je eigenlijk niet wilde
meten)
waarde
• Het resultaat van meten is de waarde vaststellen
• De waarde van een element (bv:persoon) op een kermek dat we gementen hebben
(=variabele)




2

, Input voor statistische analyses
Als we gemeten hebben krijgen we een gegevensset/dataset/datamatrix: dit is een document waar
gegevens van het onderzoek in vervat zijn

Kolom



volgnr geslacht opleiding diploma vader museumbezoek leeftijd TV-zender budget
1 man menswet. HSO 12 18 VTM 15
2 vrouw lat.wisk LO 5 17 VT4 9
Rij 3 man mod.talen LSO 1 19 TV1 4
4 vrouw economie HO 0 18 2BE 12
... ... ... ... ... ... ... ...
Opbouw:
• kolom = de variabele, de kenmerken die we meten
• rij = de waarde van de verschillende eenheden op de variabele
o volgnummer = nummer van de eenheid, het nummer van mensen die aan het
onderzoek hebben deelgenomen

Maar in de praktijk wordt er vaak gewerkt met nummerieke codes (via een codeboek):

volgnr geslacht opleiding diploma vader museumbezoek leeftijd TV-zender budget
1 0 1 3 12 18 3 15
2 1 2 1 5 17 5 9
3 0 3 2 1 19 1 4
4 1 4 4 0 18 4 12
... ... ... ... ... ... ... ...

Opbouw:
• Geslacht wordt weergegeven met 0=man of 1 =vrouw (wordt weergegeven in een
codeboek)
• 9 = geen antwoord gegeven op de vraag of je weet het niet
• De nummerieke codes zijn bij sommige variabelen betekenisvol, maar bij andere niet
o Bv: geslacht (=betekenisvol) vs. Budget (=niet betekenisvol)




3

,Meetniveau van variabelen: schaal van meten (hoeveelheid informatie)
Informatie verschilt naargelange het meetniveau: een verschillende meetniveau geeft een
verschillende hoeveelheid informatie:
1. Kwalitatieve/categorische variabelen
• Nominale variabelen
o Exhuastieve classificatie (= volledige waarde, een volledige beschrijving)
o Exclusieve classificatie (=niet overlappend)
o Bv: gelacht, TV-zender, haarkleur, werelddeel,…
o Bij een nominale veraibale kan je een persoon indelen in verschillende waarden,
maar die waarden kunnen niet geordend worden want ze staan op hetzelfde
niveau.
• Ordinale variabelen
ð Waarden ordenen (iets is meer/minder waard), maar we kunnen niet zeggen hoeveel
meer of minder iets waard is.
ð Bv: opleiding, opinievraag, kwaliteitsoordeel in sterren, medaile
2. Kwantitatieve/metrische variabelen
• Intervalvariabelen
ð Afstand tussen de waarde heeft betekenis dus we kunnen uitspraken doen hoeveel
meer/minder iets waard is.
ð Bv: Leeftijd, geboortejaar (we kunnen zeggen of iemand jonger of ouder is en hoeveel
jaren ze verschillen.
ð Bv: temperaturen in graden celsius (we kunnen zeggen hoeveel de temperatuur
verschilt)
• Ratiovariabelen
ð Absoluut nulpunt: dit is een waarde waar je niet onder kan gaan
ð = Geen negatieve
ð Bv: leeftijd, tijdsverschil, budget



Opmerkingen :
• De meetniveau’s zijn geordend van weinig informatie naar veel informatie
• Wat kan op een lager meetniveau kan ook op een hoger meetniveau, maar niet
omgekeerd
• Er bestaat een verschil tussen wat we meten en wat we analyseren: bij het analyseren
kunnen we een transformatie toepassen
o Meten met open vraag (rationiveau)
o Bij de analyse zoeken we een groep mensen waardoor we gaan indelen in klassen
(ordinaalniveau)
• Een andere classificatie op basis van de uitkomstenverzameling:
o Continue variabelen:
§ Getal met komma (reële getallen)
§ Tussen 2 mogelijke uitkomsten is het mogelijk om een 3de te bedenken die
ertussen ligt
§ =oneindige uitkomstenverzameling
§ Bv: Tijd, exacte leeftijd, inkomen,..
o Discrete variabelen
§ Getal zonder komma (natuurlijk getal)
§ =eindige uitkomstenverzameling
§ Bv: leeftijd in verstreken jaren, aantal kinderen, museumbezoek,..



4

,Doelstelling van univariate beschrijvende statistiek voor 1 variabele
Univariate statisitiek heeft tot doel gegevens van 1 variabele op overzichtelijke en synthetische wijze
weergeven.
• Daarvoor gaan we verdelingen beschrijven via frequentietabellen, grafieken, maten van
positie, maten van spreiding en vorm

1.3. FREQUENTIEVERDELINGEN
= hoe zijn de eenheden verdeeld over de verschillende waarde van een variabele?
bv: beschrijven hoe een populatie verdeeld is op het kenmerk hoeveel keer men naar een museum
geweest is.

Soorten frequenties
1. Absolute frequentie (Fi)
• = Het aantal elementen met een bepaalde waarde
• i = de waarde
• fm = met m waarden (Dit zijn de mogelijke uitkomsten in de uitkomstenverzameling)
• formule:



2. Relatieve frequentie (pi)
• Het aantal elementen met een bepaalde waarde gedeeld door het totaal aantal
elementen
• Die uitkomst is de fractie of proportie (pi)
• Formule:



N? n= som van alle fi




Voorbeeld van een frequentietabel
(hier zie je de bovenstaande formules toegepast in een tabel)




= optelling van
proportie is altijd 1!

DUS:
= waarde (i)
Absolute frequentie: 1896 mensen hebben 0
poëziebundels gelezen
Proportie: de proportie is 0, 67 van de mensen die
geen poëziebundels gelezen hebben (=67%)
N: totaal aantal mensen die deel genomen hebben


5

, Frequentietabel met cummulatieve frequentie
Cummulatieve frequentie = het aantal (=cumulatieve frequentie) of proportie (=cumulatief
percentage) eenheden met waarde i of lager
• Kan enkel vanaf ordinaal meetniveau (want waarden moeten geordend kunnen worden)

illustratie van een frequentietabel:

Aantal elementen met een bepaalde proportie pi= Fi /n
waarde (i) => fi= pi x n



F1

F2,




F1 (=) F2= F1+F2
N= f1+f2+f3+f4+f5
Pi (=)
P2= P1+P2

Frequentietabel met metrische variabelen
Er zijn te veel verschillende waarden om die overzichtelijk weer te geven in een frequentietabel




OPLOSSING:
Gegevens opdelen in klassen via een frequentietabel met klassenindeling




• OPGELET: de tabel is afhankelijk van de klassenindeling, afhakelijk van de klasse indeling die
gebruikt wordt kan men een andere verdeling krijgen
• OPGELET: Men moet afwegen tussen een overzichtelijke weergave vs. Verlies aan informatie
• OPGELET: meetniveau kan veranderen (meting nominaal, maar rapportering ordinaal)

6

,Weergave van klassen in tabel
Je hebt keuze tussen:
• Klassengrenzen = laagste waarden, hoogste waarde
• Klassenmidden = laagste waarde + hoogste waarde / 2

OPGELET:
• Indien we werken met continue varabelen dat moeten de klassen exclusief zijn. er mogen
geen verlappingen zijn tussen verschillende klassen.
o Dus niet: niet:
§ 25 - 50
§ 50 - 75
o Wel met open en gesloten haakjes:
§ 25 £ . < 50 of [25,50[
§ 50 £ . < 75 of [50,75[
• Het is ook nog mogelijk dat de weergegeven klasse niet overeenkomt met de werkelijke klasse
o weergegeven werkelijk
25 £ . < 50 24,5 £ . < 49,5
50 £ . < 75 49,5 £ . < 74,5
(het getal 25 begint eigenlijk bij 24,5)


Formele voorschriften voor tabellen
Noodzakelijke elementen van tabellen:
• waarden/klassen exhaustief en exclusief
• titel: kort en bondig inhoud aangeven
• kolomkoppen, met exacte aanduiding inhoud
• logische ordening
• totalen
• bronvermelding


Grafieken
Naast tabellen kunnen we ook gebruik maken van grafieken om frequentieverdelingen te bestuderen.
(De basisconcepten zijn hetzelfde als bij tabellen, maar het is een grafische weergave).

1. Taartdiagram

• definities:
ai = hoek voor waarde i
ai = pi x 360°
Hoe groter de pi, hoe groter de hoek
voor waarde i is.
• Voordeel: maakt verdeling direct
visueel duidelijk
• Nadeel: aantal waarden beperkt want
de taartdiagram is niet overzichtelijk
als er te veel waarden zijn.
(oplossing = klassen)
OPGELET: een 3 dimensionele taartdiagram
kan misleidend zijn


7

,2. Staafdiagram (univariaat)
• Frequenties worden weergegeven via staven
ð De hoogte van de staaf toont de
frequentie
DUS: Een hoge staaf komt overeen
met een hoge frequentie.
• definities:
ð L = lengte van nulpunt tot maximum in
grafiek
ð Li = lengte van staaf voor waarde i
ð Li = pi x L
ð Het zijn losse staafjes
• voordeel:
ð Meer waarden opnemen (ev. verticale oriëntatie) (wat beperkt was bij een taartdiagram)
ð Mogelijkheid om verdeling op te splitsen naar waarden op tweede variabele (bivariaat).
We kunnen makkelijk een visuele voorstelling maken van een bivariate samenhang
tussen twee kenmerken.


3. Staafdiagram (bivariaat)
• Illustratie: is er een samenhang tussen naar pop/rock concerten gaan en de leeftijd?
ð We gaan dus 2 variabelen in relatie brengen met elkaar (= bivariate statistiek)
ð Conclusie: naarmate de leeftijd stijgt, stijgt het mensen die 0 keer naar een concert
geweest is en daalt het aantal mensen die 1-2 keer of meer dan 3 keer naar een concert
geweest zijn.




4. Histogram
• definities:
o Enkel voor metrische variabelen, in klassen gegroepeerd
o Staafjes plakken tegen elkaar
o Oppervlakte staafjei = fi (of pi)
o Totale oppervlakte = n (of 1)
o Ii = klassenbreedte klasse i (=5)
o Frequentiedichtheid: hi = fi / Ii
• Voordeel: verdeling van metrische variabele visueel duidelijk
• Nadeel: verdeling afhankelijk van klassenindeling




8

,Formele voorschriften voor grafieken
noodzakelijke elementen:
• titel: kort en bondig inhoud aangeven
• titels op assen
• teleenheden
• nulpunt
• legende
• bronvermelding
• opletten met verwarrende lay-out (bvb. 3D)

1.4. MATEN VAN POSITIE

Samenvatten van verdelingen
We zullen verdelingen samenvatten voor het beschrijven en vergelijken van de verdeling
ð Meer specifiek zullen we een aantal kenmerken samenvatten:
1. Positie (centraliteit, ligging)
• = hoe centraal zijn de waarnemingen verdeeld over de mogelijke waarden van een
variabele?
o Aan de linkse kant?
o In het centrum?
o Aan de rechtse kant?
2. Spreiding (variatie)
• Hoe dicht liggen waarnemingen bij elkaar?
• Zijn ze sterk gespreid, waardoor we meer variatie hebben?
3. Vorm (symmetrie, scheefheid)
• Symetrische verdeling?
= ene helft van de verdeling is een spiegeling van de andere helft
• Scheve verdeling?

Illustratie: studie over de politieke links/rechts attitude in vlaanderen
0= extreem links
10 = extreem rechts
Mogelijke situaties na verdeling:
A: symmetrische verdeling met centrale ligging
op
positie
ð De meerderheid van de mensen heeft
een waarde die in het centrum ligt.
C: symmetrische verdeling, maar meer links
gelegen
ð De meerderheid van de mensen hebben
een waarde die meer aan de linkse kant
spreidin ligt (=politiek linkse attitude)
B: veel spreiding, want waarden zijn meer
verspreid over de x-as.
D: geringe spreiding
ð De meeste waarden zijn gespreid over
een geringe waarde op de x-as.




9

, Maten van positie
1. Rekenkundig gemiddelde (x)
= De waarde die de centrale positie het beste weergeeft van een verdeling
• Voor individuele waarnemingen
!"# %&' &(() *&&+,)'
o Formule: = -"-&&( &&'-&( *&&+')#.'/)'
o Compactere formule:

som van alle xi van de 1ste tot de laatste (n)
=
totaal aantal waarnemingen

o Illustratie:



(54+ 59 + 35 + 41 + ... + 34 + 22)
x= = 43,9
15
rekenkundig gemiddelde berekenen obv frequentietabellen:




• Het gemiddelde berekenen obv absolute frequenties uit een frequentietabel
01234567 897:57;6<7 = >009?7
o =𝑥 =
-"-&&( &&'-&( *&&+,)' (;)
o Illustratie



• Met relatieve frequentie
o = 𝑥 = relatieve frequentie x waarde
o Illustratie:


• Met in klasse gegroepeerde gegevens
B+)CD)'-.) E F(&!!)'/)#.,,)(,)
o =𝑥 = '
o Kan fouten bevatten, want deze is minder nauwkeurig
o Illustratie:


Kenmerken van het rekenkundig gemiddelde:
• De uikomst van het rekenkundig gemiddelde obv absolute frequenties is gelijk aan het
rekenkunig gekmiddel obv relatieve frequenties
• Enkel voor metrische variabelen (of in klassen gegroepeerd)
• Het rekenkundig gemiddelde is het evenwichtspunt (zwaartepunt) van de verdeling
• Geen resistente (robuuste) maat want het is gevoelig voor uitschieters




10

Les avantages d'acheter des résumés chez Stuvia:

Qualité garantie par les avis des clients

Qualité garantie par les avis des clients

Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.

L’achat facile et rapide

L’achat facile et rapide

Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.

Focus sur l’essentiel

Focus sur l’essentiel

Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.

Garantie de remboursement : comment ça marche ?

Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.

Auprès de qui est-ce que j'achète ce résumé ?

Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur liessimons. Stuvia facilite les paiements au vendeur.

Est-ce que j'aurai un abonnement?

Non, vous n'achetez ce résumé que pour €7,48. Vous n'êtes lié à rien après votre achat.

Peut-on faire confiance à Stuvia ?

4.6 étoiles sur Google & Trustpilot (+1000 avis)

83637 résumés ont été vendus ces 30 derniers jours

Fondée en 2010, la référence pour acheter des résumés depuis déjà 14 ans

Commencez à vendre!
€7,48  16x  vendu
  • (0)
  Ajouter