Statistical Methods for the Social Sciences, Global Edition
In deze samenvatting heb ik mijn best gedaan om er een lopend verhaal van te maken door alles uitgebreid uit te leggen met voorbeelden zodat je begrijpt waar het over gaat. De samenvatting is vooral gebaseerd op de hoorcolleges en waar nodig is aangevuld met Grasple en het boek.. Ik heb meer pagina...
Samenvatting Statistiek 1
Statistiek bestaat uit methoden voor het verzamelen en analyseren van de steekproefdata:
Design (verzamelen): plannen hoe je data gaat verzamelen in een onderzoek
Description (analyseren): samenvatten van data. Een hele lijst met cijfers wordt dan
omgezet in simpelere beschrijvende statistieken zoals gemiddelden of diagrammen
Inference (analyseren): de steekproefdata wordt gebruikt om voorspellingen te doen
over populatieparameters: inferentiële statistiek
o Parameters vatten populatie samen door gemiddelden van variabelen zoals
gewicht: 70 kg. Hierbij hoort een onzekerheidsmarge
Methodologie: de systematische wijze van hoe je onderzoek zou moeten uitvoeren.
Statistiek: gereedschap om je onderzoek uit te kunnen voeren. Er zijn bijvoorbeeld
verschillende manieren om te weten of een verschil significant is. Je moet er dan 1 kiezen
die het best bij jouw situatie past. Statistiek en methodologie zijn dus verschillend maar
kunnen in goed empirisch onderzoek niet zonder elkaar.
Kansrekening: de data van de populatie is bekend, hoe waarschijnlijk is dan een steekproef
uitkomst? Je hebt 10 witte en 10 zwarte sokken in een la, hoe groot is de kans dat je 4 witte
pakt? Gaat uit van deductie: algemeen specifiek. Met gegeven model voorspel je data
Statistiek: de data van een steekproef is bekend, wat zegt dit over de populatie? Gaat uit
van inductie: specifiek algemeen. Met gegeven data voorspel je model (populatie)
Bij beide wordt er rekening gehouden met toeval (foutmarge) en wordt er een aanname
gemaakt over de populatie (bijvoorbeeld geen verschil: null hypothese) om deze met de
steekproef te kunnen weerleggen (falsifiëren).
Populatie: totale set van deelnemers die relevant is voor de onderzoeksvraag daarbij horen
parameters (populatiegrootheden)
Steekproef: een deel van de populatie die onderzocht is. Daarbij hoort steekproefgrootheid
Goede data om de onderzoeksvraag te beantwoorden is:
Betrouwbaar: mate waarin je hetzelfde waarneemt bij herhaling
Valide: meet je wat je denkt te meten of is er sprake van bias?
Variabele: karakteristiek die per persoon kan verschillen
Meetniveaus vormen de waardes die de variabelen kunnen hebben:
- Kwalitatief:
o Nominaal: zit geen volgorde in, gewoon labels zoals kleur ogen
o Ordinaal: zit een volgorde in zoals opleidingsniveau
- Kwantitatief
o Interval: volgorde + gelijke interval tussen waarden zoals °C
o Ratio: volgorde + gelijke interval + absolute nulpunt zoals K
Waardenbereik:
Discreet: 1, 2, 3, 4
Continu: 1.1, 1.2, 1.3
, Samenvatting Statistiek 2
Bij inferentiële statistiek kan er een verschil zitten tussen gemeten steekproefgrootheid en
populatiegrootheid. Steekproef: 100% overgewicht. Populatie: 30% overgewicht. Oorzaken:
Toeval tussen de steekproeven (toevallig mensen geselecteerd met die score)
Problemen of fouten binnen de steekproef
Problemen bij een steekproef:
Sampling error: de mate waarin je resultaten verschillen van de parameter. Hoe
groter de steekproef, hoe kleiner de foutmarge, omdat het dan dichter bij je populatie
is. Puur door toeval verschillen de waarden uit de steekproeven.
Sampling bias: de ene subject heeft een grotere kans om in een steekproef te
komen dan de andere subject (nonprobability sampling). Voorbeeld hiervan is
convenience sampling: mensen die zich vrijwillig opgeven zijn niet generaliseerbaar
Response bias (meetfout): je sample geeft andere antwoorden op dan wat ze
werkelijk denken. Veroorzaakt door verkeerde verwoording, volgorde van de vragen
of sociaal wenselijk willen overkomen.
Non-response bias (selectieve respons): treedt op wanneer sommige subjects geen
resultaten geven doordat ze niet willen meedoen of stoppen met het onderzoek.
Recensies van een product kunnen bijvoorbeeld heel negatief zijn doordat alleen
ontevreden mensen de moeite willen doen om een klacht in te dienen.
Sampling error hoort bij betrouwbaarheid, want als je 5 keer hetzelfde onderzoek uitvoert
met een andere sample heb je steeds weer andere resultaten. Alle bias hoort bij validiteit
Steekproefmethoden:
Simple random sampling: iedereen in de populatie heeft even veel kans om in de
steekproef te komen. Iedereen moet bereikbaar zijn, zo is het experiment generaliseerbaar.
Stel eerst je steekproefkader vast (bijvoorbeeld 600 psychologie studenten). Koppel aan
iedereen een nummer en laat een software random mensen uitkiezen.
Systematic random sampling: niet iedereen in de populatie heeft even veel kans om in je
steekproef te komen. Dit is eenvoudig en ook representatief.
Stel je steekproefkader vast, bepaal de stapgrootte (skip number: k = 4) en begin met
skippen bij een random persoon. Dus bijv na elke 4 personen wordt 1 geselecteerd.
Gestratificeerde steekproef verdeelt de populatie in verschillende groepen (strata) en
selecteert uit elke strata een simple random sample om die vervolgens met elkaar te
vergelijken. Stel steekproefkader op, verdeel populatie in strata, trek aselect uit de strata
Proportioneel: percentages tussen strata komen ook terug in de steekproef
Disproportioneel: percentages tussen strata komen niet terug in de steekproef,
bijvoorbeeld: ookal zijn er op deze school 2% meisjes en 98% jongens, de steekproef
bestaat nog steeds uit evenveel jongens als meisjes. Dit wordt zo gedaan, omdat
anders de minderheid niet genoeg representatie heeft in de steekproef, waardoor
correcte vergelijking niet mogelijk is.
Cluster steekproef: niet iedereen in de populatie heeft even veel kans om in de steekproef
te komen. Populatie wordt verdeeld in clusters. Een cluster is bijv. locatie.
,Dus stel je wil alle scholen in NL onderzoeken, dan kies je willekeurig een paar locaties uit
(clusters) en dan onderzoek je alle leerlingen op alle scholen uit de gekozen locaties.
Verschil met vorige is: hier wordt niet vergeleken tussen groepen
Multi-stage sampling: Je selecteert dus weer clusters (locaties), uit elke locatie kies je
willekeurig 8 scholen, uit elke school kies je willekeurig 4 klassen en uit elke klas kies je
willekeurig 5 leerlingen. Verschil met cluster is dat bij clusters de subgroepen volledig worden
onderzocht, maar bij multi-stage sampling wordt uit elke subgroep willekeurig gekozen.
Standaarddeviatie: bij een klokvorm is 68% tussen de eerste s, 95%
tussen 2s en bijna 100% tussen 3s. Variantie = zonder de wortel. De
formule hiernaast gebruik je bij steekproefgemiddelden
Beschrijvende statistiek:
Centrummaten: gemiddelde, mediaan (middelste waarde) en modus (meest
voorkomende waarde)
Spreidingsmaten: spreiding van observaties zoals bereik (grootste – kleinste
observatie), standaarddeviatie en interkwartielafstand (waar ligt middelste 50%)
Positiematen: relatieve positie van observaties, bijv z-waarde, percentiel, kwartiel
(linkerdeel 75%, rechterdeel 25%), mediaan en minimum/maximum
Kwalitatieve variabelen (nominaal en ordinaal) geef je weer in een:
Tabel: frequentieverdeling
Grafiek in een staafdiagram met ruimte ertussen
Taartdiagram
Centrummaat: modus (meest voorkomende waarde: democraten)
Spreidingsmaat: variantie-ratio (hoe groot is de proportie van de meest
voorkomende frequentie van het totaal)
Kwantitatieve variabelen (interval en ratio) geef je weer in:
Tabel: frequentieverdeling
Grafiek: histogram zonder ruimte ertussen
Stam-en-blad-diagram (bij interval)
Boxplot
Centrummaat: modus, gemiddelde, mediaan
Spreidingsmaat: bereik, standaarddeviatie, interkwartielafstand (waar ligt middelste
50%)
Positiematen: percentielscore, kwartiel (alles links is 75%, rechts 25%),
minimum/maximum, mediaan, z-score
Box plot: streep is de mediaan (middelste waarde), randen van de box is de
interkwartielafstand, de rest van de 50% is verdeeld in de snorharen van het minimum tot het
maximum. De snorharen zijn niet groter dan 1,5 keer interkwartielafstand. (dus veel langer
dan de box is het niet). Uitbijters zijn waarden die tussen de 1,5 en 3 keer IQR zitten.
Extreme waarden zitten boven de 3 keer IQR (x).
Welke figuur kies je wanneer? Dat hangt af van:
, Meetschaal: je kan niet het gemiddelde van ijssmaak hebben
Uitbijters: box plot komt hier goed van pas
Scheefheid van de verdeling: als het gemiddelde hoger is dan de mediaan heb je
een scheve verdeling naar rechts (staart naar rechts). Gemiddelde kleiner dan de
mediaan scheve verdeling naar links (staart naar links)
Univariabele statistiek: alle waarden om 1 variabele te beschrijven.
Bivariabele statistiek: hoe hangen 2 variabelen met elkaar samen? Weer te geven in
kruistabel (kwalitatief) en spreidingsdiagram (scatter plot)
, Samenvatting Statistiek 3
Populatieverdeling: kansverdeling van de waarden van iedereen in de doelpopulatie. Hierbij
horen parameters die onbekend zijn.
Gemiddelde μ of π bij proportie
Standaarddeviatie van populatieverdeling (spreiding rond gemiddelde) σ
o Volgens grasple te berekenen door alle waarden – gemiddelde te doen, die
kwadrateren, bij elkaar optellen en delen door n. Neem hier de wortel van
Omvang N
Steekproefverdeling: statistiek van de steekproef, de kansverdeling van de mogelijke
waarden in 1 specifieke steekproef. Hierbij horen statistieken
Gemiddelde y of ^π bij proportie
Standaarddeviatie s (2 manieren)
Omvang n i gemiddeldes
ii proporties
Steekproevenverdeling: verdeling van steekproefgemiddelde. Gaat niet over hoe
individuele waarnemingen van elkaar verschillen, maar over het hypothetische idee dat als je
oneindig vaak steekproeven van dezelfde omvang uit de populatie trekt, hoe variëren de
steekproefgemiddelden van elkaar? Dankzij de centrale limietstelling weten we hoe de
steekproevenverdeling eruit ziet. Hierdoor kan je wat zeggen over betrouwbaarheid van y
iii gemiddelde
Gemiddelde μ y
Standaarddeviatie σ y (standaardfout), gemiddelde verschil tussen meerdere
steekproefgemiddelden en het populatiegemiddelde. (of proportie). 2 manieren: iv proportie
o Er geldt: hoe groter de n, hoe kleiner de standaardfout, want noemer kleiner
Omvang ∞ (oneindig)
Centrale limietstelling:
Het maakt niet uit wat de vorm van de populatieverdeling is, als de steekproefomvang groot
genoeg is, zal de steekproevenverdeling keurig normaal verdeeld zijn.
Dus steekproevenverdeling is normaal verdeeld bij
1. Random sampling
2. De n is groot genoeg, de vuistregel is groter dan 30. Als de n niet groot genoeg is, is
er sprake van 3 andere verdelingen (t-verdeling, B-verdeling of χ2 verdeling)
Grotere n standaarddeviatie kleiner
Weinig variatie in y standaarddeviatie kleiner
Dit zorgt beide voor een hogere validiteit en betrouwbaarheid
Kansberekening-regels: als je de kans op A weet, dan kan je ook de kans berekenen dat
het niet A is.
Kansverdelingen: je hebt discrete (hele waarden) en continue kansverdelingen.
Discrete variabelen hebben een beperkt aantal mogelijke uitkomsten en je kan de
exacte kansen berekenen voor elke mogelijke uitkomst
Continue variabelen hebben een oneindig aantal mogelijke waarden (zoals bij
reistijd). De kans voor intervallen van waarden kan berekend worden.
, Cumulatieve kansverdeling: in plaats van dat je de kans op 1 waarde berekent, kan
je dat ook doen met een groot aantal waarden, zoals de kans dat je minder dan 4
ogen gooit met de dobbelsteen.
Normaalverdeling (z-verdeling): dit is een verdeling van continue waarden, het heeft een
symmetrische bel vorm en het hoogste punt is het gemiddelde, modus en mediaan. Hoe
verder een waarde van het gemiddelde afwijkt, hoe minder vaak deze waarde geobserveerd
wordt. Het gebied onder de normaalverdeling is 100% (dus een kans van 1)
Empirische regel: een regel die bepaalt hoe groot de kans is dat je een bepaalde waarde
observeert in een normaalverdeling: 68% van de scores zit binnen 1 standaarddeviatie van
het gemiddelde, 95% van de scores zit binnen 2 standaarddeviatie van het gemiddelde,
99,7% van de scores zit binnen 3 standaarddeviaties van het gemiddelde.
Significantie: stel dat je de gemiddelde lengte wil weten van 18 miljoen Nederlanders. Er
zijn 5 mensen in Nederland die 230 cm lang zijn. Je trekt een steekproef van 5 mensen, de
kans dat je precies die 5 mensen van 230 cm trekt is ontzettend onwaarschijnlijk, maar de
kans is er wel!
In psychologie hebben we de afspraak dat als de kans minder dan 5% (de kritieke waarde)
is, dat we spreken van een zeer lage waarschijnlijkheid en het resultaat is dan significant.
Z-score: de z-score in een normaalverdeling is het aantal standaarddeviaties dat
de waarde afwijkt van het gemiddelde. Deze kan berekend worden door de formule.
Z-score kan gebruikt worden op 2 manieren:
Als de y bekend is, vul je de y in de formule, hieruit komt een z-waarde.
Zoek de cumulatieve kans die bij deze z-waarde hoort op in de tabel.
Als de cumulatieve kans bekend is, kan je bekijken welke y daarbij hoort.
Bijvoorbeeld wat is het IQ waarbij alleen 1% van de bevolking dit heeft? Je zoekt in
de tabel naar de z-score die het dichtst bij 0,01 komt (2,33). Dit vul je in de formule
van de z-score en door de andere letters in te vullen kan je de y eruit afleiden.
Puntschatter: 1 getal dat als beste schatter dient voor de parameter, zoals
steekproefgemiddelde, bijvoorbeeld de wereldbevolking bestaat uit 7 miljard mensen.
Intervalschatter: interval rondom de puntschatter, hierbinnen zal de parameter waarschijnlijk
liggen, bijvoorbeeld de wereldbevolking zit tussen de 6,8 en 6,95 miljard. Kleine interval =
preciezer
Hierbij horen 2 criteria:
Validiteit: schatters moeten zuiver zijn (niet ver naast de parameter)
Betrouwbaarheid: de schatter heeft een kleine standaardfout en is dan
doeltreffend
Betrouwbaarheidsinterval: er is een manier om te weten hoeveel procent van de
steekproeven het werkelijke populatiegemiddelde bevat. Bij 95% CI bevat 95%
van de steekproefintervallen het populatiegemiddelde. Hoe breder het interval is,
hoe hoger de CI wordt. Als je significantielevel 5% is, hoort daar een CI van 95%
bij.
Verschillende soorten variabelen hebben ook verschillende soorten steekproevenverdelingen
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur nihadelb. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €5,99. Vous n'êtes lié à rien après votre achat.