Statistiek 1a
1.1 Introductie tot de statistische methodologie
Data zijn de observaties die worden gedaan. Er zijn ook databases te vinden met daarin data die al
eerder geobserveerd zijn, een belangrijke is de GSS (General Social Survey). Deze data kun je
vervolgens gaan analyseren. → Statistiek bestaat uit een aantal verschillende methoden om data te
verzamelen en te analyseren.
De methoden zijn onder te verdelen in:
1. Ontwerpen (design): Plannen hoe je data gaat verzamelen, dus het selecteren van observaties
2. Beschrijven (description): De data samenvatten om het overzichtelijk te maken, dus je maakt
gemiddeldes, grafieken, tabellen.
3. Infereren of verklaren: Conclusies trekken uit de data en voorspellingen doen voor de grotere
populatie.
Descriptieve statistiek gaat om grafieken, tabellen en numerieke samenvattingen (zoals gemiddelde).
Dit valt onder de beschrijvende methoden.
Inferentiële statistiek gaat om de statistiek die voorspellingen doet, bijvoorbeeld over een hele
bevolking, vanuit de data die je verkregen hebt.
Deze twee verschillende statistieken zijn 2 typen van statistische analyse.
1.2 Descriptieve statistiek en inferentiële statistiek
Subjects zijn entiteiten die de studie observeert. Dit zijn mensen, scholen of bedrijven bijvoorbeeld.
De populatie zijn alle entiteiten die de studie wil observeren, maar omdat dit niet kan, gebruikt men
samples/steekproef, een klein stukje van de populatie.
Descriptieve statistiek verzamelt data en het doel is om deze een klein stukje makkelijker te lezen te
maken. Inferentiële statistiek doet voorspellingen over de populatie, op basis van de sample. Hierbij
gebruik je onder andere een ‘margin of error’. Je accepteert dus een kleine fout in de voorspelling die
je gaat doen, omdat je niet iedereen ondervraagd hebt.
Een parameter is een numerieke samenvatting van de data van de populatie. Een statistiek is een
numerieke samenvatting van de data van de steekproef.
Parameter;
o µ = mu – populatiegemiddelde
o σ = sigma – standaarddeviatie
o N = aantal gevallen
Statistiek;
o Ў = gemiddelde
o S = standaarddeviatie
o n = aantal gevallen
1.3 De rol van computers binnen de statistiek
SPS is een van de programma’s die data organiseert en berekend. Een datafile is een file met daarin
de data georganiseerd. In de eerste kolom staan de subjects of cases, in de kolommen achter hen
staan hun karakteristieken, de variabelen. We geven dit weer met X23, waarbij we spreken over case
2 met variabele 3. Dit kan bijvoorbeeld Jan (2) zijn met leeftijd (3) = 50.
Hoofdstuk 2: Samples en meten
2.1 Variabelen en het meten daarvan
, Een variabele is een karakteristiek iets dat kan variëren in waarde tussen verschillende subjects in
een sample of populatie. De antwoorden vallen in een metingsschaal, zoals ja of nee.
Er zijn verschillende soorten variabelen:
Kwantitatieve variabele: De waardes zijn numeriek, zoals inkomen. Op deze variabele kan je
wiskundige bewerkingen doen.
Categoriale of kwalitatieve variabele: De waardes zijn een set van categorieën, zoals burgerlijke
status (gehuwd/vrijgezel).
VARIABELE
KWANTITATIEF Interval of ratio Scores zijn Wiskunde Discreet of
getallen bewerkingen continu
zinvol
KWALITATIEF Nominaal of ordinaal Scores zijn Wiskunde Altijd discreet
labels bewerkingen niet
zinvol
De manieren van meten kan ook op verschillende manieren:
Nominale schaal: Ongeordende categorieën, zoals religie. Hier kan je geen ordering in aan
brengen en het is ook niet numeriek. Dit is per definitie een categoriale variabele.
Ordinale schaal: De categorieën zijn wel geordend, dus bijvoorbeeld in hoeverre je het met een
stelling eens bent (zeer mee oneens – mee oneens – neutraal). Er is echter geen waarde toe te
kennen aan de antwoordopties.
Interval schaal: Er is een specifieke interval tussen bepaalde waardes. De één is dus groter dan
de ander. Er is een numerieke waarde aan de variabele te geven.
Ratio schaal: Ook hierbij is er een specifieke numerieke waarde. Verschil met interval is dat hier
een natuurlijk nulpunt aanwezig is, dus bij leeftijd kan iemand 0 jaar zijn. Dan spreek je over een
natuurlijk nulpunt.
Er is nog een manier om variabelen te verdelen:
Discreet: Duidelijke getallen, zoals 0, 1, 2, etc. Deze getallen zijn eindig.
Continu: Getallen die alle waarden aan kunnen nemen. Dus 1,76 en 1,77. Je zou een continu
getal altijd kunnen uitbreiden, bijvoorbeeld 1,760003 is ook een getal.
2.2 Randomization
Er zijn verschillende manieren om een sample te trekken uit je onderzoekspopulatie. Het is belangrijk
dat je steekproef representatief is, dit houdt in dat hij de populatie goed weergeeft. Een steekproef
van de populatie Nederlanders met alleen bejaarden er in is niet representatief.
Simple random sampling (SRS): Ieder subject uit een populatie heeft dezelfde kans om
getrokken te worden. Dit noem je dan een random sample. We gebruiken een sampling frame,
een lijst of iets dergelijks waaruit je zoveel subjects gaat trekken. Je kan de subjects nummeren
en door een computer laten selecteren. Dit nummeren houdt in dat je random numbers gaat
trekken.
o Een sample survey is een sample trekken door het bellen of afnemen van een interview. Dit
kan misgaan, omdat je een bepaald deel van de het sampling frame vraagt en dit kan op die
manier niet representatief worden.
o Je kan ook door middel van een experiment data verzamelen. Dan vergelijk je twee soorten
groepen die onder andere condities (treatments) bijvoorbeeld een medicijn testen.
Experimental designs zijn plannen hoe men proefpersonen gaat selecteren en wie onder
welke conditie wordt gehouden.