In deze samenvatting is de stof voor de tussentoets samengevat (H1 t/m H7, H9, H11). Deze samenvatting geeft alles overzichtelijk weer. Het boek geeft veel informatie en is bovendien Engels. Deze samenvatting zorgt ervoor dat je alles beter begrijpt en dat je alles op een rijtje krijgt. Zelf heb ik...
,Hoofdstuk 1
Een populatie is het geheel van alle ‘items’ die de onderzoeker interessant vindt. De populatiegrootte
duiden we aan met N en kan heel erg of zelfs oneindig groot zijn. Een sample is een deel van de
populatie die geobserveerd is. De samplegrootte duiden we aan met n.
Soorten variabelen:
Categoriaal:
Produceren reacties die bij groepen of categorieën horen. Bijvoorbeeld reacties op ja/nee-
vragen. Soms is er ook sprake van een range aan keuzes, zoals ‘Mee oneens’ tot ‘Mee eens’.
Er zijn twee soorten ‘levels of measurement’:
- Nominaal: woorden die categorieën of klassen beschrijven (man/vrouw, ja/nee);
- Ordinaal: woorden die een rangorde aangeven (mee oneens – mee eens).
Numeriek:
- Discrete: komen voort uit telprocessen (het aantal…).
- Continuous: komen voort uit een metingsproces (de hoeveelheid…).
Er zijn twee soorten data: kwantitatieve data en kwalitatieve data. Kwalitatieve data heeft geen
meetbare betekenis, bijvoorbeeld de nummers op de shirts van voetbalspelers (die zeggen niets o ver
de prestatie van de voetbalspeler). Bij kwantitatieve data hebben de nummers wél een meetbare
betekenis. Categoriale variabelen gaan altijd over kwantitatieve data.
Grafieken die categoriale variabelen beschrijven
Een frequency distribution is een tabel die gebruikt wordt om data overzichtelijk weer te geven. De
linker kolom geeft alle mogelijke reacties op een variabele weer en de rechter kolom is een lijst van de
frequenties of het aantal observaties voor elke klasse. Een relative frequency distribution verkrijg je
door elke frequentie te delen door het aantal observaties en te vermenigvuldigen met 100%. Van deze
Verdelingen (distributions) kun je vervolgens een staafdiagram (bar chart) maken.
Tabel 1 laat een voorbeeld van een (relative) frequency distribution zien.
Categorie Aantal deelnemers Percentage
Lui 2183 48.9
Actief 757 17.0
Heel actief 1520 34.1
Totaal 4460 100.0
Tabel 1
Andere soorten grafieken zijn:
Cross tables:
- Component bar chart
- Cluster bar chart
Cirkeldiagram (pie chart)
Pareto diagram
Deze laat de frequentie van de verschillende oorzaken voor problemen zien. De oorzaken met
de hoogste frequentie staan links en de oorzaken met de laagste frequentie staan rechts.
In figuur 1 staan afbeeldingen van de verschillende soorten grafieken.
3
, Cluster Bar Chart Component Bar Chart Pareto diagram
Figuur 1
Grafieken die numerieke variabelen beschrijven
Net als voor categoriale variabelen kun je ook voor numerieke variabelen een frequency distribution
opstellen. Het verschil is dat de klassen of intervallen van een frequency distribution voor numerieke
variabelen moeilijker op te stellen zijn. Je moet bepalen hoe veel klassen er gebruikt moeten worden
en hoe groot die klassen dan moeten zijn. Er zijn algemene regels voor het opstellen van een
frequency distribution bij numerieke variabelen:
Stap 1: Kies k, het aantal klassen;
Stap 2: Bepaal de wijdte van de klassen met de volgende formule:
Grootste observatie-kleinste observatie
Aantal klassen
Rond hierbij altijd omhoog af!
Het vaststellen van de grenzen is heel belangrijk, zorg ervoor dat je bijvoorbeeld ‘20-29’ als titel
gebruikt voor de klasse “20, maar minder dan 30” en niet 20-30.
Naast de frequency distribution en de relative frequency distribution kennen we ook nog de
cumulatieve varianten van beide. Dit houdt simpelweg in dat je de frequenties optelt en de
percentages optelt.
Andere soorten grafieken zijn:
Histogram:
Verticale staven op een horizontale lijn, waarop de intervallen van de variabelen staan. De
hoogte van de staaf is gelijk aan het aantal observaties in dat interval.
Ogive (ook wel cumulative line graph):
Een lijn die de punten van de cumulatieve frequentie percentages met elkaar verbindt.
Stem-and-leaf display:
Zie de afbeelding hieronder.
Scatter plot:
Geeft de relatie weer tussen de onafhankelijke variabele x en de afhankelijke variabele y.
Histogram Stem-and-leaf display Scatter plot
Figuur 2
Een skewed-right distributie toont staven die aflopen naar rechts (positive skewness) en een skewed-
left distributie toont staven die aflopen naar links. (negative skewness).
4
, Hoofdstuk 2
Er zijn verschillende measures of central tendency:
Mean (gemiddelde)
∑𝑛
𝑖=1 𝑥𝑖
- Voor een steekproef: x̅ = 𝑛
∑𝑁
𝑖=1 𝑥𝑖
- Voor een populatie: = 𝑁
Median (mediaan)
Bij een oneven aantal observaties de middelste observatie en bij een even aantal observaties
het gemiddelde van de middelste twee observaties, dus de 0.50 x (n + 1) e positie.
Mode (modus)
De waarde die het meest voorkomt.
Om de volgende gegevens te vinden, moet je de observaties op volgorde zetten van klein naar groot.
Kwartielen delen grote data op in vier delen. Het eerste kwartiel (Q1) scheidt de eerste 25% van de
rest, het tweede kwartiel (Q2 of mediaan) scheidt de eerste 50% van de rest en het derde kwartiel
(Q3) scheidt de eerste 75% van de rest. Formules:
Q1 = de waarde op de 0.25 x (n + 1)e positie.
Q2 = de waarde op de 0.50 x (n + 1)e positie.
Q3 = de waarde op de 0.75 x (n + 1)e positie.
De range is de afstand tussen de grootste en de kleinste observatie. De interkwartiel range is de
afstand tussen het eerste kwartiel en het derde kwartiel. Dus, IQR = Q3 – Q1.
Een box-en-whisker plot is een diagram die de five-number summary weergeeft. De five-number
summary refereert naar de vijf beschrijvende metingen: minimum, eerste kwartiel, mediaan, derde
kwartiel en maximum: minimum < Q1 < mediaan < Q3 < maximum. De binnenste box loopt van het
eerste kwartiel tot het derde kwartiel. Door de box loopt een lijn, de mediaan. Dan zijn er nog twee
‘whiskers’. Eén whisker is de lijn van het eerste kwartiel tot het minimum en één whisker is de lijn van
het derde kwartiel tot het maximum.
Figuur 3
Het gemiddelde van de som van de kwadraten van de verschillen tussen de waarden en het
gemiddelde noemen we de variantie. Oftewel de gemiddelde afwijking van het gemiddelde. Voor het
berekenen van de variantie gebruiken we de volgende formules:
∑N
i=1(xi - μ)
2
Populatie: σ2 =
N
∑ni=1 (xi - x̅ )2
Steekproef: s = 2
n-1
De standaard deviatie, ook wel standaardafwijking genoemd, is de wortel van de variantie. De
coëfficient of variation drukt de standaard deviatie als percentage van het gemiddelde uit.
Chebyshev’s theorem
De tabel die bij Chebyshev’s theorem hoort:
Selected values of k > 1 1.5 2 2.5 3
[1 – (1 / k2)]% 55.56% 75% 84% 88.89%
Tabel 2
5
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper rugbedrijfskunde. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €3,49. Je zit daarna nergens aan vast.