Dit is een volledige samenvatting van het boek MMC voor het vak onderzoekspracticum 1. LET OP: niet alle hoofdstukken/paragrafen zijn erin verwerkt, omdat dit geen tentamenstof is. Alle paragrafen zijn wel benoemd, maar wanneer het geen tentamenstof is, is het kopje leeg.
Er staan veel plaatjes e...
Samenvatting hoofdstuk 1: Kijken naar data –
distributies
1.1, data
-
1.2, verdelingen weergeven met grafieken
Elke variabele zal verschillende waardes hebben. Een verdeling beschrijft hoe deze waardes van
elkaar verschillen (grafische of numerieke beschrijvingen). Statistische tools helpen ons hierbij
(exploratory data analysis, het beschrijven van wat we hebben waargenomen). Dat kan je doen
door de variabelen en hun onderlinge relaties te bestuderen of door grafieken te maken. Een
exploratory data analysis heeft dus als doel zo goed mogelijk de waardes van de variabalen te
beschrijven en soms ook om de toekomst ermee te voorspellen. Wanneer data ook daarvoor
gebruikt wordt, noem je dit een voorspellende analyse.
De waarden van categorische variabelen zijn
namen, zoals ja of nee. De verdeling van
categorische waardes sommen de categorieën
op en geven het aantal, het percentage of de
proportie (aantal gedeeld door het totaal)
geeft dat bij de categorie hoort. Zoals in de
afbeelding hiernaast te zien is, wordt ook de
categorie ‘overig’ gegeven. Dit kan als je kleine
categorieën wil samenvoegen, maar je moet
wel opletten dat je daarmee geen belangrijke
categorieën over het hoofd ziet.
Grafische weergaves als deze laten ons snel en
eenvoudig de data inzien.
Een staafdiagram (bar graph) is een grafiek
waarbij de volgorde van de categorieën niet
uitmaakt. Toch moet je wel nadenken over de
meest
logische volgorde, zoals bijvoorbeeld alfabetische volgorde.
In de afbeelding hier onder
is te zien dat gebruik is
gemaakt van percentages.
Bij een staafdiagram is dit
niet verplicht en kan je ook
de aantallen gebruiken.
In een cirkeldiagram (pie
chart) wordt wel altijd gebruik gemaakt van percentages. De
verhoudingen worden zo duidelijker.
,Een steelbladdiagram (stemplot) geeft een snelle numerieke weergave van een verdeling. Ze
werken het beste bij kleine observaties met waardes groter dan 0. Zorg dat de volgorde van de
getallen (zowel de
stam als de
bladeren) altijd van
laag naar hoog gaat.
Wanneer je twee verdelingen met elkaar wil vergelijken, kan je gebruik
maken van de back-to-back stemplot, waarbij de bladeren afstammen van
dezelfde stam.
Je kan de stam ook splitten, waarbij je twee ‘bladkolommen’
krijgt: een met 0-4 en de ander met 5-9, iets wat handig kan zijn als je met veel
getallen werkt. Je kan de getallen in dat geval ook trimmen (laatste getallen
weghalen) of afronden
Een histogram is makkelijker
toe te passen bij grotere
hoeveelheden getallen. Hierbij vorm je
categorieën van getallen, waarbij je alleen het
aantal of percentage geeft van de getallen die
binnen die categorie past. Welke categorieën
je maakt, mag je zelf bepalen, maar ze moeten
wel even groot zijn. Ze geven dus echter niet
de specifieke getallen, dus voor kleinere data
sets zijn steelbladdiagrammen nog steeds aan
te raden.
Om een histogram te maken, bepaal je eerst
de categorieën. Vervolgens maak je hier een
tabel van en als laatste verwerk je de tabel in
een grafiek. Op de horizontale as komt de
variabele en op de verticale as komen de
aantallen. In tegenstelling tot de staafdiagram,
is er geen ruimte tussen de staven.
Een histogram kan je ook gebruiken als je je
aantallen in percentages geeft.
Een grafiek moet helpen bij het begrijpen van
de data. Om te checken of dit inderdaad het geval is, kan je zoeken naar het algehele patroon
(spreiding = afstand tussen laagste en hoogste waarde, vorm = symmetrisch of niet, centrum) van
de grafiek en naar opvallende afwijkingen in dat patroon. Probeer deze afwijkingen te verklaren
(het kunnen fouten zijn!). Het kan ook zijn dat je een andere verdeling met andere aantallen
moet maken (als je het aantal mensen met een bepaald kenmerk in verschillende steden wil
weergeven, kan je beter het aantal per bijvoorbeeld 1000 inwoners doen, anders krijg je
afwijkingen bij de grootste steden).
Het centrum, het middenpunt vormt het midden van de grafiek waarbij de ene kant kleinere
waardes en de andere kant grotere waardes heeft. De extreme waardes vormen de staart van de
, verdeling, waarbij de hoogste waardes zich boven of rechts bevinden en de laagste waardes zich
onder of links bevinden.
Een mode is een grote piek. Een verdeling waarbij één piek te zien is, wordt unimodal genoemd.
Een verdeling waarbij twee pieken te zien zijn, wordt bimodal genoemd. Een verdeling waarbij
drie pieken te zien zijn, wordt trimodal genoemd.
Wanneer een grafiek symmetrisch is, zijn de lagere en hogere waardes vanaf het middenpunt
elkaars spiegelbeeld. Wanneer een grafiek scheef
(skewed) is, zijn er meer hogere of lagere waardes.
Sommigen variabelen hebben voorspelbare verdelingen.
Wanneer tijd een rol heeft gespeeld bij de observaties,
kun je de resultaten het beste in die volgorde weergeven.
Bij een histogram of steelbladdiagram wordt hier geen
rekening mee gehouden, terwijl dit soms essentiële
informatie is. Hiervoor kan je bijvoorbeeld een
tijdreeksanalyse (time plot) gebruiken. Hierbij staat de
tijd altijd op de horizontale as.
1.3, verdelingen beschrijven met getallen
Numerieke beschrijvingen maken analyses specifieker. Numerieke beschrijvingen moeten iets
zeggen over de vorm, het centrum en de spreiding van de verdeling. Met behulp van getallen die
we kunnen uitrekenen, is dit mogelijk.
Het gemiddelde en de mediaan zijn de twee bekendste manieren om het centrum te bepalen.
Het gemiddelde bepaal je door alle waardes bij elkaar op te tellen en te delen door het totale
aantal observaties.
∑ betekent dat je alles moet optellen. X̄ betekent gemiddelde. Xi staat voor
iedere individuele waarde. N is het totaal aantal waarden.
Het gemiddelde wordt in de praktijk soms afgerond, omdat dit duidelijkere
informatie geeft (bv. 19 dagen ipv 18,875).
Het gemiddelde heeft een zwaktepunt, het is namelijk gevoelig voor uitbijters en is dus niet
resistent. Metingen die hier niet gevoelig voor zijn, worden robuust genoemd.
De mediaan is het middelpunt van een verdeling. De ene helft is groter dan de mediaan, de
andere helft is kleiner. Om de mediaan te vinden, zet je eerst alle waardes van klein naar groot.
Vervolgens kan je de plek van de mediaan bepalen door (n+1)/2 uit te rekenen. Wanneer je een
even aantal waardes hebt en op een getal uitkomt die eindigt op ,5, neem je het gemiddelde van
de twee getallen daarom heen (bv. je komt uit op 7,5, dan neem je het gemiddelde van de
waarde op positie 7 en 8).
De mediaan is niet volledig robuust en zal bij grote uitbijters wel wat verschuiven, maar is veel
minder gevoelig dan het gemiddelde en zal bij kleine uitbijters gelijk blijven.
Bij een steel-bladdiagram zijn de getallen al op volgorde gezet en is het dus relatief eenvoudig om
de mediaan te vinden.
Soms zijn uitbijters het gevolg van een meetfout, waardoor je ze uit je analyse kan halen. Als er
geen goede redenen zijn om de uitbijter eruit te halen, kun je het beste voor een meting kiezen
die hier niet gevoelig voor is, zoals de mediaan dus.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller naomikantebeen. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $6.46. You're not tied to anything after your purchase.