Dit document bevat een samenvatting van alle kennis clips en college's voor het deeltentamen en eindtentamen van het vak Beschrijvende En Inferentiële Statistiek. Behaald eindcijfer voor dit vak: 8,5
Samenvatting beschrijvende en Inferentiële statistiek PMBIS_2021
Deel 1
Statistiek gaat over de methoden om gegevens te verzamelen, bewerken, interpreteren die gegevens
noemen we data. Ultieme doel: door middel van data kennis te vergaten over de wereld om ons
heen.
Beschrijvende statistiek: Hoe zien de data eruit?
Inferentiële statistiek: Wat zeggen de data van de steekproef over de gehele populatie?
Bijvoorbeeld een opinie peiling is een goed voorbeeld van beschrijvende en Inferentiële statistiek.
Dus wat kan je op basis van de peiling zeggen over de gehele populatie. Maar dit blijft natuurlijk niet
met een volledige zekerheid. Hier komen dingen zoals de onzekerheidsmarge. Stel de VVD daalt van
27% naar 25% dit blijkt uit twee peilingen met 1000 respondenten. Is dit een toevallige afwijking of
echt een significant verschil?
Modules van de weken zijn gekoppeld aan de hoofdstukken van het boek. Het eerste deel gaat over
beschrijvende statistiek (h1,2 en 3) daarna Inferentiële statistiek + regressie analyse. Extra materiaal
komt niet op het tentamen!
Variabele, constanten en cases.
In een onderzoek maak je gebruik van data. Dit splits je op in variabelen = characteristics of
something or someone. Cases= something or someone. De onderzoekseenheid is het gene waarover
je gegevens hebt verzameld. De onderzoekseenheid kan een groep of individu zijn. Datgene wat
gemeten of geobserveerd wordt is de variabele. Bij beschrijvende statistiek orden je gegevens en
presenteert deze op aansprekende wijze. Vaak beschik je niet over alle gegevens van de groep
(populatie) dan heb je meestal een steekproef van de populatie. Je gebruikt dan verklarende of
(inductieve) statistiek om van de steekproef te generaliseren naar de populatie.
Het meetniveau van een variabele geeft aan in welke mate je de waarden die aan de categorieën zijn
toegekend kunt gebruiken om er mee te rekenen. Verschillende meetniveaus zijn:
- Nominaal: heeft categorieën met een naam. (Geslacht) geslacht heeft maar 2
waarden man/vrouw dit noem je een dichotoom.
- Ordinaal: ook categorieën maar deze zijn te ordenen op grootte. (Opleidingsniveau)
- Interval: hier zijn de afstanden tussen elkaar opvolgende getallen even groot, er is
geen natuurlijk nulpunt (temperatuur) bij het interval kan gebruikt worden gemaakt
van de Likertschaal. Deze wordt vaak gebruikt bij enquêtes.
- Ratiomeetniveau: heeft dezelfde kenmerken als interval maar deze heeft wel een
absoluut nulpunt. (Leeftijd)
1
,Samenvatting beschrijvende en Inferentiële statistiek PMBIS_2021
Nominaal en ordinaal zijn kwalitatieve variabelen, interval en ratio zijn kwantitatieve meetniveaus en
hiermee valt te rekenen. Een discrete variabele neemt alleen maar bepaalde waarden aan zonder
tussenliggende waarden. Continue variabelen kan wel alle tussenliggende waarden aannemen.
Aantal inwoners is discreet. Gewicht van een brood 803.45 gram in continue. Soms wil je vanwege
het rekengemak de discrete variabele behandelen
als continue, dit doe je dan met de continuïteit
correctie. Dit omzetten naar een continue waarde
gaat dan met een geschikte grenswaarde. Het
gaat steeds om een correctie van 0,5. De correctie
mag altijd worden toegepast en moet worden
toegepast op steekproefomvang van n< 50.
Tabellen
Om variabelen te presenteren van de cases die je bestudeerd in je studie kun je gebruik maken van
een data matrix. De data matrix is het kern element van elke statistische studie. The cases are display
in the rows, the variables are displayed in the columns. Vaak maak je gebruik van summaries of data
en je presenteert niet de gehele data set omdat dit te veel is. Je kan dat gebruik maken van een
frequentie tabel. Deze tabel laat zien how the values are distributed over the cases. Een frequentie
table is niets meer dan een lijst met van alle mogelijk warden van een variabele, samen met het
aantal observaties voor elke waarden. Je kan ook de relatieve frequentie presenteren in de vorm van
een percentage of cumulatieve percentages (op tellen van de percentages)
Hier zien we dus een frequentie tabel van haarkleur. Dit is
dus een categorical variabele haarkleur maar wat gebeurd er
als we werken met een kwantitatieve variabele?
Bijvoorbeeld gewicht. Dit is natuurlijk lastig doordat je dan
precies het gewicht moet presenteren in de tabel waardoor
je een enorme lijst krijgt van de variabelen en de percentage
geven dan ook een waarde meer. Dit kan je oplossen door
van de kwantitatieve data een ordinale categorieën te
maken.
In dit geval heb je de variabele ge her odeert. Je verliest
misschien data maar het maakt het wel overzichtelijker. Het
gaat dus van een kwantitatieve data naar een ordinale
categorie. Je kan niet de andere kant op coderen, dus van
ordinaal naar kwantitatieve.
Grafieken
Verdeling van de data (distribution):
- Categorische data (Nominaal)
o Frequentie tabel: is a listing of possible values for a variable, together with the
number of observations for each value.
2
,Samenvatting beschrijvende en Inferentiële statistiek PMBIS_2021
o Taartdiagram: circle with a slice for each category, the size corresponds to the
percentage of observations. You see immediately percentage
o Staafdiagram: displays a vertical bar for each category. The height of the bar is
the percentage of observations in each category. Apart from each other. The
exact number of categories is seen easily. Bar graph gebruik je als je een hoog
aantal categorieën hebt.
o Pareto chart: a bar chart ordered by their frequencies. To identify the most
common outcomes.
- Kwantitatieve data:
o Dot plot: shows a dot for each observation (bijv. 3 keer is leeftijd 10 gemeten, 3
stipjes boven 10). Dus niet te gebruiken bij heel veel observaties.
o Stem-and-leaf plot: lijkt op dot-plot, dan verticaal. (Stem is het kern getal, of
eerste getal daarna komt het 2e getal. Dus 18|000 is dan 3 keer 180.
o Histogram: is a graph that uses bars to portray the frequencies or the relative
frequencies for te possible outcomes for a quantitave variable (so compared to
the previous graph’s, this is meant for more data). The bars in a histogram touch
each other. This is an important difference because this touching represents an
underlying continuous scale. Let
dus goed op dat de histogram dus
ook de tussen liggende continue
variabele aangeeft. Let ook goed
op de vorm van de histogram dit
bepaald later de statische
methode die je gaat toepassen.
The proportion of observations falling in a certain
category is the number of observations in that category divided by the total number of observations.
The percentage is the proportion multiplied by 100. Proportions and percentages are also called
relative frequencies and serve as a way to summarize the distribution of a categorical variable
numerically.
Modus, Mediaan en gemiddelde.
Naast het weergeven van de verdeling in grafieken kan je de verdeling ook presenteren in centrum
maten.
- Gemiddelde (of verwachting)
- Mediaan = middelste waarneming (bij ordinaal) by an even number doe je bij elkaar
optellen en dan gedeeld door 2.
- Modus = meeste voorkomende waarde (Mode) the pie chart make the mode immediatly
clear. Je kan ook meerdere modussen hebben. Bij bijvoorbeeld een bimodale distributie
een histogram met 2 toppen.
Een centrummaat geeft een samenvatting van het midden, het centrum van een verdeling. De meest
gebruikte is het gemiddelde. Een centrum hoeft niet het gemiddelde te zijn. Bij het bepalen van
getallen die niet in een frequentie verdeling staan moet je ze altijd eerst rangschikken van klein naar
groot. Centrummaten zijn:
• Modus: De modus is de waarde in een set (variabele) die het meeste voorkomt. Een set kan
meer dan een modus hebben die noemen we bimodaal. - Xmod kan snel worden gevonden
met het percentage of de relatieve frequentie. Klasse die het meeste voorkomt noem je de
modale klasse.
3
, Samenvatting beschrijvende en Inferentiële statistiek PMBIS_2021
• Mediaan: De mediaan is de middelste waarneming in een set numerieke geordende
waarnemingen. Is het aantal waarnemingen even dan wordt de som van de middelste
waarnemingen gedeeld door 2 de mediaan. - Xmed. De mediane klasse is de middelste
klasse in een set.
• Gemiddelde: het gemiddelde is de som van alle waarden in een set gedeeld door het totaal
aantal waarnemingen. -Xgem. . Gewogen gemiddelde is als de waardes niet
hetzelfde gewicht hebben bijvoorbeeld voor bij een berekening van eindcijfer gemiddelde.
Bij nominale waarden kan alleen de mode worden bepaald! Bij bepaalde outlier wordt het
gemiddelde uit verband getrokken in dit geval kan je voor de modus kiezen om het centrum aan te
geven. Let op de mediaan is resistent tegen outliers, het gemiddelde is daar niet resistent tegen. A
numerical summary of the observations is called resistant if extreme observations have little, if any,
influence on its value.
Bereik, interkwartielen afstand en boxplot
Soms geeft een centrummaat niet genoeg informatie. Een spreidingsmaat geeft antwoord op de
vraag hoe de waarnemingen liggen ten opzichte van elkaar, met andere woorden hoe de scores in de
variabele zijn verdeeld. Let goed op dat je ook de spreidingsmaten eerst moet rangschikken.
Variatiebreedte of range of bereik: het verschil tussen de minimum en maximumscore in een set.
Bijvoorbeeld metingen van mensen tussen de 18 en 65 jaar = variatiebreedte of range is dan 47 jaar.
Het bereik is een maat van variabiliteit die eenvoudig te begrijpen is. Maar soms kan het ook niet
goed de variabiliteit beschrijven doordat het de minimum en de maximum score pakt. De
interkwartielen afstand daarentegen laat de extreme waarde eruit en deel de verdeling op in 4
gelijke stukken.
Kwartielen: De verdeling wordt in 4 gelijke stukken gedeeld ieder 25% van de waarnemingen. Bij de
inter kwartielen afstand wordt alleen naar de middelste 50% gekeken hierbij doen uitschieters dus
niet mee. De kwartielen geven de grenzen aan tussen de kwarten van een set aan frequenties. Dit
betekend dat Q1 de mediaan is van de eerste helft van de waarnemingsgetallen en Q3 de mediaan is
van de tweede helft van de waarnemingsgetallen. Als de eerste helft en tweede helft een even aantal
getallen is berekend je de kwartielen door het gemiddelde te doen van de beide middelste getallen,
net als je bij de mediaan zal doen bij een even aantal waarnemingsgetallen. Let op dat je bij een even
aantal het gemiddelde neemt van de waarnemingsgetallen en dat de mediaan is, nu laat je niks weg
bij het verdelen van eerste en tweede helft. Bij een oneven aantal is de mediaan makkelijk te vinden
maar deze laat je weg bij de verdeling van de eerste en tweede helft!.
De boxplot is het ding voor het
presenteren vanaf een ordinaal meet
niveau en houd de uitschieters ook
buitenbeschouwing. Geeft inzicht in
middelste 50% van verdeling. Uitbijters
worden door een punt zichtbaar
gemaakt. Bij box plot heb je nodig:
kleinste en grootste waarnemingsgetal,
de mediaan en Q1 en Q3. De lengte van
de snorren bepaal je dan met de berekening Q1 of 3 – 1,5 maal de
IQR. Hier eindigt de snor en hier kan je dus duidelijk kan zien over
er outliers zijn. Als je geen outlier hebt dan is het einde van de snor de min of max score.
4
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper RobinB97. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €6,99. Je zit daarna nergens aan vast.