Deze samenvatting is oorspronkelijk voor mezelf geschreven. Ik stel het beschikbaar zodat iedereen
de theorie nog eens snel kan doornemen. Helaas voor sommigen betekent dit wel dat ik niet alles
behandel, ik heb alleen de voor mij relevante theorie beschreven hier. Per hoofdstuk geef ik aan
waarvan ik uit ga dat je dit al weet, omdat ik dat zelf al weet of heb geleerd in de owg, zodat deze
samenvatting niet te lang wordt. Ten slotte, vergeef me de spel- of typfouten, ik heb welloe zin om
me kostbare tijd door nog aan te besteden.
Dingen die ik niet ga behandelen in dit hoofdstuk
Wordt een stemplot gemaakt
Idem voor histogrammen
Eisen voor bovenstaande grafieken
5-number summary
Hoe maak je een boxplot
Z-scores berekenen
Wat is een density curve
Effect skewedness op gemiddelde in een density curve
68-95-99.7 regel
Hoofdstuk 1
1.1
Cases zijn objecten die worden beschreven door een dataset. Dit kunnen objecten zijn, of participanten.
Kortom het zijn de eenheden in een experiment of een observationele studie.
Een label is tekst die wordt gebruikt om cases te onderscheiden.
Een variabele is een kenmerk van case die verschillende waarden kan aannemen per case.
Categorische en kwantitatieve variabelen.
Een categorische variabele plaatst een case in 1 van de mogelijke groepen of categorien.
Een kwantitatieve variabele kan numerieke waarden aannemen, waarop aritmetische bewerkingen op
kunnen worden gedaan.
De distributie van een variabele vertelt ons welke waarden van de variabele worden waargenomen en
hoe vaak dit wordt waargenomen. Denk aan histogrammen.
De distributie van een categorische variabele wordt het aantal (count) of het percentage van de cases
weergegeven die binnen een bepaalde categorie/groep vallen. Voor de distributie van een categorische variabele
kan dus gebruik gemaakt worden van een bar-chart of een pie-chart. Bij kwantitatieve variabelen is dat anders. Bij
kwantitatieve variabelen is het handig om een ‘stem-plot’ te maken. Een stemplot geeft snel de distributie
doormiddel van het gebruik van de numerieke waarden in een grafiek te stapelen.
Modaliteiten. Een distributie wordt, respectievelijk, bij 1, 2,3 en meerdere pieken, uni-, bi-, tri en polymodaal
genoemd.
Symmetrie. Dit is kenmerkend voor normale verdelingen, maar ook andere distributies zoals de t-verdeling. Het
belangrijke bij symmetrie is dat het oppervlak aan beide helften van de het gemiddelde van de distributie gelijk
zijn. Wanneer dit niet zo is is er sprake van ‘skewedness’.
,Skewedness. Skewedness betekent dat de distributie niet symmetrisch is. De distributie leunt een kant op. Leunt
de distributie naar links, dan is de waarde zoals in SPSS wordt getoond positief, dus Skewedness>0. Is de
skewedness negatief dus Skewedness<0, dan leunt de distributie naar rechts.
Outliers. Outliers identificeren hangt af van jou eigen oordeel. Als je een case of punt tegenkomt, zoals in een
scatterplot, die sterk afwijkt van de data die je hebt en verwacht te hebben moet je er goed naar kijken. Is deze
gevonden waarde een resultaat van een foute meting of is dit daadwerkelijk een legitieme observatie? Ook daarna
is het handig om te kijken of je deze waarde uit de data-set verwijdert omdat het de gehele data-set onnodig
beinvloed door zijn aanwezigheid.
Het gemiddelde x̄. Om het gemiddelde van een set observaties te vinden, moet je de waarden van deze
observaties optellen en delen door het n aantal observaties. Bij het zien van de x̄, is het van belang dat je weet dat
je te maken hebt met een gemiddelden van waarden. Dit kan van een sample distribution zijn, of van een sample
deviation.
De mediaan. De mediaan, M, is het middelpunt van een distributie. Het verdeelt de distributie in 2 gelijke delen.
Om de mediaan te vinden moet men alle observaties van groot naar klein sorteren. Is het aantal observaties een
oneven getal, dan kan is de positie van de mediaan in de rij getallen te vinden door deze formule te gebruiken.
(N+1)/2=positie. De waarde die hieruit volgt geeft aan op welke positie je mediaan zich bevindt in je rij. Is je aantal
observaties een even getal, dan is je mediaan het gemiddelde van de 2 getallen die je rij in 2 gelijke delen kunnen
opsplitsen. Vb. 4,5,6,9,10,11. We hebben 6 getallen, de getallen op positie 3 en 4 delen de set op in 2 gelijke delen.
De waarden die we op plaats 3 en 4 vinden zijn 6 en 9. Het gemiddelde van deze 2 waarden is (6+9)/2=7.5
Robuustheid van centrum- en spreidingsmaten. We beginnen met de minst robuuste centrummaat, het
gemiddelde. Het gemiddelde in gevoelig voor de invloed van extreme observaties, vaak outliers. Bij een skewed-
distribution is er sprake van extreme observaties in de staarten van de distributie. Het gemiddelde wordt dan
richting die staarten getrokken door de aanwezigheid van de extreme waarden daarin. Het gemiddelde is dus geen
resistente centrummaat, in tegenstelling tot de mediaan. De mediaan een resistente centrummaat, het is niet
gevoelig voor extreme observaties. Robuustheid en resistentie zijn synoniem aan elkaar.
De mediaan is robuuster. Het gemiddelde gebruikt de waarden elke unit/case/whatever om een samenvattende
waarde weer te geven. De mediaan verdeelt de dataset in 4 gelijke delen, en kijkt niet naar de waarden van de
unit/case enz. Het wordt dus niet beinvloed door extreme waarden zoals bij een sterke skewed-distribution.
Kwartielen. Zoals de naam het zegt wordt de dataset opgedeeld in 4 delen. Er zijn dus een minimum, die 0% van
de waarden bezit, een punt dat 25% van de waarden bezit (Q1), een punt die 50% van de waarden bezit
(Q2/Mediaan), een punt die 75% van de waarden bezit(Q3) en het maximum die alle waarden omvat (100%). We
hebben alleen wat aan de punten Q1, M en Q3. Die kunnen wat over de spreiding van de dataset vertellen. Zoals
we de mediaan uitrekenden, kunnen we ook Q1 en Q3 uitrekenen. Om Q1 en Q3 te vinden gebruik je dezelfde
methode als bij de mediaan, maar gebruik je de mediaan van de mediaan. Vb. 4,5,6,9,10,11,12. M=9. De mediaan
van de mediaan voor Q1 is de waarden van 4 tot 9 gebruiken en daarvan de mediaan nemen. Doe hetzelfde voor
de waarden aan de rechterkant van M om Q3 te weten. V
Boxplots. Een boxplot heeft een zogenaamde interkwartielafstand. Deze interkwartielafstand is de afstand tussen
de waarden die je bij Q3 en Q1 vond, uiteraard is dit een positief getal. Bij het tekenen van een boxplot wordt de
middenlijn in de box gevormd door de mediaan. Bij een symmetrische verdeling ligt de mediaan precies op de helft
van de interkwartielafstand. Als je een boxplot ziet waar de mediaan niet in het midden ligt, maar ergens tegen de
randen van de box, heb je te maken met een skewed distribution.
1.5 x IQR-regel. De IQR-regel stelt dat outliers gespot kunnen worden door de interkwartielafstand(IQR) te
vermenigvuldigen met 1.5. Het getal dat je hieruit krijgt wordt bij Q3 opgeteld (Q3+(1.5*IQR))=bovenlimiet. En bij
Q1 afgetrokken. (Q1-(1.5*IQR))=benedenlimiet. Elke waarden die lager dan de benedenlimiet of boven de
,bovenlimiet uitkomt kan een outlier genoemd worden. Onthoud dat outliers soms legitieme waarden zijn en dus
niet altijd uit je dataset verwijderd mogen worden. Het ligt aan jou of je het kan onderbouwen of je dat wel of niet
doet.
Variantie (s2). Variantie/ s2 toont de variabiliteit aan in een dataset. Het is een van de spreidingsmaten naast de
five-number-summary die in je boek staat. Onthoudt voor volgende hoofdstukken dat s2 altijd slaat op de variantie
van een sample/observatie. Op pagina 42 staat hoe de variantie wordt berekend. Als eerste wordt van je verlangd
om het gemiddelde van je sample/observatie te weten. Nadat je dit hebt berekend neem je elke gemeten waarde
apart. Van elke waarde, apart, trek je x̄ (gemiddelde) af. Vervolgens kwadrateer je dit, ga verder naar de volgende
waarde en tel deze op bij je vorige waarde. Herhaal dit proces totdat je elke waarde hebt gehad. Ten slotte deel je
door (n-1). De standaarddeviatie is in dit geval slechts de wortel van de gevonden waarde bij variantie. Net als het
gemiddelde is de variantie erg gevoelig voor outliers of extreme observaties, dit fuckt met je standaarddeviatie.
Het gebruik van centrum- en spreidingsmaten. Het kiezen tussen de five-number-summary en x̄ en s. is
afhankelijk van de skewedness die aanwezig is in je distributie. Is er sprake van sterke skewedness en dat je dus
niet normaal is, is het gebruik van de 5-number-summary handiger dan x̄ en s.
Lineaire transformaties. Dit is het veranderen van een
variabele naar een nieuwe door een getal er bij op te
tellen, of door het te delen of te vermenigvuldigen.
Wanneer er een waarde bij een variabele wordt opgeteld
verschuift de distributie slechts naar links of naar rechts,
respectievelijk, afhankelijk of je een negatief getal
toevoegde of een positief getal. De gehele distributie
verschoof, maar de spreiding bleef gelijk. De vorm is niet
veranderd (spreiding). Wanneer de variabele wordt
vermenigvuldigd worden alle waarden verandert ook de
spreiding. Probeer maar eens de waarden in een sample te
vermenigvuldigen met een bepaald getal en reken opnieuw
de variantie en de standaarddeviatie uit. Het is veranderd.
Onderscheid symbolen observatie en density curves. Bij
het lezen en schrijven van artikelen wordt er onderscheid
gemaakt tussen tekens die gebruikt worden bij observaties
en density curves. Bij observaties worden de tekens s en x-
bar gebruikt. Bij density curves worden de mu en de sigma
tekens gebruikt. Bij sample distributions worden deze
gecombineerd.
Q-Q plots/Quantile plots. Dit zijn grafieken die de
normaliteit van een distributie aantonen. een dataset kan
doormiddel van deze grafiek worden beoordeeld worden
op normaal zijn. Een normale distributie vrijwel perfect
rechte lijn. Is de grafiek sterk skewed, dan deze lijn. Is de
uitwijking van de bolling van de lijn naar links, dan is de
distributie skewed naar links, en bij een uitwijking naar
rechts het tegenovergestelde dus een skew naar rechts.
Kleine afwijkingen van de lijn waar onze distributie op
,basis van onze observaties, mee overeen moet komen zijn
niet heel erg, het wordt zelfs verwacht. Zeer sterke
afwijkingen duiden outliers aan.
, Hoofdstuk 2
Wat niet behandeld wordt in deze samenvatting:
R-waarden in scatterplots interpreteren
Vorm van patroon in scatterplots interpreteren
Outliers in scatterplots
Two-way tables
Heel secties 2.4, 2.5 (hoefden niet)
Verband tussen variabelen. 2 variabelen hebben een verband als de waarde van de ene wat vertelt over de
andere. Dit kan heel precies zijn of vaak een vrij nauwkeurige verwachting zijn. Als je iemand waarneemt die met
een pul in de smitse naar zijn maten ziet lopen, dan weet je ook dat hij meer heeft betaalt dan het biertje dat jij in
je hand hebt. Als jij weet dat je 1.50 betaalt voor je hertog-jan, en een bepaalde hoeveelheid bier krijgt, dan kan je
voorspellen dat een groter glas, een pul, duurder is. We gaan hier natuurlijk wel uit van dat volume en prijs lineair
en positief met elkaar gecorreleerd zijn.
Afhankelijke en onafhankelijke variabelen. In het boek staat er response variable en explanatory variable. Dit
betekent hetzelfde. Een afhankelijke variabele is de variabele die verandert als de onafhankelijke variabele wordt
veranderd. Een belangrijke eis is dat een ‘temporele volgorde’ is. de afhankelijke variabele verandert pas als de
onafhankelijke variabele wordt veranderd.
Labelen van scatterplots. Bij een scatterplot is het gebruikelijk dat je de response variabele, y, op de y-as zet. De
onafhankelijke variabele wordt op de x-as geplaatst. Je kan het zien als een lineaire vergelijking ax+b=y. het
veranderen van de x, de onafhankelijke variabele, zorgt voor verandering in y. de richtingscoefficient boeit niet in
deze context, maar heeft bij de richting van correlaties wel effect.
+/- correlaties. Een positieve correlatie betekent dat het toenemen van x zorgt voor een toename in y. een
negatieve correlatie betekent dat het toenemen van x zorgt voor een afname in y. stel je weer de lineaire
vergelijking voor. Ax+b=y, hier speelt de richtingscoefficient wel een rol, namelijk dat deze positief of negatief kan
zijn. Is deze negatief dan zorgt het ervoor de lijn afneemt in hoogte als x toeneemt, en het tegenovergestelde. De b
geeft aan hoe hoog je begint op de y-as, dus bij x=0.
Log-transformaties (niet erg belangrijk). Als er een curve aanwezig is in je scatterplot is het vaak handig om een
transformatie te doen ervan om een rechte lijn eruit te krijgen, meestal is een log-transformatie voldoende. De
waarden ervan worden eerst getransformeerd, zodat een rechte lijn eruit voortvloeit. Hoe dit werkt leren we nu
niet. Belangrijk om te weten is dat een log-transformatie jou alleen in staat stelt om een uitspraak te doen over de
aanwezige data. Je mag niet extrapoleren, dus voorspellingen doen over waarden die buiten de scatterplot vallen.
Categorische onafhankelijke variabelen. Heb je een categorische variabele als onafhankelijke variabele, gebruik
dan een boxplot en maak een boxplot van de waarden per categorie en zet deze naast elkaar om ze te vergelijken.
Pearson’s r berekenen. Als je de waarden voor 2 variabelen hebt gemeten kan je deze plotten in je grafiek. Als je
de 2 variabelen weet kan je deze naast elkaar zetten van boven naar beneden, volgorde maakt niet uit. Bereken
onderaan de kolom eerst de gemiddelde van je variabele. Deze noem je x-bar en y-bar. x̄ &Ȳ. Bereken nu de
variantie uit van de variabelen zoals uitgelegd in hoofdstuk 1 en neem daarvan de wortel om de standaarddeviatie
te weten. Rechts van elke waarde in de x-kolom en y-kolom (je onafhankelijke variabele en je afhankelijke
variabele) trek je het gemiddelde die je voor die variabele hebt berekend af, doe hetzelfde voor de andere kolom
en trek daarvan de gemiddelde van die variabele die je hebt berekend af. Je hebt nu 2 nieuwe kolommen. Deel
elke waarde apart door de standaarddeviatie die je voor die variabele hebt berekend. Je hebt nu weer 2 nieuwe
kolommen. De uiteindelijke waarden die je voor x1 hebt berekend vermenigvuldig je met de waarden die