Samenvatting blok 1.3
Hoofdstuk 1 – Looking at data – distributons
Case (zaak) = objecten beschreven in een set van data. Bijv. klanten, bedrijven, proefpersonen enz.
Label = een speciale variabele die in sommige data sets gebruikt wordt om onderscheid te maken
tussen verschillende cases. Bijv. 1 = goedkoop, 2 = gemiddeld, 3 = duur.
Variable (variabele) = een kenmerk van een case.
Categorical variable = een case wordt geplaatst in een bepaalde groep of categorie.
Nominaal = bij nominaal is er geen niveauverschil tussen de categorieën (man/vrouw)
Ordinaal = bij ordinaal is er wel een niveauverschil tussen de categorieën (opleiding)
Quanttatve variable = hierbij worden numerieke waarden gebruikt, waarbij wiskundige termen
kunnen worden gebruikt (optellen, gemiddelde)
Rato = bij rato is er een nulpunt aanwezig (leetijd, percentages)
Interval = bij interval is er geen nulpunt aanwezig (IQ, tjd)
Distributon of a categorical variable = maakt categorieën en geet aantal of percentage aan van
cases per categorie.
Units of measurement = deze term wordt gebruikt om ons te vertellen hoe een variabele wordt
gemeten. (Tijd = minuten, seconden)
De volgende vragen moet je stellen wanneer je een onderzoek gaat doen:
1. Wie? Welke cases beschrijven de data? Hoeveel cases bevat de dataset?
2. Wat? Hoeveel variabelen bevaten de data? Wat zijn de exacte defnites van deze variabelen?
Wat zijn de units of measurement voor deze variabelen?
3. Waarom? Wat is het doel van de data? Willen we antwoord geven op bepaalde vragen? Etc.
Je kan 1 variabele bijstellen om een andere variabelen te creëren. (Denk aan: gemiddeldes).
De verdeling van een categorische variabele geet de categorieën weer, en tevens het aantal of
percentage van de cases per categorie. Dit kun je weergeven met een:
1. Bar graph = staafdiagram
2. Pie charts = cirkeldiagram
3. Stemplot = stamdiagram. Hoe maak je deze? Verdeel elke observate in een ‘stam’ bestaande uit
alle (excl. laatste) cijfers (leafs). Enz. (blz 13).
Wanneer je een grote data set hebt, is het lastg om een stemplot te gebruiken. Gebruik dan:
4. Histogram. Gebruik histograms van percentages wanneer je verschillende verdelingen wilt
vergelijken met verschillende observate aantallen.
EXAMINING DISTRIBUTIONS
- Kijk naar het overall patern en kijk naar opvallende afwijkingen van dat patroon
- Beschrijf het patroon met shape (vorm, modes/unimodaal, symmetrisch/skewed), center
(middelpunt, waar?) en spread (verdeling, min. max., outliers?).
- Let op outliers, individuele waarden die buiten het patroon vallen.
Een tme plot van een variabele zet elke observate uit tegen de tjd op welke deze gemeten was. Zet
tjd altjd uit op de HORIZONTALE as van je plot en de variabele op de VERTICAALE as.
Mean (gemiddelde) = alle observates bij elkaar opgeteld / aantal observates.
,Een gemiddelde kan de invloed van extreme observates niet weerstaan, vandaar dat we zeggen dat
het geen resistante metng van center is. (Ook wel: robuuste metngg
Median M (mediaan) = middenpunt van een verdeling.
First quartle Q1 = mediaan van de observates die ua posite LINKS van de mediaan liggen.
Third quartle Q3 = mediaan van de observates die ua posite RECAHTS van de mediaan liggen.
Five-number summary = minimum, Q1, M, Q3, maximum boxplot.
Modifed boxplot = 1.5 x IQR gebruiken om outliers aan te duiden, met IQR = Q3 – Q1.
Side-by-side boxplot = meer boxplots in zelfde grafek om groepen te vergelijken.
Interquartle range (IQRg = afstand tussen Q1 en Q3. IQR = Q3 – Q1
Outliers worden berekend door 1.5 x IQR te doen.
Variance s2 = gemiddelde van het kwadraat van de afwijkingen van de observates van hun
gemiddelde. (x1 – x gem.) + (x2 – x gem.) enz. / n-1.
Standaard deviate s = wortel van variance. Deze is – wanneer er geen spreiding is en deze groter
wordt als de spreiding toeneemt.
- SD meet de spreiding over de mean en wordt alleen gebruikt wanneer de mean is gekozen als
centrum.
- SD = 0 wanneer er geen spreiding is en alle observates dus dezelfde waarde hebben. Anders SD > 0.
- SD is niet resistant. Een paar outliers kunnen SD heel groot maken.
Density curve (dichtheid) = een curve die altjd op of boven de horizontale as ligt en die een
oppervlakte daaronder van precies 1 heet (100%)
- Median van een density curve is het punt dat de oppervlakte onder de curve doormidden deelt.
- Mean van een density curve is het punt waarop de curve zou balanceren als het van solide
materiaal was.
Normal distributon (normale verdeling) = symmetrisch, eentoppig en in de vorm van een bel.
- Median & Mean zijn gelijk, in t midden.
- 68 -95-99,7 rule: ongeveer 68% vd observates ligt tussen s en gemiddelde. Ongeveer 95% vd
observates ligt tussen 2s en gemiddelde. Ongeveer 99,7% vd observates ligt tussen 3s en
gemiddelde.
- standard Normal distributon = gemiddelde = 0, s = 1.
Standardized score/z-score = z = x – gemiddelde / standaarddeviate.
Worked example 1
I.The EI construct is pivotal to Sammy’s study.
- Give a general defniton or descripton of a construct. Then indicate what observable behaviour
matches low and high EI respectvely.
- CAonstruct = soort ‘eenheid’ afgeleid van metngen/gedrag. Bijvoorbeeld: IQ, geheugen.
High = emotonele stabiliteit, inleving in emotes (van anderen), expressie etc.
- Explain how you could measure this behaviour (i.e. come up with an operatonal defnitong.
- Meten door tests, observates etc.
II. Sammy measures EI using the Mayer Salovey Caruso Emotonal Intelligence Test (MSCEITg. This
test consists of more than 100 items divided into 4 categories, namely: identifying emotions, using
,emotions, undessannding emotions, and mnnnging emotionss The partcipant will receive a score
on each of these four categories. The partcipant will then also receive a total score. The following
page shows some examples of the items used in the MSCEIT. Examine these items and then answer
the below questons for this problem.
- For Sammy, it is important that all the MSCEIT scores are reliable for both the four categories and
the total score. Explain what reliability means.
- Reliability = hoe herhaalbaar zijn de resultaten? Ervan uit gaan dat je een vaste waarde hebt
waarde blijt ongeveer gelijk wanneer je deze test herhaalt.
- Now explain what the relatonship is between selinbiliay and snndom mensusemena essos.
- Lage reliability komt door invloeden van buitenaf (afeiding). Heet invloed op 1 vraag =
onsystematsche variate = random measurement error. Fouten die invloed hebben op het moment
dat test wordt gemaakt (‘niet zo lekker’) hebben invloed op alle vragen en daarom GEEN invloed op
de reliability, want de resultaten zijn gelijk.
- Finally, explain why it is important that the MSCEIT scores should be reliable.
- Belangrijk omdat de verkeerde conclusie kan worden gesteld.
III. Now suppose that the MSCEIT total score is 85 for Pete and 93 for Claus.
- Explain what the diference in both scores means if the reliability of the MSCEIT is high and also if
reliability is low.
- Hoge R = CAlaus: hogere El dan Pete
- Lage R = je kan niks zeggen over het verschil
- On examining the examples of MSCEIT items below, do you think that the MSCEIT is a valid
measure (in terms of fnce vnlidiay and consasuca vnlidiayg of EI? Please substantate your answer.
- Validity = meten wat je wilt meten test die wordt afgenomen in bepaalde situate. Face validity =
validiteit op het eerste gezicht. CAonstruct validity = validiteit als je kijkt naar score op schaal.
(Milgram: face: laag, want er wordt iets anders verteld dan gemeten wordt. CAonstruct: hoog, want
uiteindelijk wordt het juiste gemeten.)
- Also explain what the relatonship is between reliability and validity.
- Je test kan reliable zijn en niet valide (IQ weegschaal). Als een test valide is, is ie altjd
betrouwbaar.
IV.
- What do you think the rows and columns in the dnan view represent?
- Data view: rijen = personen, kolommen = waarde van de variabelen.
- What do you think the rows and columns in the vnsinble view represent?
- Variable view: rijen = variabelen, kolommen = informatve over die variabelen.
V.
- The data fle EIssnv shows the Sex, Ed. and Age variables. Indicate whether each of these three
variables is categorical or quanttatve and their levels of measurement (nominal, ordinal, rato, or
intervalg.
- Geslacht = categorisch nominaal, want je kan geslacht niet meten en er is geen niveauverschil
tussen man/vrouw.
- Opleidingsniveau = categorisch ordinaal, want je kan opleiding niet meten en er is een
niveauverschil tussen laag/hoog.
- Leetijd = kwanttatef/scale rato, want je kan leetijd meten en er is een nulpunt.
, VI.
An important step in any study or survey is describing the characteristcs of the partcipants in the
sample. In Sammy's study these were described for each of the groups of partcipants, i.e. healthy
people, BPD patents and PD patents.
Perform the SPSS procedure and take a look at the gender distributon, level of schooling and age.
Indicate to what extent the three groups difer from each other for these three demographic
variables.
Z = x – mu / SD
= 136 –
= 2.4
Tabel A: 0.9918
1-0.9918 = 0.0082, dus ongeveer 0.8%.
Hoofstuk 2 – Looking at data – Relatonships
Response variable = meet de uitkomst van een onderzoek (ook wel dependent variables genoemd)
Explanatory variable = veroorzaakt veranderingen in de response variable (ook wel independent
variables genoemd)
Dus EV RV.
Scaterplot = laat relate zien tussen 2 kwanttateve variabelen die gemeten zijn bij hetzelfde
individu. Explanatory variable = x, response variable = y.
Om een scaterplot te beschrijven kijk je naar de vorm: lineaire relates, waar een rechte lijn ontstaat
tussen de punten. Er zijn ook curved relates. Richtng: positeve/negateve associate. Sterkte:
wordt bepaald door hoe dicht de punten aan bijv. een lijn liggen.
Correlaton r = meet de richtng en sterkte van een lineair verband tussen 2 kwanttateve variabelen.
(voor formule zie blz. 104). R > 0: positef. R < 0: negatef. Perfect, r = + 1.
Regression line = een rechte lijn die beschrijt hoe een response variable y verandert als een
explanatory variable x verandert. Hiermee voorspellen we de waarde van y voor een gegeven x.
y = b0 + b1x
Slope = hoeveelheid waarmee y verandert als x met 1 toeneemt. (b1 b1 = r * sy/sx)
Intercept = waarde van y als x 0 is (b0 b0 = gem. y – b1x) (blz. 115)
Error = observed diference – predicted diference
Square of the correlaton, r2 = fracte van de variate in de waarden van y die worden veroorzaakt
door de least-s uares regression van y op x.
Residual = verschil tussen geobserveerde waarde van een response variable en de waarde voorspeld
bij de regression line: observed y – predicted y.
The mean of the least-squares residuals is always zero.
Lurking variable = een variabele die niet bij de explanatory of response variables in een onderzoek is
opgenomen, maar mogelijk wel invloed uitoefent op de interpretate of de relates tussen die
variabelen. (Third-variable problem).
Two-way table = aantal observates bij 2 categorische variabelen (bijv. met re uirement voor 5-10 en
11-13 jarigen). Row variable = horizontale rij beschrijt of re uirement was met of niet. Column
variable = vertcale kolom beschrijt een leetijdgroep. Blz. 140
Joint distributon = cel delen door totaal aantal observates.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller studenterasmus. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $7.51. You're not tied to anything after your purchase.