100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached
logo-home
Samenvatting - Statistiek II voor de Sociale Wetenschappen (000097) $17.98   Add to cart

Summary

Samenvatting - Statistiek II voor de Sociale Wetenschappen (000097)

1 review
 89 views  8 purchases
  • Course
  • Institution

Deze samenvatting bestaat uit 10 hoofdstukken: (1)Basisconcepten statistiek, (2) Kansrekenen, (3) Kansverdelingen, (4) Steekproevenverdeling & centrale limietstelling, (5) Hypothesetoetsen (6) Betrouwbaarheidsintervallen (7) Inferentie voor proporties, (8)Inferentie voor gemiddelden, (9) Bivariate ...

[Show more]

Preview 4 out of 110  pages

  • September 2, 2023
  • 110
  • 2022/2023
  • Summary

1  review

review-writer-avatar

By: 7am1r4 • 1 year ago

Translated by Google

very satisfied with this summary, everything you need actually

avatar-seller
In onze maatschappij worden er voortdurend enorme hoeveelheden, ook wel data genoemd, verzameld

o Verschillende bedrijven, overheden en organisaties verzamelen gegevens over de meest uiteenlopende
dingen (bv. facebook, google …)
o Deze zijn alleen maar nuttig als er technieken zijn om die gegevens te structureren, te ordenen, te
beschrijven en samen te vaten
 Een stap verder is om op zoek te gaan naar trends, patronen en verbanden
o Statistiek is de hele wetenschap om data te verzamelen, te ordenen, te analyseren, te interpreteren en te
presenteren

Statistiek geeft inzicht op de complexe en onzekere realiteit, uitzonderingsbubbel te doorprikken, empirie te
gebruiken op beweringen of meningen en weerbaar te zijn in een samenleving gedreven door cijfers (= “data-driven”)

o Beweringen op zich zijn niet voldoende, nood aan empirie
o Niet zomaar data verzamelen, maar volgens regels van de kunst (= Inleiding onderzoeksmethoden)
o Niet zomaar data analyseren, moet juiste techniek en met ruimte voor onzekerheid (= Statistiek II)


Bv. wetenschappelijk onderzoek waarbij we geïnteresseerd zijn in alle inwoners van België. Dan is elke inwoner van
België een onderzoekseenheid, en de groep van alle inwoners van België noemen we de (onderzoeks)populatie

o De is dus de volledige groep van alle onderzoekseenheden (vaak personen)
 Als onderzoek bij scholen en eigenschappen van scholen, dan zijn de scholen de onderzoekseenheden
 Ben je een econoom met een focus op bedrijven en hun performantie, dan zijn bedrijven en hun
kenmerken de onderzoekseenheden
 Alle personen die in de loop van het jaar 2021 gedetineerd waren in België = percentage recidivisten
 Alle studenten hoger onderwijs in Vlaanderen in 2021 = percentage studenten criminologie
o Als er info is over alle onderzoekseenheden in de volledige populatie, dan is dit percentage een
(populatie)parameter (= eigenschap gemeten bij de volledige onderzoekspopulatie)

Wanneer we geen informatie hebben over alle onderzoekseenheden in een populatie, dan hebben we nog een tweede
strategie: we nemen een uit de onderzoekspopulatie en verzamelen gegevens bij de geselecteerde
onderzoekseenheden in de steekproef


= subset/selectie uit de volledige groep van onderzoekseenheden in de populatie

o Moet dus dezelfde karakteristieken hebben als van populatie die het vertegenwoordigt (representativiteit)
o Voor vele statistische technieken moet dit een eenvoudige aselecte toevalssteekproef (EAS) zijn (SRS -
‘simple random sample’)
 Dit is een waarbij elke onderzoekseenheid in de populatie een gelijke kans
verschillend van nul, om geselecteerd te worden
o Kengetallen die we meten in de steekproef → (steekproef)statistieken

, o Niet-systematische steekproeffouten (= betrouwbaarheid)
o Systematische steekproeffouten (= geldigheid)
 Selectiebias (manier van selecteren van respondenten geeft vertekend beeld, geen toeval)
 Non-respons bias (zij die deelname weigeren verschillen systematisch van de respondenten)
 Item non-responsbias (niet ingevuld, sampling bias)




Bv. onderzoekspopulatie van alle Belgen + toevalsteekproef uit deze populatie. Als willen weten hoe Belgen denken
over politiek, wat hun visie is over migratie of in welke mate ze sociale media gebruiken, dan kunnen we die informatie
niet zomaar halen uit bestaande administratieve bronnen van de overheid

o We hebben in dat geval geen rechtstreekse informatie over de volledige populatie
o Het is onmogelijk om alle inwoners van België te bevragen om die informatie te verzamelen
o De oplossing is dan om uit de volledige populatie een toevalssteekproef te trekken van een beperkte groep
van onderzoekseenheden, dus door 10.000 mensen te bevragen i.p.v. 11 miljoen

Dit is een , het is een subset van onderzoekseenheden uit de populatie selecteren (= steekproef)
en deze bevragen over de bedoeling om iets te weten over de hele populatie


= beschrijven van de verzamelde gegevens

o Dus: gaan uitspraken doen over de onderzoekseenheden die bevraagd werden
o Verzameling, organisatie en presentatie van de data en deze dan beschrijven
o Samenvatten van gegevens (a.d.h.v. statistieken, grafieken, tabellen, ...) om globale patronen en kenmerken
te ontdekken
 Centrummaten (gemiddelde, modus, mediaan)
 Spreidingsmaten (standaardafwijking, variantie,
interkwartielafstand)
 Grafieken: histogrammen, taartdiagram, boxplots …

Voorbeeld. Grafiek opinie rond invoeren doodstraf bij jongeren tussen 15-
30 jaar in Vlaanderen (in %), gebaseerd op een steekproef van 3000
jongeren


o Veralgemeenbaarheid van resultaten in de steekproef naar de populatie → conclusies trekken m.b.t. de
populatie = van de resultaten
 Significantie vertelt ons over de veralgemeenbaarheid van steekproefresultaten naar de populatie,
niet over de sterkte of grootte van de resultaten
 Zijn dus statistische technieken om te bepalen in welke mate de resultaten van een steekproef, mogen
veralgemeend worden naar de populatie = significante resultaten
o Het maakt gebruik van kansrekenen en kansverdelingen (HOC 2 en 3), en de theoretische basis van de
steekproevenverdeling en centrale limietstelling (HOC 4)

, Twee technieken

o Hypothesetoetsen (HOC 5)
o Betrouwbaarheidsintervallen (HOC 6)




Variabelen zijn kenmerken die we bij onze onderzoekseenheden (“cases”) meten of bevragen. Het feit dat het variabel
(variërend) is, is cruciaal, want de kenmerken die we meten en vaststellen kunnen meerdere waarden aannemen

o Bv. variabele geslacht, leeftijd, inkomen, oogkleur … heeft meerdere antwoorden
o Vooral cijfers, maar ook tekst (“string”-variabelen in SPSS) die eventueel worden gecodeerd naar een
numerieke waarde
o Nood aan definiëring en operationalisering van concepten (bv. leeftijd, geslacht, armoede, gezondheid)
 Kenmerken van onderzoekseenheden omzetten naar meetbare variabelen
 Het heeft een grote impact op de resultaten van de data-analyse


o Kwalitatief of categorisch: variabelen die categorieën of groepen onderscheid in de data, zonder verdere
wiskundige betekenis
 De variabele geslacht of opleidingsniveau is kwalitatief omdat ze kan gebruikt worden om
onderzoekseenheden in groepen in te delen
o Kwantitatief of metrisch: variabelen die kwantificeren, ze laten toe om te tellen en te rekenen, waarden
variabele wijst dus op een wiskundige betekenis zoals temperatuur en inkomen
 Discreet: (beperkt aantal) gehele getallen, resultaat van telling of classificatie (bv. aantal auto’s per
gezin, kan geen kommagetal zijn)
 Continu: variabele kan alle waarden aannemen (bv. lichaamslengte, snelheid)

:

o Nominaal: categorieën zonder ordening, elke
categorie heeft een numerieke waarde, waar de
doel alleen is om de waarde te benoemen en te
classificeren
o Ordinaal: categorieën mét ordening (opleiding)
o Interval: heeft een rangorde en een meeteenheid, kan verschillende waarde van de variabele met elkaar
vergelijken door het interval te bekijken (wiskundige waarde), maar heeft geen absoluut nulpunt
(geboortejaar)
o Ratio: interval tussen waarde heeft betekenis, wél absoluut nulpunt (0 = 0)
 Er kan gerekend worden, uitgebreid wiskundig rekenen met de waarden zoals leeftijd

, Een frequentieverdeling is een van de meest eenvoudige maar meteen ook een van de meest fundamentele
manieren om een variabele te verkennen

o Gaat kijken welke verschillende waarden de variabele aanneemt in je data, en hoe vaak elk van de mogelijke
waarden voorkomt, uitgedrukt in absolute of relatieve aantallen
o Het verkennen van variabelen aan de hand van frequentietabellen is een onontbeerlijke stap alvorens verdere
dataverwerking aan te vatten


De absolute frequentie (Fxi) is het aantal keer dat een bepaalde waarde xi werd waargenomen voor de variabele X

o In totaal zijn er n antwoordcategorieën
o Elke antwoordcategorie voor de variabele X is dus een waarde xi en voor elke waarde xi heb je een absolute
frequentie Fxi
o De som van de absolute frequenties is gelijk aan de steekproefgrootte N: ∑𝑛𝑖=1 𝐹𝑥𝑖 = 𝑁
 is dus de steekproefgrootte of het 'effectief' van de steekproef of populatie


De absolute frequentie in een frequentietabel is niet altijd eenvoudig te interpreteren. Het is daarom vaak interessant
om ook de relatieve frequentie (fi) te bepalen

o De relatieve frequentie (fi) wordt bekomen door de absolute waarden te delen door de steekproefomvang of
𝑓𝑖
het 'effectief': 𝑓𝑖 =
𝑁
o Wanneer je alle relatieve frequenties bij elkaar optelt, dan krijg je steeds de waarde 1
𝐹1 𝐹2 𝐹𝑛 𝑁
 ∑𝑛𝑖=1 𝑓𝑖 =
𝑁
+ 𝑁
+ …+ 𝑁
=𝑁=1


o Vanaf het ordinale meetniveau kunnen we voor variabelen cumulatieve frequenties bepalen
o Om de cumulatieve frequenties te berekenen, tellen we voor elke waarde xi de absolute frequentie op bij de
absolute frequenties van de voorgaande waarden xi
o We kunnen dit schrijven als: 𝐾𝑥𝑖 = ∑𝑥𝑗≤𝑥𝑖 𝐹𝑥𝑗


Net als voor de absolute frequenties, kunnen we ook voor de relatieve frequentie een cumulatieve frequentie bepalen
→ we kunnen dit schrijven als: 𝑘𝑥𝑖 = ∑𝑥𝑗≤𝑥𝑖 𝑓𝑥𝑗


o Een frequentietabel is een eenvoudige maar zeer krachtige manier om variabelen snel te verkennen
o Soms biedt een grafiek echter een sneller inzicht in de frequentieverdeling van een variabele
 Bovendien laat een grafiek het toe om snel anomalieën in de gegevens te detecteren
o Het effectief en efficiënt kunnen voorstellen van statistische gegevens a.d.h.v. grafieken, maar ook het
correct lezen en interpreteren van grafieken is een basisvaardigheid
o Belangrijke grafieken: staafdiagram (categorisch), taartdiagram (categorisch), histogram (metrisch) en
lijndiagram (evolutie)

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

Quick and easy check-out

You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller SweetWinny. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $17.98. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

75759 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy study notes for 14 years now

Start selling

Recently viewed by you


$17.98  8x  sold
  • (1)
  Add to cart