Samenvatting VC Inleiding Statistiek TiU 2023/2024
11 views 2 purchases
Course
Inleiding Statistiek
Institution
Tilburg University (UVT)
Overzichtelijke en uitgebreide Nederlandse samenvatting voor het vak Inleiding Statistiek (Tilburg University, jaar 1), collegejaar 2023/2024.
Deze samenvatting bevat alleen de VIDEOCOLLEGES!!
,Inleiding sta,s,ek
Week 1
Wat is sta)s)ek?
Sta$s$ek: de wetenschap van data verzamelen, analyseren, blootstellen en interpreteren. Hiermee
wordt NIET bedoelt: staJsJek als een verzameling van gegevens.
Wat we zien VS wat er echt is
Het groene vak laat zien wat een mens waarneemt. Hierdoor ontstaat
er een negaJeve relaJe tussen de kwaliteit van een boek en de
kwaliteit van de film (gele lijn)
Om dit te kunnen begrijpen heb je een staJsJsch
redeneringsvermogen nodig. Daarom dat we staJsJek krijgen!
We krijgen staJsJek om de wereld om ons heen beter te begrijpen. De
wereld bestaat voortaan uit een grote hoeveelheid data.
Stel je wil weten of eenzaamheid toenam Jjdens de lockdown of je wil weten hoeveel gevaarlijker
COVID-19 is voor mensen met kanker. StaJsJek is de ENIGE manier om deze vragen zinvol te
benaderen!
Twee houdingen tegenover staJsJek:
1. StaJsJek als gereedschap
• Je gebruikt het om je doel te dienen (bv. Een inferenJe maken op basis van data)
• Je hebt een pragmaJsche relaJe met staJsJek (bv. Om onderzoek te doen en de wereld
te begrijpen)
2. StaJsJek als discipline
• Over het verbeteren van staJsJek
• Over betere manieren om gegevens te modelleren, conclusies te trekken, onzekerheid te
kwanJficeren
• Vooral nu: het begrijpen van enorme hoeveelheden data (gebruik nooit de term Big Data)
Benaderingen van staJsJeken
• Beschrijvende sta$s$ek (Descrip$ve) = staJsJsche procedures die worden gebruikt om
gegevens samen te va\en, te ordenen en te vereenvoudigen.
- Vb. Spaanse vrouw is gem. 1,63m lang
- Bijv. De rijkste 1% bezit 50% van de aandelen in bedrijven
• Inferen$ële sta$s$ek (Inferen$al) = bestaat uit technieken waarmee we steekproeven
kunnen bestuderen en vervolgens generalisaJes kunnen maken over de populaJes waaruit
ze zijn geselecteerd. InferenJe ~ gevolgtrekking
Constructen vs opera)onaliseringen
2
,Discrete vs con)nue variabelen
Sommige variabelen kunnen slechts uit een beperkt aantal categorieën bestaan:
• Geslacht, oogkleur, moedertaal
• Maar ook: aantal huisdieren, aantal broers en zussen, hoe vaak op vakanJe geweest
Discrete variabelen: er kan geen waarde zijn tussen 1 en 2 huisdieren
Andere variabelen kunne alle waarden tussen twee punten aannemen:
• Inkomen, lengte, gewicht, snelheid (lengte kan in principe uitgedrukt worden als
1,7536289740 m)
Con$nue variabelen: de waarde (bijv. 1,75 m) is dus eigenlijk een interval
Het meten van variabelen
1. Nominale schaal
• Benoemde categorieën (bv hond, kat, hamster)
• Geen kwanJtaJef onderscheid tussen categorieën (je kunt niet zeggen een hond is meer dan
een kat)
• Geen nul!
2. Ordinale schaal
• Gerangschikte categorieën (bv 1e, 2e,3e)
• Geen gelijke afstand tussen de rangen
• Geen nul!
3. Intervalschaal
• Bestaat uit even grote intervallen tussen waarden
• Elk eenheid heec dezelfde groo\e
• Vb. temperatuur:
o Van 21 tot 26
o Van 1°C naar 6°C
Þ Hebben beide hetzelfde verschil
• Maar: geen echt nulpunt! (Willekeurig gekozen) → Maar 0°C bestaat wel
4. Ra$o scale
• Bestaat uit even grote intervallen tussen waarden
• Elke eenheid heec dezelfde roo\e
• Maar nu hebben we wel een absolute nul
• Bijv. afstand: een afstand va betekent dat je fiets niet van posiJe is veranderd
Data weergeven
Voorbeeld discrete variabelen: Hoeveel huisdieren heb je?
→ We vragen 10 mensen. Zij geven ons het aantal huisdieren dat momenteel in hun huishouden leec
• Construct: aantal huisdieren
• OperaJonalisering: het aantal huisdieren dat momenteel in het hoofdhuishouden van een
persoon woont
We willen wat meer structuur
Frequen$e(s) van waarden: Tellen hoe vaak elke opJe voorkomt
→ Dwz hoeveel mensen hebben 0, 1, 2, …huisdieren?
Een gestructureerde tabel wordt dan een frequenJeverdelingstabel genoemd
3
, Probleem frequenJeverdelingstabel
ConJnue variabelen
Idee:
We bundelen enkele waardebereiken samen.
We kunnen hier waarschijnlijk wat meetprecisie verliezen.
Voorbeeld:
o Laag (0-25000)
o Midden (25001-50000)
o Boven-midden (50001-75000)
o Hoog (75001+)
Tabellen vergelijken
Is dit Ideaal?
Wat als we deze twee data verzamelingen hebben?
1. Aantal huisdieren (n = 10)
2. Aantal huisdieren (n = 10000)
Wat verwachten we? n = 10000 n = 10
Histogram
Histogram (proporJes)
4
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller tshamanandhar. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $4.39. You're not tied to anything after your purchase.