Uitgebreide samenvatting beschrijvende statistiek (UVA) incl. lesstof boek, hoorcolleges, artikelen EN oefenvragen + uitwerkingen met handige tips!!!
38 views 0 purchase
Course
Beschrijvende statistiek (70110102AY)
Institution
Universiteit Van Amsterdam (UvA)
Book
Statistics
Deze samenvatting bevat niet alleen de lesstof uit het boek (The Art and Science of Learning from Data), maar ook de lesstof uit de hoorcolleges met de oefenvragen die daarin zijn voorgekomen (uiteraard met de juiste antwoorden). Het is erg handig om zo niet alleen de stof te leren, maar ook te oef...
College 1
H1 Gathering and exploring Data
1.1 Using Data to Answer Statistical Questions
Leerdoelen college:
- Begrip van fundamentele begrippen (steekproef & populatie, variabele, ‘statistic’ en parameter,
beschrijvende & toetsende statistiek).
- Een passende centrummaat bij het type variabele kiezen en berekenen.
- Data grafisch weergeven op een manier die past bij het type variabele.
Data: de informatie die we verzamelen d.m.v. experimenten en surveys.
Statistics: het ontwerpen van onderzoeken & analiseren van data die deze onderzoeken bieden.
➢ Formuleer een statistische vraag - Verzamel data - Analyseer de data - Interpreteer de resultaten.
Drie onderdelen van statistics (voor beantwoorden van een statistische vraag):
1. Design: plannen hoe de data te verzamelen om de vraag te beantwoorden.
2. Description: samenvatten en analyseren van de verzamelde data (patronen vinden).
3. Inference (toetsen): keuzes en voorspellingen maken gebaseerd op de data voor beantwoorden vraag.
Probability: de basis voor bepalen hoe waarschijnlijk verschillende mogelijke uitkomsten zijn.
1.2 Sample Versus Population
Subjecten: de entiteiten die we meten in een onderzoek (mensen, scholen, landen, dagen).
Populatie: de set van alle subjecten waarin je geïnteresseerd bent in je onderzoek.
Sample (steekproef): meestal gebruik je alleen data van enkele subjecten uit de populatie, vaak random.
Census: als wel alle data van de hele populatie beschikbaar is.
Beschrijvende statistiek: verwijst naar de methoden voor het samenvatten van de verzamelde data (kan zowel
van een sample als van een populatie zijn). Bestaat vaak uit grafieken en nummers (zoals gemiddelde en %).
- Statistics (steekproefwaarden): beschrijven en samenvatten van je data, met name in je steekproef.
Toetsende statistiek: verwijst naar de methoden voor het maken van beslissingen of voorspellingen over een
populatie, gebaseerd op de verzamelde data vanuit een sample.
- Het gebruiken van de statistics om iets te zeggen over de populatiewaarden = parameter.
Parameter: een numerieke samenvatting van de populatie. Vaak is deze echter onbekend.
Statistic: een numerieke samenvatting van een steekproef (uit de populatie). Gebruiken om de
parameterwaarden te schatten.
Random sampling: iedereen heeft dezelfde kans heeft om mee te doen in die sample. Wordt gebruikt om
de sample representatief te maken van de populatie.
Iedere sample zal weer iets van elkaar verschillen. Maar met een aselecte steekproef kan de
hoeveelheid variabiliteit wel voorspelt worden tussen de verschillende steekproeven.
Margin of error: geschatte meting waarvan de ene steekproef zal verschillen tot de andere steekproef in
eenzelfde onderzoeksdesign/setting.
Statistically significant: een onderzoek is statistisch significant wanneer het geobserveerde verschil
waarschijnlijk door het effect van je manipulatie komt (anders dan door confounders).
1.3 Using Calculators and Computers
Data files: gebruiken om statistische analyses makkelijker te maken. Hierbij twee basisregels (voor opzetten
van een databestand):
1. Rijen: bevatten de metingen van een bepaald subject.
, 2. Kolommen: bevatten de metingen voor een bepaald kenmerk.
Databases: als je in je onderzoek gebruik maakt van bestaande archieven van databestanden.
H2 Exploring Data with Graphs and Numerical Summaries
2.1 Different Types of Data
Variabiliteit: alles en iedereen is anders. Statistische methoden geven een manier om de variabiliteit te meten
en begrijpen.
Variabelen: een kenmerk/eigenschap die geobserveerd is in een onderzoek.
Observatie: de datawaarden die we observeren voor een variabelen, elke observatie kan een nummer zijn of
een categorie. Grafieken en numerieke samenvattingen beschrijven de belangrijkste functies van een variabele.
Categorical variable: wanneer elke observatie hoort bij een van een set van categorieën. Belangrijkste
functie: beschrijven van het relatieve aantal observaties in de verschillende categorieën.
- De categorie met hoogste frequentie is de modale categorie.
o Modale categorie = frequentie - correct
De proportie van de observaties die vallen in een bepaalde
categorie is de frequentie (telling) van observaties in die
categorie, gedeeld door het totaal aantal observaties.
Het percentage is de proportie keer 100.
Proporties en percentages worden relatieve frequenties
genoemd, dienen als manier om de metingen in categorieën samen te vatten.
Quantitative (numerical) variabele: als observaties een numerieke hoeveelheid aannemen, die
verschillende magnitudes representeren op die variabele. Belangrijkste functies: beschrijven centrum en
de variabiliteit (spreiding) van de data.
De numerieke waarde (categorie) met de hoogste frequentie is de modus.
Een frequentietabel hierbij vaak de mogelijke waarden gedeeld in een set van intervallen, en
weergegeven van het aantal observaties in een bepaalde interval.
o Discrete kwantitatieve variabele: als de mogelijke waarden een set van losstaande nummers vormen.
Meestal een telling ergens van (het aantal kinderen van een gezin. 2,2 kan niet, alleen vaste waarden).
o Als er “afgerond” staat bij hele minuten is het ook discreet.
o Continue kwantitatieve variabele: als de mogelijke waarden een interval vormen. Meestal oneindig
veel mogelijke waarden. Alle tussenliggende waarden hebben wél betekenis (iemand is 147,847 cm).
• Distribution (of a variable): beschrijft hoe de observaties zijn verspreid over de mogelijke waardes.
• Frequency tabel: eerste stap in numeriek samenvatten van de data is door te kijken naar de mogelijke
waarden en tellen hoe vaak elke zich voordoet.
2.2 Graphical Summaries of Data
Grafieken voor categorische variabelen
1. Pie chart: een taartpunt voor elke categorie, de grootte van de punt correspondeert met het percentage
observaties in de categorie.
o Do I like shopping? Yes – Yes but in another color
2. Bar graph (staafgrafiek): een verticale staaf voor elke categorie, de hoogte van de staaf is het percentage
observaties in de categorie. Vaak zijn de staven los van elkaar (niet tegen elkaar aan).
o Frequentie weergeven op Y-as óf voor een percentage gaan.
o Een histogram lijkt hierop, maar daar staan de staven tegen elkaar aan & klassen/intervallen.
3. Pareto chart: een staafgrafiek waarbij de categorieën worden geordend door hun frequentie, beginnend
met de hoogste staaf.
Pareto principle: een kleine subset aan categorieën bevatten meestal de meeste observaties.
,Grafieken voor kwantitatieve variabelen
1. Dot plot: geeft een stip voor elke observatie, geplaatst boven de waarde op de getallenlijn. Geeft dus de
individuele observaties weer. Aantal stippen boven een waarde representeert de frequentie van die
waarde.
2. Stem-and-Leaf Plots (stam- en blad plots): geeft ook alle individuele observaties weer. Iedere observatie is
gerepresenteerd door een stam en een blad. De data wordt geordend van klein naar groot, alle stammen
komen in een kolom, beginnend met de kleinste. In de andere kolom komen de bladen, noteren in
oplopende volgorde.
Stam: bevat vaak alle getallen behalve de laatste. Blad: het laatste getal.
o Lijkt op dot plot, maar dan gedraaid. Met een stam en blad plot is het vaak makkelijker om de
exacte waarden van een observatie af te lezen. Maar over het algemeen krijg je bij beide dezelfde
informatie.
o Met beide is het makkelijk om de originele data te reconstrueren (omdat het individuele
observaties weergeeft). Dit wordt echter te veel werk bij grote datasets.
3. Histogram: een grafiek die staven gebruikt om de frequenties (of de relatieve frequenties) van de
mogelijke uitkomsten weer te geven. De waarden van individuele observaties gaan vaak verloren.
Voor een discrete variabele: de histogram gebruikt dan vaak losstaande staven voor elke mogelijke
waarde.
Voor een continue variabele: daarvoor de mogelijke waarden opdelen in intervallen. Dan wel de
staven tegen elkaar aan gezet.
Verdeling: een grafiek voor een dataset beschrijft de verdeling van de data, de waarden die de variabele
aanneemt en de frequentie waarin elke waarde zich voordoet. De dataverdeling kan ook beschreven worden
door een frequentietabel.
Dingen om te bekijken in een dataverdeling:
▪ Algemene patroon: clustert de data samen, of is er een gat (uitschieters)?
▪ Is er een heuvel (unimodaal), waarbij de hoogste punt de modus is? Of zijn er twee heuvels (bimodaal)?
▪ De vorm: is de verdeling symmetrisch (symmetric) of is hij scheef (skewed)?
Time series: data die verzameld is over tijd.
Time plot: grafische vormgeving van de data van een time-series.
Trend: veelvoorkomend patroon waar we naar zoeken in een time plot die aangeeft of de data veranderd.
2.3 Measuring the Center of Quantitative Data
Centrum van de verdeling bij kwantitatieve variabelen
(graphs for displaying the distribution of variables)
Mean (gemiddelde): de som van de observaties gedeeld door het aantal observaties.
o Het is het balanspunt van de data.
o Bij een scheve verdeling: het gemiddelde wordt getrokken in de richting van de langere staart
(relatief aan de mediaan).
o Het gemiddelde kan sterk beïnvloedt worden door uitschieters (outlier).
, Median (mediaan): de middelste waarde van de observaties, wanneer de observaties van klein naar
groot worden geordend (of andersom). De helft van de observaties zitten onder de mediaan, de
andere helft erboven.
o Het gemiddelde neemt alle exacte numerieke waarden mee van alle observaties, dat doet de
mediaan niet. De mediaan is dus resistent voor uitschieters.
Mediaan gebruik je als er uitschieter/extreme scores zijn (voorkeur bij scheve verdeling, gemiddelde zou
namelijk vertekende beelden geven.
- 0 0 0 0 10 10 10: mediaan inzetten is NIET handig hier, want het zegt niks over de 10’en.
Gemiddelde gebruik je als er weinig uitschieters zijn (voorkeur normaalverdeling; meenemen alle datapunten)
Mode (modus): de waarde die het meest frequent voorkomt, maar bij kwantitatieve variabelen is dit
vaak niet waardevol (zou ook de waarde kunnen zijn die kleinste of grootste is, zou dan geen
centrummaat moeten zijn).
Scheef naar links Normaalverdeling Scheef naar rechts
Modus = 10
Mediaan =
- 50% van de waarden ligt eronder/erboven,
dus dan moet je kijken waar het zit – tussen 7-8.
- Je kan ook tot de 26e observatie rekenen = 8.
- Je kan ook nog alle frequenties op volgorde
opschrijven en dan het middelste getal nemen.
Gemiddelde (frequentietabel!) = 7,28
- 0 x 1 + 2 x 2 + 3 x 1 + 4 x 5 .... gedeeld door 50.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller martinezijp. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $11.41. You're not tied to anything after your purchase.