Dit is een uitgebreide samenvatting voor het vak beschrijvende statistiek voor op de UVA (7082S033AY). Naast alle begrippen, worden ook sommige berekeningen toegelicht aan de hand van voorbeelden.
Ik heb hier zelf een 10 mee gehaald en wil graag anderen hierbij helpen.
Hoorcollege 1: Centrummaten
Hoofdstuk 1
Data Informatie die verzameld wordt met experimenten en surveys
Statistiek (nummerical summaries) De kunst en wetenschap van het leren van data
Kunst en wetenschap van het ontwerpen van onderzoeken en het analyseren van gegevens
die de onderzoeken opleveren. Doel: vertalen van data naar kennis en begrip van de wereld
om ons heen
Probability Raamwerk om te kwantificeren hoe waarschijnlijk verschillende mogelijke uitkomsten zijn
(waarschijnlijkheid)
Subjects De entiteiten die we meten in een onderzoek (mensen, scholen, landen, dagen)
(elementen)
Populatie Alle subjecten waar je geïnteresseerd in bent
Sample Deel van de populatie waar je data van hebt verzameld, vaak random
Census Opsomming of telling van alle elementen/subject in de populatie
Random sampling (Aselecte steekproef) Het random selecteren van deelnemers voor je onderzoek vanuit
gehele populatie. Elk subject heeft gelijke kans heeft dezelfde kans om getrokken te worden
met de steekproef
Statistically Wanneer verschil tussen resultaten voor twee behandelingen zo groot is dat het zeldzaam
significant zou zijn om zo'n verschil te zien door gewone willekeurige variatie
Databases Bestaande archiefverzamelingen van databestanden
Simulation Gebruiken van computer om na te bootsen wat er werkelijk zou gebeuren als je een
steekproef zou selecteren en statistieken in het echte leven zou gebruiken
Random assignment (Aselecte toewijzing) Het random toewijzen van deelnemers aan de verschillende condities
(groepen) in je onderzoek
Onderzoeksproces bij statistiek probleem
1. Formuleren statistische vraag
2. Verzamelen data
3. Analyseren data
4. Interpreteren data
Samenvatting van data:
1. Parameter
Numerieke samenvatting van de populatie
Vaak onbekend
Meet je eigenlijk nooit, gebruik je statistic voor
PP- parameter, populatie
Gemiddelde ( μ) en standaard deviatie (σ )
2. Statistic (steekproefwaarde)
Numerieke samenvatting van een steekproef uit de populatie
SS-Statistic, steekproef
Gemiddelde ( x ) en standaard deviatie ( s)
--> Samenvattende waarde, zoals gemiddelde, modus of mediaan
,Componenten statistiek voor beantwoorden van een statistische vraag:
1. Design (ontwerp)
Doel/statistische kwestie van belang aangeven
Plannen hoe gegevens te verkrijgen die hierop betrekking hebben
Hoe betrouwbare informatie verkrijgen?
Bevat vaak nemen van steekproef uit de populatie
2. Typen statische analyse
Description (beschrijvende statistiek)
Samenvatten en analyseren data
Patronen ontdekken
Bestaat meestal uit grafieken en getallen, zoals gemiddelden en percentages
Makkelijker te vergelijken
Bar graph (staafdiagram)
Doel: Verminderen data tot versimpelde samenvatting zonder informatie te
vervormen/verliezen
Bruikbaar als data voor gehele populatie beschikbaar is (bijvoorbeeld census)
Niet altijd voor gehele populatie beschikbaar, dan alleen van steekproef
--> Hierbij geen conclusie voor gehele populatie, dat is inference
Inference (toetsende statistiek)
Beslissingen nemen
Voorspellingen doen
Beantwoorden van de statistische vraag
Resultaten gelden vaak voor grotere groep dan alleen onderzoeksgroep
Kijken wat betekenisvol is
Wordt gebruikt als data alleen beschikbaar is van steekproef, maar wel conclusie willen
trekken voor gehele populatie (generaliseren)
Foutmarge (margin of error):
Verschil tussen de schatting die je vindt in je steekproef en de populatie
Wordt kleiner bij grote willekeurige steekproef; Hoe groter de steekproefgrootte, hoe meer zekerheid
n: aantal proefpersonen in de steekproef
95%-betrouwbaarheidsinterval met behulp van een eenvoudige willekeurige steekproef
Statisch significant (Als resultaten zelden worden waargenomen met alleen gewone willekeurige variatie)
Gallup’s annual environmental survey 2 reported that 60% of Americans favored offshore drilling as a means
to reduce U.S. dependence on foreign oil, 37% opposed offshore drilling, and the remaining 3%
had no opinion. The poll was based on interviews conducted with a random sample of 1021 adults, aged 18
and older, living in the continental United States, selected using random digit dialing.
,Hoofdstuk 2.1-2.3
Variabele Elk kenmerk waargenomen in een onderzoek. Deze kan variëren
Modus Meest voorkomende getal, grootste frequentie. Bij meerdere getallen is er geen
(modal category) modus.
Bij categorische variabelen: modale categorie
Bij kwantitatieve variabelen: modus
Mediaan Van klein naar groot het middelste getal. Bij 2 getallen, dan het gemiddelde van deze 2
Mean Gemiddelde. ( x ¿
∑ ❑=de som, xi=gemeten variabelen. Beginnend bij i=1 (eerste meting) tot n
(steekproefgrootte).
Gemiddelde E=de som. n= steekproef. Fi (frequentie) * xi (gemeten variabelen). Beginnend bij i=1
frequentieverdeling (eerste meting) tot k (aantal verschillende uitkomsten).
Resistance Numerieke samenvatting van de waarnemingen. Outliers hebben weinig/geen invloed
op de waarde. Dit is bij de mediaan het geval
Outlier Waarneming die ver boven/onder het grootste deel van de gegevens valt. Haalt het
gemiddelde erg omhoog/omlaag. Vooral bij weinig metingen. Is afhankelijk van
onderzoeker of die het echt een outlier vindt
Observatie De gegevenswaarden die we waarnemen voor een variabele
Distribution Beschrijft hoe de waarnemingen vallen (verdeeld worden) over het bereik van
mogelijke waarden
Pareto principle Stelt dat een kleine subset van categorieën vaak de meeste waarnemingen bevat
(Android en iOS hebben samen meest verkochte smartphones). Kan een Pareto chart
goed weergeven
Tails De delen van de curve voor de laagste waarden en voor de hoogste waarden
Time-series Een dataset die in de loop van de tijd is verzameld
Beschrijvende statistiek voor 1 variabele:
Grafische weergave
Centrummaten
1 representatieve waarde om variabele weer te geven
Bijv. gemiddelde, mediaan of modus
Spreidingsmaten
Range (bereik): maximum-minimum
Interkwarielafstand (IQR): Q3-Q1
Deviatie: x - x
Standaarddeviatie
, Soorten variabelen:
1. Categorisch (in categorieën):
Waarde zijn categorieën
Kan wel getallen aan gekoppeld zijn en kan je eventueel ordenen
Je kan er geen gemiddelde mee uitrekenen
Centrummaat: Modale categorie
Sekse, religie, haarkleur, ja/nee-antwoorden
Cirkeldiagram, staafdiagram, frequentietabel
Nominale en ordinale variabelen
2. Kwantitatief (Numerical):
Waarde representeert grootte van variabele in de vorm van een getal
Centrummaat: Mediaan en gemiddelde (modus)
Kan je mee rekenen
Histogram, dot plot, stem and leaf (en frequentietabel)
Interval en ratio variabelen
Soorten
a. Discreet:
Gehele, vaste waarden
Aantal huisdieren, aantal kinderen
b. Continue:
Waarden kunnen onbeperkt weinig van elkaar verschillen
Interval
Lengte, gewicht, leeftijd
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper michelle0. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €6,99. Je zit daarna nergens aan vast.