Een samenvatting met daarin de collegeaantekeningen opgenomen. In deze samenvatting is alle informatie om het vak 'Beschrijvende Statistiek' af te ronden. (Ook voor Premaster studenten!)
Samenvatting Beschrijvende statistiek
College 1
Hoofdstuk 1 Gathering an exploring data
Data= de informatie die we verzamelen met experimenten en enquêtes
Statistiek (statistics)= de kunst en wetenschap van het ontwerpen van onderzoek en het analyseren
van de data die uit deze onderzoeken voortkomen
- Het ultieme doel is het vertalen van de data in kennis en het begrijpen van de wereld om
ons heen > dus: statistics is the art and science of learning from data
Het statistisch oplossen van problemen is een onderzoekend proces dat bestaat uit vier
componenten:
1. Formuleer een statistische vraag
2. Verzamel data
3. Analyseer de data
4. Interpreteer de resultaten
De drie hoofdonderdelen van statistiek voor het beantwoorden van een statistische vraag zijn:
Design: plan hoe op een efficiënte manier data verkregen kan worden over de statistische
vraag
Beschrijving (description): ontdekken en samenvatten van patronen in de data > bestanden
met ruwe data zijn vaak enorm. Daarom is het informatiever om een aantal getallen of een
grafiek te gebruiken om de data samen te vatten
Conclusie (inference): het maken van beslissingen of voorspellingen naar een grote groep
mensen, niet alleen naar de mensen die deel hebben genomen aan de studie
Inference (concluderen)= komen tot een beslissing of voorspelling aan de hand van een redenering
gebaseerd op bestaand bewijs
- Helpt bij het maken van voorspellingen en het beslissen of de geobserveerde patronen
belangrijk zijn
Statistical inference (statistische conclusies) = doet hetzelfde als hierboven beschreven, maar
gebruikt hiervoor de data als bewijs
Statistical description (statistische beschrijvingen) = zorgt voor handige samenvattingen en
helpt bij het vinden van patronen in de data
- Probability (waarschijnlijkheid) = een kader om de kans op verschillende mogelijk
resultaten vast te stellen
Steekproef versus populatie
We observeren steekproeven, maar zijn geïnteresseerd in populaties
- Subject= de eenheden die weten meten in een onderzoek, bv. scholen, landen, dagen
- Populatie= de totale set van subjecten waarin we geïnteresseerd zijn
- Steekproef (sample)= de subgroep van de populatie waarvan we data hebben of plannen
te verzamelen, vaak willekeurig geselecteerd
Steekproef statistics en populatie parameters (= samenvatting van de data, bv. gemiddelde):
Parameter= een numerieke samenvatting van de populatie
Statistics= een numerieke samenvatting van een steekproef (werken we het vaakst mee,
gebruiken we voor de parameter)
Beschrijvende statistiek (descriptive statistics) = beschrijven van de data en de steekproef, methode
voor samenvatten van verzamelde data (grafieken, zoals gemiddelden/ percentages)
,Toetsende (inferentiële) statistiek (inferential statistics) = gebruiken van de statistics om iets te
zeggen over de parameter, methode voor het maken van voorspellingen over een populatie
Een steekproef (sample) neigt een goede weerspiegeling van de populatie te zijn, wanneer ieder
subject in de populatie evenveel kans heeft om onderdeel uit te maken van de steekproef
Een willekeurige steekproef (random sampling) = ontworpen om de steekproef
representatief te maken voor de populatie
Stelt ons instaat om krachtige conclusies te trekken over de populatie
Willkeur is cruciaal voor het goed uitvoeren van een experiment
Data van steekproefonderzoeken wordt regelmatig gebruikt om een schatting te maken van de
percentages binnen de populatie
Foutmarge (margin of error) = de mate van onzekerheid bij de uitslag van een steekproef,
statistische meting etc., 95% betrouwbaarheid (zekerheidsinterval) en een foutmarge van 5%
- Bij benadering ligt in 950 gevallen van de 1000 de ware proportie (die in de populatie)
binnen dat interval (denk aan normaalverdeling)
Formule foutmarge (margin of error): x 100%
N= steekproefgrootte, het aantal subjecten in de steekproef
- Hoe groter de steekproefgrootte (n), hoe kleiner het te verwachten verschil wat te wijten
valt aan normale variatie
Statistisch significant= wanneer het verschil tussen de normale resultaten zo groot is, dat het
ongewoon zou zijn om zo’n verschil te zien als normale variatie
Gebruik van rekenmachines en computers:
Vaak het probleem dat een computer de statistische analyse zal uitvoeren zonder er hierbij
rekening mee te houden of het gebruik van deze statistieken valide is of niet voor de gegeven
situatie
Datafile (data dossier) = komt meestal in de vorm van een spreadsheet, het is de manier waarop
statistische software zijn data ontvangt
Twee basisregels voor het construeren van een data dossier:
1. Elke rij bevat metingen van een bepaald subject
2. Elke kolom bevat metingen van een bepaald kenmerk
Databases (databanken)= bestaande gearchiveerde collecties van data dossiers
Simulatie (= een computer gebruiken om na te bootsen wat er eigenlijk zou gebeuren als je in
het echt een steekproef zou selecteren en statistieken zou gebruiken)
Hoofdstuk 2 Exploring data with graphs and numerical summeries
2.1 Different types of data
Variabele= elk kenmerk wat geobserveerd wordt in een onderzoek
De variabelen worden over het algemeen genoteerd in de kolommen van een data set,
waarbij de rijen verwijzen naar verschillende observaties van een variabele
Variabelen kunnen kwantitatief (getallen, leeftijd) of categoriaal (in categorieën, ja/nee, sekse) zijn
- Opletten: een variabele waarvoor nummer als labels worden gebruikt om de categorieën
te definiëren is nog steeds een categoriale variabele (niet kwantitatief)
Belangrijke kenmerken kwantitatieve variabelen: het centrum (centre), en de
veranderlijkheid (variability), ook wel spreiding (spread) genoemd
, Belangrijk kenmerk categoriale variabelen: het relatieve aantal observaties in de
verschillende categorieën
Observaties= de datawaarden die we observeren voor een variabele
Categoriaal wanneer iedere observatie behoort tot een set van te onderscheid categorieën
(bv. ja/nee vragen)
Kwantitatief wanneer iedere observatie behoort tot een numerieke waarde die verschillende
groottes van een variabele voorstellen (bv. aantal centimeters, neerslag, hoeveel van iets)
Kwantitatieve variabele is
Discreet (discrete): wanneer de mogelijke waarden een set van aparte nummers vormen,
zoals 0, 1, 2, 3 … (meestal een telling, tussenwaarden geen betekenis)
- Elke variabele met een eindnummer van mogelijke waarden is discreet
- Bij kwantitatieve variabelen is de modus het meest bruikbaar als discrete variabelen een
zo klein aantal mogelijke waarden aannemen
Continue (continuous): wanneer de mogelijke waarden een interval vormen (heeft een
continuüm van oneindig veel mogelijke waarden, zoals lengte, afstand, bv. 15 cm, maar kan
ook 15,5 cm, fysieke metingen)
- Elke variabele met een oneindig nummer van mogelijke waarden is continue
In de praktijk hangt de methode die wordt gebruikt om de dat te analyseren af van
het type data die de variabele vertegenwoordigd
De eerste stap in het analyseren van de verzamelde data van een variabele is: kijken naar de
geobserveerde waarden, door gebruik te maken van grafieken en numerieke samenvattingen
Verdeling (distribution) van een variabele= beschrijft hoe de observaties verdeeld zijn over
de reeks van mogelijke waarden
Voor een categoriale variabele zijn de mogelijke waarden de verschillende categorieën en elke
observatie valt in een van de categorieën
- De verdeling voor een variabele laat dan alle mogelijke categorieën zien en het aantal (de
proportie) observaties die in elke categorie vallen
Voor een kwantitatieve variabele is de reeks van alle mogelijke waarden verdeeld over gescheiden
intervallen en het aantal (de proportie) van de observaties van in elk gegeven interval
De verdeling kan worden weergegeven in een grafiek of een tabel:
Bij de verdeling van een kwantitatieve variabele letten op:
1. De vorm (shape): bundelen de observaties zich rond bepaalde intervallen en/of zijn ze
dun verspreid over andere observaties?
2. Het middelpunt (center): waar valt een bepaalde observatie?
3. Veranderlijkheid (variability): hoe dicht bundelen de observaties zich rond een
middelpunt?
Verdeling van discrete kwantitatieve variabele weergeven: ook de verschillende waarden en
de frequentie van elke waarden weergeven in een tabel
Verdeling van continue kwantitatieve variabele weergeven: verdelen de numerieke schaal
waarin de variabele is gemeten in een set van niet-overlappende intervallen en tellen het
aantal observaties binnen elk interval
2.2 Graphical summaries of data
Beschrijvende statistieken van categorische variabelen via:
Grafische weergave= (te maken in SPSS)
Een cirkeldiagram (pie chart) = een cirkel, waarvan ieder stuk een categorie voorstelt, de
grootte van het stuk correspondeert met het percentage observaties in de categorie
, Een staafdiagram (bar graph) = verticale staaf voor elke categorie, de hoogte van de staaf is
het percentage observaties in de categorie
- Kan frequenties (4 & 8) of percentages (4% & 8%) weergeven, herken je aan de opening
tussen de staven > categoriaal, dus geen overlap
De proportie= aantal observaties dat in de categorie valt, gedeeld door het totale aantal observaties
Het percentage= de proportie vermenigvuldigd met 100
Proporties en percentages worden ook wel relatieve frequenties genoemd, een manier om
de verdeling van een categoriale variabele op een numerieke manier samen te vatten
Pareto grafiek (pareto chart) = staafdiagram met categorieën gerangschikt op de frequentie
- Vernoemd naar de Italiaanse econoom Vilfredo Pareto
Meestal gebruikt voor zakelijke toepassingen, om de meest voorkomende resultaten
te identificeren
Frequentietabel= een lijst van de mogelijke waarden van een variabele, samen met het aantal
observaties van elke waarde (kijkt naar missende waarden, totaal), bij meer dan 50 observaties
Verschillende centrummaten: modus (categorisch), mediaan en gemiddelde (kwantitatief)
- Centrummaat: letten op de modale categorie/modus (modal category) (= de categorie
met de grootste frequentie, komt het meest voor in je data)
Voor een categoriale variabele staan in een frequentietabel de categorieën en het
aantal keren dat elke categorie werd geobserveerd
Beschrijvende statistieken van kwantitatieve variabelen via:
Histogram= grafiek die staven gebruikt om de relatieve frequenties van de mogelijke uitkomsten
weer te geven, verschil: staven tegen elkaar aan, gelijke categorieën gevormd uit een frequentietabel
Voor een discrete variabele: heeft een histogram meestal een aparte staaf voor elke
mogelijke waarde
Voor een continue variabele: moeten we de mogelijke waarden verdelen over smallere
intervallen van gelijke breedte, net zoals bij een frequentietabel
Het maken van een histogram:
Verdeel de reeks van data in intervallen met een gelijke breedte, voor een discrete variabele
met weinig waarden, gebruik je de werkelijke mogelijke waarden
Tel het aantal observaties (de frequentie) in elk interval en vorm hiermee de frequentietabel
Op de horizontale as, label de waarden of de eindpunten van de intervallen. Teken een staaf
voor elke waarde of interval met een hoogte die gelijk is aan de frequentie (of het
percentage), de frequentiewaarden worden weergegeven op de verticale as
- Als we het histogram aflezen laten we vaak weten wat het linker eindpunt van de
observatie is, zodat duidelijk is in welk interval de observatie terechtkomt
- Over het algemeen is 5 tot 10 intervallen voldoende, kunnen extra intervallen worden
toegevoegd wanneer er sprake is van een grote steekproef
Nadelen: de werkelijke numerieke waarden van de individuele observaties kan kwijtraken
(niet bij dot plot, of stem-and-leaf-plot)
Een grafiektype kiezen:
Altijd een histogram plotten: om een idee te krijgen van de verdeling (er bestaat genoeg
software om een histogram samen te stellen)
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller rosaforto. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $5.89. You're not tied to anything after your purchase.