100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
Samenvatting Beschrijvende Statistiek (alle boekhoofdstukken collegeaantekeningen) €5,49
In winkelwagen

Samenvatting

Samenvatting Beschrijvende Statistiek (alle boekhoofdstukken collegeaantekeningen)

 38 keer bekeken  1 keer verkocht

Een samenvatting met daarin de collegeaantekeningen opgenomen. In deze samenvatting is alle informatie om het vak 'Beschrijvende Statistiek' af te ronden. (Ook voor Premaster studenten!)

Voorbeeld 4 van de 37  pagina's

  • Nee
  • H1 t/m h9 (- h4)
  • 8 december 2020
  • 37
  • 2020/2021
  • Samenvatting
book image

Titel boek:

Auteur(s):

  • Uitgave:
  • ISBN:
  • Druk:
Alle documenten voor dit vak (2)
avatar-seller
rosaforto
Samenvatting Beschrijvende statistiek
College 1
Hoofdstuk 1 Gathering an exploring data
Data= de informatie die we verzamelen met experimenten en enquêtes
Statistiek (statistics)= de kunst en wetenschap van het ontwerpen van onderzoek en het analyseren
van de data die uit deze onderzoeken voortkomen
- Het ultieme doel is het vertalen van de data in kennis en het begrijpen van de wereld om
ons heen > dus: statistics is the art and science of learning from data

Het statistisch oplossen van problemen is een onderzoekend proces dat bestaat uit vier
componenten:
1. Formuleer een statistische vraag
2. Verzamel data
3. Analyseer de data
4. Interpreteer de resultaten

De drie hoofdonderdelen van statistiek voor het beantwoorden van een statistische vraag zijn:
 Design: plan hoe op een efficiënte manier data verkregen kan worden over de statistische
vraag
 Beschrijving (description): ontdekken en samenvatten van patronen in de data > bestanden
met ruwe data zijn vaak enorm. Daarom is het informatiever om een aantal getallen of een
grafiek te gebruiken om de data samen te vatten
 Conclusie (inference): het maken van beslissingen of voorspellingen naar een grote groep
mensen, niet alleen naar de mensen die deel hebben genomen aan de studie

Inference (concluderen)= komen tot een beslissing of voorspelling aan de hand van een redenering
gebaseerd op bestaand bewijs
- Helpt bij het maken van voorspellingen en het beslissen of de geobserveerde patronen
belangrijk zijn
 Statistical inference (statistische conclusies) = doet hetzelfde als hierboven beschreven, maar
gebruikt hiervoor de data als bewijs
 Statistical description (statistische beschrijvingen) = zorgt voor handige samenvattingen en
helpt bij het vinden van patronen in de data
- Probability (waarschijnlijkheid) = een kader om de kans op verschillende mogelijk
resultaten vast te stellen

Steekproef versus populatie
 We observeren steekproeven, maar zijn geïnteresseerd in populaties
- Subject= de eenheden die weten meten in een onderzoek, bv. scholen, landen, dagen
- Populatie= de totale set van subjecten waarin we geïnteresseerd zijn
- Steekproef (sample)= de subgroep van de populatie waarvan we data hebben of plannen
te verzamelen, vaak willekeurig geselecteerd

Steekproef statistics en populatie parameters (= samenvatting van de data, bv. gemiddelde):
 Parameter= een numerieke samenvatting van de populatie
 Statistics= een numerieke samenvatting van een steekproef (werken we het vaakst mee,
gebruiken we voor de parameter)
Beschrijvende statistiek (descriptive statistics) = beschrijven van de data en de steekproef, methode
voor samenvatten van verzamelde data (grafieken, zoals gemiddelden/ percentages)

,Toetsende (inferentiële) statistiek (inferential statistics) = gebruiken van de statistics om iets te
zeggen over de parameter, methode voor het maken van voorspellingen over een populatie

Een steekproef (sample) neigt een goede weerspiegeling van de populatie te zijn, wanneer ieder
subject in de populatie evenveel kans heeft om onderdeel uit te maken van de steekproef
 Een willekeurige steekproef (random sampling) = ontworpen om de steekproef
representatief te maken voor de populatie
 Stelt ons instaat om krachtige conclusies te trekken over de populatie
 Willkeur is cruciaal voor het goed uitvoeren van een experiment

Data van steekproefonderzoeken wordt regelmatig gebruikt om een schatting te maken van de
percentages binnen de populatie
 Foutmarge (margin of error) = de mate van onzekerheid bij de uitslag van een steekproef,
statistische meting etc., 95% betrouwbaarheid (zekerheidsinterval) en een foutmarge van 5%
- Bij benadering ligt in 950 gevallen van de 1000 de ware proportie (die in de populatie)
binnen dat interval (denk aan normaalverdeling)


Formule foutmarge (margin of error): x 100%

N= steekproefgrootte, het aantal subjecten in de steekproef
- Hoe groter de steekproefgrootte (n), hoe kleiner het te verwachten verschil wat te wijten
valt aan normale variatie
 Statistisch significant= wanneer het verschil tussen de normale resultaten zo groot is, dat het
ongewoon zou zijn om zo’n verschil te zien als normale variatie

Gebruik van rekenmachines en computers:
 Vaak het probleem dat een computer de statistische analyse zal uitvoeren zonder er hierbij
rekening mee te houden of het gebruik van deze statistieken valide is of niet voor de gegeven
situatie

Datafile (data dossier) = komt meestal in de vorm van een spreadsheet, het is de manier waarop
statistische software zijn data ontvangt
 Twee basisregels voor het construeren van een data dossier:
1. Elke rij bevat metingen van een bepaald subject
2. Elke kolom bevat metingen van een bepaald kenmerk
 Databases (databanken)= bestaande gearchiveerde collecties van data dossiers
 Simulatie (= een computer gebruiken om na te bootsen wat er eigenlijk zou gebeuren als je in
het echt een steekproef zou selecteren en statistieken zou gebruiken)

Hoofdstuk 2 Exploring data with graphs and numerical summeries
2.1 Different types of data
Variabele= elk kenmerk wat geobserveerd wordt in een onderzoek
 De variabelen worden over het algemeen genoteerd in de kolommen van een data set,
waarbij de rijen verwijzen naar verschillende observaties van een variabele

Variabelen kunnen kwantitatief (getallen, leeftijd) of categoriaal (in categorieën, ja/nee, sekse) zijn
- Opletten: een variabele waarvoor nummer als labels worden gebruikt om de categorieën
te definiëren is nog steeds een categoriale variabele (niet kwantitatief)
 Belangrijke kenmerken kwantitatieve variabelen: het centrum (centre), en de
veranderlijkheid (variability), ook wel spreiding (spread) genoemd

,  Belangrijk kenmerk categoriale variabelen: het relatieve aantal observaties in de
verschillende categorieën

Observaties= de datawaarden die we observeren voor een variabele
 Categoriaal wanneer iedere observatie behoort tot een set van te onderscheid categorieën
(bv. ja/nee vragen)
 Kwantitatief wanneer iedere observatie behoort tot een numerieke waarde die verschillende
groottes van een variabele voorstellen (bv. aantal centimeters, neerslag, hoeveel van iets)

Kwantitatieve variabele is
 Discreet (discrete): wanneer de mogelijke waarden een set van aparte nummers vormen,
zoals 0, 1, 2, 3 … (meestal een telling, tussenwaarden geen betekenis)
- Elke variabele met een eindnummer van mogelijke waarden is discreet
- Bij kwantitatieve variabelen is de modus het meest bruikbaar als discrete variabelen een
zo klein aantal mogelijke waarden aannemen
 Continue (continuous): wanneer de mogelijke waarden een interval vormen (heeft een
continuüm van oneindig veel mogelijke waarden, zoals lengte, afstand, bv. 15 cm, maar kan
ook 15,5 cm, fysieke metingen)
- Elke variabele met een oneindig nummer van mogelijke waarden is continue
 In de praktijk hangt de methode die wordt gebruikt om de dat te analyseren af van
het type data die de variabele vertegenwoordigd

De eerste stap in het analyseren van de verzamelde data van een variabele is: kijken naar de
geobserveerde waarden, door gebruik te maken van grafieken en numerieke samenvattingen
 Verdeling (distribution) van een variabele= beschrijft hoe de observaties verdeeld zijn over
de reeks van mogelijke waarden

Voor een categoriale variabele zijn de mogelijke waarden de verschillende categorieën en elke
observatie valt in een van de categorieën
- De verdeling voor een variabele laat dan alle mogelijke categorieën zien en het aantal (de
proportie) observaties die in elke categorie vallen
Voor een kwantitatieve variabele is de reeks van alle mogelijke waarden verdeeld over gescheiden
intervallen en het aantal (de proportie) van de observaties van in elk gegeven interval

De verdeling kan worden weergegeven in een grafiek of een tabel:
 Bij de verdeling van een kwantitatieve variabele letten op:
1. De vorm (shape): bundelen de observaties zich rond bepaalde intervallen en/of zijn ze
dun verspreid over andere observaties?
2. Het middelpunt (center): waar valt een bepaalde observatie?
3. Veranderlijkheid (variability): hoe dicht bundelen de observaties zich rond een
middelpunt?
 Verdeling van discrete kwantitatieve variabele weergeven: ook de verschillende waarden en
de frequentie van elke waarden weergeven in een tabel
 Verdeling van continue kwantitatieve variabele weergeven: verdelen de numerieke schaal
waarin de variabele is gemeten in een set van niet-overlappende intervallen en tellen het
aantal observaties binnen elk interval

2.2 Graphical summaries of data
Beschrijvende statistieken van categorische variabelen via:
Grafische weergave= (te maken in SPSS)
 Een cirkeldiagram (pie chart) = een cirkel, waarvan ieder stuk een categorie voorstelt, de
grootte van het stuk correspondeert met het percentage observaties in de categorie

,  Een staafdiagram (bar graph) = verticale staaf voor elke categorie, de hoogte van de staaf is
het percentage observaties in de categorie
- Kan frequenties (4 & 8) of percentages (4% & 8%) weergeven, herken je aan de opening
tussen de staven > categoriaal, dus geen overlap

De proportie= aantal observaties dat in de categorie valt, gedeeld door het totale aantal observaties
Het percentage= de proportie vermenigvuldigd met 100
 Proporties en percentages worden ook wel relatieve frequenties genoemd, een manier om
de verdeling van een categoriale variabele op een numerieke manier samen te vatten

Pareto grafiek (pareto chart) = staafdiagram met categorieën gerangschikt op de frequentie
- Vernoemd naar de Italiaanse econoom Vilfredo Pareto
 Meestal gebruikt voor zakelijke toepassingen, om de meest voorkomende resultaten
te identificeren

Frequentietabel= een lijst van de mogelijke waarden van een variabele, samen met het aantal
observaties van elke waarde (kijkt naar missende waarden, totaal), bij meer dan 50 observaties
 Verschillende centrummaten: modus (categorisch), mediaan en gemiddelde (kwantitatief)
- Centrummaat: letten op de modale categorie/modus (modal category) (= de categorie
met de grootste frequentie, komt het meest voor in je data)
 Voor een categoriale variabele staan in een frequentietabel de categorieën en het
aantal keren dat elke categorie werd geobserveerd

Beschrijvende statistieken van kwantitatieve variabelen via:
Histogram= grafiek die staven gebruikt om de relatieve frequenties van de mogelijke uitkomsten
weer te geven, verschil: staven tegen elkaar aan, gelijke categorieën gevormd uit een frequentietabel
 Voor een discrete variabele: heeft een histogram meestal een aparte staaf voor elke
mogelijke waarde
 Voor een continue variabele: moeten we de mogelijke waarden verdelen over smallere
intervallen van gelijke breedte, net zoals bij een frequentietabel

Het maken van een histogram:
 Verdeel de reeks van data in intervallen met een gelijke breedte, voor een discrete variabele
met weinig waarden, gebruik je de werkelijke mogelijke waarden
 Tel het aantal observaties (de frequentie) in elk interval en vorm hiermee de frequentietabel
 Op de horizontale as, label de waarden of de eindpunten van de intervallen. Teken een staaf
voor elke waarde of interval met een hoogte die gelijk is aan de frequentie (of het
percentage), de frequentiewaarden worden weergegeven op de verticale as




- Als we het histogram aflezen laten we vaak weten wat het linker eindpunt van de
observatie is, zodat duidelijk is in welk interval de observatie terechtkomt
- Over het algemeen is 5 tot 10 intervallen voldoende, kunnen extra intervallen worden
toegevoegd wanneer er sprake is van een grote steekproef
 Nadelen: de werkelijke numerieke waarden van de individuele observaties kan kwijtraken
(niet bij dot plot, of stem-and-leaf-plot)
Een grafiektype kiezen:
 Altijd een histogram plotten: om een idee te krijgen van de verdeling (er bestaat genoeg
software om een histogram samen te stellen)

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper rosaforto. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €5,49. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 54879 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen
€5,49  1x  verkocht
  • (0)
In winkelwagen
Toegevoegd