Samenvatting Beschrijvende en Inferentiële Statistiek (S_PMBIS) deeltentamen 2
Samenvatting Statistics: The Art and Science of Learning from Data - Statistiek 1
Samenvatting Beschrijvende en Inferentiele statistiek (BIS)
Alles voor dit studieboek (39)
Geschreven voor
Universiteit van Amsterdam (UvA)
Accountancy and Control
7082S041AY_B4 (7082S041AY_B4)
Alle documenten voor dit vak (1)
Verkoper
Volgen
daniellejgk
Voorbeeld van de inhoud
Hoofdstuk 1: De kunst en wetenschap van het leren van gegevens
Statistiek bestaat uit methoden voor het uitvoeren van onderzoeksstudies en voor het analyseren
en interpreteren van de gegevens die deze studies opleveren
Het eerste deel van het statistische proces voor het beantwoorden van een statistische vraag
omvat het ontwerp. Het ontwerp omvat vaak het nemen van een steekproef uit een populatie,
waarbij de populatie alle onderwerpen (meestal mensen) bevat die van belang zijn
Een parameter is een numerieke samenvatting van de populatie. Een statistiek is een numerieke
samenvatting van een steekproef uit de populatie
Na het verzamelen van alle gegevens zijn er twee soorten statistische analyses:
1beschrijvende statistiek vat de gegevens van de steekproef samen met getallen en grafieken
2inferentiële statistieken maken beslissingen en voorspellingen over de gehele populatie op basis
van de informatie in de steekproefgegevens
Bij aselecte steekproeftrekking heeft elke proefpersoon in de populatie dezelfde kans om in de
steekproef te zitten. Dit is wenselijk omdat de steekproef dan een goede afspiegeling van de
populatie is. Aselecte steekproeftrekking is ook belangrijk voor een goed experimenteel ontwerp,
bijvoorbeeld door willekeurig toe te wijzen wie het medicijn krijgt en wie de placebo in een
medische studie
De metingen die we doen van een kenmerk variëren van individu tot individu. Zo variëren ook de
resultaten van beschrijvende en afgeleide statistieken, afhankelijk van de gekozen steekproef.
Variabiliteit dan wel variantie is een belangrijk onderdeel van statistiek
Simulatieonderzoeken genereren vele steekproeven willekeurig, vaak met behulp van een app. Ze
bieden een manier om te leren over de impact van willekeur en variantie van steekproef tot
steekproef
De foutmarge is een maat voor de variabiliteit van een statistiek van de ene steekproef tot de
andere. Voor proporties wordt de foutmarge benaderd door 1/√(n) x 100(%) waarbij n de
steekproefgrootte is
Resultaten van een onderzoek worden als statistisch significant beschouwd als ze zelden zouden
worden waargenomen met alleen gewone toevalsvariatie
,De berekeningen voor data-analyse kunnen computersoftware gebruiken. De gegevens worden
georganiseerd in een databestand. Dit bestand heeft een aparte rij gegevens voor elke
proefpersoon en een aparte kolom voor elk kenmerk
Hoofdstuk 2: Verschillende soorten gegevens
Beschrijvende statistiek: grafische en numerieke manieren om gegevens te beschrijven. De
kenmerken die we meten worden variabelen genoemd, omdat de waarden van onderwerp tot
onderwerp verschillen
Een categorische variabele heeft waarnemingen die in een reeks categorieën vallen
Een kwantitatieve variabele heeft numerieke waarden die verschillende grootheden van de
variabele weergeven. Een kwantitatieve variabele is discreet als deze afzonderlijke mogelijke
waarden heeft, zoals de hele getallen 0, 1, 2 voor een variabele die wordt uitgedrukt als "het
aantal...”. De variabele is continu als de mogelijke waarden een interval vormen
Wanneer we een variabele onderzoeken, moeten we geïnteresseerd zijn in de verdeling ervan
(hoe waarnemingen zijn verdeeld over het bereik van mogelijke waarden). Verdelingen worden
beschreven door middel van grafieken en tabellen
Voor categorische variabelen maken we een frequentietabel met de (relatieve) frequenties van
waarnemingen in elke categorie en noemen we de categorieën met de hoogste frequenties
Voor kwantitatieve variabelen worden frequentietabellen verkregen door het bereik op te delen
in intervallen. Belangrijke kenmerken te beschrijven voor kwantitatieve variabelen zijn de vorm
(aantal verschillende heuvels, symmetrie of scheefheid, uitschieters), het middelpunt en de
variabiliteit
Overzicht van grafische methoden
Voor categorische variabelen worden gegevens weergegeven met taartdiagrammen en
staafdiagrammen. Staafdiagrammen bieden meer flexibiliteit en maken het gemakkelijker om
categorieën met vergelijkbare percentages te vergelijken
,Voor kwantitatieve variabelen is een histogram een grafiek van een frequentietabel. Het geeft
balken weer die tendensen of relatieve frequenties (percentages) aangeven voor mogelijke
waarden of intervallen van mogelijke waarden
De stam- en bladplot (een verticale lijn die het laatste cijfer, het blad, van de stam scheidt) en de
puntplot (stippen boven de getallenlijn) tonen de individuele waarnemingen. Ze zijn nuttig voor
kleine gegevenssets
Deze drie grafieken tonen allemaal de vorm, bijvoorbeeld of de verdeling ongeveer klokvormig is,
scheef naar rechts /\_ (langere staart wijst naar rechts) of scheef naar links _/\
De boxplot heeft een box getrokken tussen het eerste kwartiel en het derde kwartiel, met een lijn
getrokken in de box bij de mediaan. Het heeft snorharen, die zich uitstrekken tot de minimum- en
maximumwaarden, behalve voor potentiële uitschieters
Een uitschieter (outlier) is een extreme waarde die ver onder of boven het grootste deel van de
gegevens valt
Een tijdsplot geeft grafisch waarnemingen weer voor een variabele die in de loop van de tijd wordt
gemeten. Deze plot kan trends in de tijd visueel weergeven
Overzicht van centrummaten en positiematen
Metingen van het middelpunt proberen een typische of representatieve waarneming te
beschrijven
Het gemiddelde is de som van de waarnemingen gedeeld door het aantal waarnemingen. Het is
het evenwichtspunt van de gegevens
De mediaan verdeelt de geordende gegevensverzameling in twee delen van gelijke aantallen
waarnemingen, de helft onder en de helft boven dat punt. De mediaan is het 50e percentiel
(tweede kwartiel). Het is een representatievere samenvatting dan het gemiddelde als de gegevens
erg scheef zijn en is bestand tegen outliers
Het onderste kwart van de waarnemingen valt onder het eerste kwartiel (Q1) en het bovenste
kwart valt boven het derde kwartiel (Q3). Dit zijn het 25e en 75e percentiel. Deze kwartielen en
de mediaan verdelen de gegevens in vier gelijke delen
, Overzicht van variabiliteitsmetingen (variantie)
Variantiematen beschrijven de variabiliteit van de waarnemingen
Het bereik is het verschil tussen de grootste en kleinste waarnemingen
De afwijking van een observatie x van het gemiddelde is x - x̄
De variantie is een gemiddelde van de gekwadrateerde afwijkingen. De wortel √, de
standaardafwijking, is nuttiger en beschrijft een typische afstand tot het gemiddelde
De empirische regel zegt dat voor een klokvormige verdeling:
-ongeveer 68% van de gegevens binnen 1 standaardafwijking van het gemiddelde valt, x̄ ± s
-ongeveer 95% van de gegevens valt binnen 2 standaardafwijkingen, , x̄ ± 2s
-bijna alle gegevens vallen binnen 3 standaarddeviaties, x̄ ± 3s
Het interkwartielbereik (IQR) is het verschil tussen het derde en eerste kwartiel (3de – 1ste), dat de
middelste 50% van de gegevens in een verdeling omvat. Het is bestendiger dan het bereik en de
standaardafwijking en wordt niet beïnvloed door extreme waarnemingen (outliers)
Een observatie is een potentiële outlier als deze valt:
- meer dan 1.5 x (IQR) onder Q1 of meer dan 1.5 x (IQR) boven Q3, of
- meer dan 3 standaardafwijkingen van het gemiddelde (voorbij bijna alle gegevens)
De z-score is het aantal standaarddeviaties dat een observatie van het gemiddelde afwijkt
z-score = x – x̄ / s
Hoofdstuk 3: Associatie: contingentie, correlatie en regressie
De associatie tussen twee variabelen. Een responsvariabele (de uitkomst van belang) is
gerelateerd aan de waarde van een verklarende variabele
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper daniellejgk. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €8,46. Je zit daarna nergens aan vast.