Chapter 1: Statistics: The Art and Science of Learning From
Data
Statistics is de kunst en wetenschap van het leren uit gegevens. Gegevens zijn de informatie die
wordt verzameld met experimenten en enquêtes. Het statistische onderzoeksproces omvat het
formuleren van een statistische vraag, het verzamelen van gegevens, het analyseren van gegevens en
het interpreteren en communiceren van resultaten. Onderdelen voor het beantwoorden van een
onderzoeksvraag:
o Design: Het plannen van gegevensverzameling om de vraag te beantwoorden.
o Beschrijving: Het samenvatten van gegevens om patronen te identificeren.
o Inferentie: Beslissingen nemen en voorspellingen doen op basis van steekproefgegevens.
o Waarschijnlijkheid (probability): Inschatten hoe waarschijnlijk verschillende uitkomsten zijn.
De populatie is de totale verzameling onderwerpen waarin we geïnteresseerd zijn. Onderwerpen
(subjects) zijn meestal mensen, maar kunnen ook scholen, landen, dagen enz. zijn. Een steekproef is
de deelverzameling van de populatie waarvoor we gegevens hebben. Soms zijn er gegevens
beschikbaar van een hele populatie, zoals de volkstelling in de VS.
Beschrijvende statistics zijn methoden om verzamelde gegevens van een steekproef of populatie
samen te vatten met behulp van grafieken en getallen voor een gemakkelijk overzicht. Inferentiële
statistieken zijn methoden om beslissingen te nemen of voorspellingen te doen op basis van een
populatie, gebaseerd op een steekproef. De meeste opiniepeilingen nemen een steekproef van 1000,
ongeacht de grootte van de populatie, omdat ze een vergelijkbaar niveau van nauwkeurigheid
zouden bereiken.
Een parameter is een numerieke samenvatting van de populatie. Een statistic is een numerieke
samenvatting van een steekproef uit de populatie. Ware parameterwaarden zijn meestal onbekend,
dus schatten we ze met behulp van steekproefstatistieken.
Met aselecte steekproeven (random sampling) kunnen we krachtige conclusies trekken over
populaties omdat de steekproef representatief is voor de populatie. Elke proefpersoon in de
populatie heeft een gelijke kans om opgenomen te worden. Bij variabiliteit binnen een steekproef
bestudeer je hoe metingen variëren tussen individuen. Bij variabiliteit tussen steekproeven
bestudeer je hoe metingen variëren tussen steekproeven.
De foutmarge (margin of error) meet hoe dicht we verwachten dat een schatting bij de ware
populatieparameter ligt. “Significant” betekent dat het waargenomen verschil tussen twee
steekproeven groter is dan wat toeval alleen zou veroorzaken.
Voor verkennende en inferentiële statistieken wordt statistische software gebruikt.
Gegevensbestanden leveren die gegevens. Elke rij vertegenwoordigt een onderwerp (bijvoorbeeld
een persoon) en elke kolom vertegenwoordigt een kenmerk (bijvoorbeeld leeftijd).
Onderzoekers kunnen experimenten of enquêtes gebruiken om gegevens te verzamelen, maar
bestaande internetdatabases zijn vaak al voldoende. De digitale revolutie heeft Big Data gecreëerd,
een enorme en complexe dataset met gestructureerde gegevens (zoals spreadsheets) en
ongestructureerde gegevens (zoals berichten op sociale media). Datawetenschap analyseert deze
gegevens om patronen te vinden, waarbij methoden als datamining en AI worden gebruikt voor
toepassingen als gerichte advertenties en de diagnose van huidkanker.
,Ethische kwesties bij datawetenschap
1. Dataprivacy: Big Data bevat vaak persoonlijke informatie. De VS heeft minder regels dan de
EU over hoe deze gegevens gebruikt mogen worden.
2. Gegevensbeveiliging: Het beschermen van persoonlijke gegevens is cruciaal, maar
datalekken komen regelmatig voor.
3. Algoritme bias: Als het model is gebaseerd op biased data, kan het vrouwen en minderheden
benadelen. Deze algoritmen gedragen zich vaak als zwarte dozen, omdat het onduidelijk is
hoe ze tot hun conclusies komen en op welke basis.
Chapter 2: Exploring Data With Graphs and Numerical
Summaries
Categorische variabelen beschrijven het centrum en de spreiding van categorieën
Soorten:
o Nominale variabelen hebben geen specifieke volgorde (bijv. oogkleur)
o Ordinale variabelen hebben een vaste volgorde (bijv. stadia van kanker)
Spreiding: onderzoek de modale categorie (de categorie met de hoogste frequentie) en de
frequentie van elke categorie.
Grafieken:
o Een taartdiagram toont categorieën als cirkelschijven per percentage.
o Een staafdiagram gebruikt afzonderlijke balken, waarvan de hoogte het percentage
van elke categorie weergeeft. Een Paretodiagram is een staafdiagram dat
categorieën weergeeft in volgorde van frequentie. Het laat het Pareto-principe zien,
waarbij een paar categorieën de meeste waarnemingen vertegenwoordigen.
Kwantitatieve variabelen beschrijven het aantal waarnemingen in categorieën.
Soorten:
o Discrete variabelen hebben een eindige reeks afzonderlijke waarden (bv. 2
huisdieren),
o Continue variabelen kunnen elke waarde aannemen binnen een interval (bijv. 2,43
uur).
Distributie: onderzoek de vorm (zijn waarnemingen geclusterd of verspreid?), het
middelpunt (de typische waarde) en de variabiliteit (hoe dicht de waarnemingen bij het
middelpunt liggen).
Grafieken:
o Een dot plot toont een punt voor elke observatie, geplaatst net boven de
waarde op de getallenlijn voor die observatie.
o Een stem-leaf plot toont individuele waarnemingen met behulp van
stengels (alle cijfers behalve het laatste) en bladeren (het laatste cijfer).
Om een compacte stam-bladplot te maken, wordt het laatste cijfer van
elke waarde afgekapt. Geef elke stam twee keer weer: één voor de
bladeren 0-4 en één voor de bladeren 5-9 voor meer duidelijkheid.
o Een histogram toont frequenties van verschillende uitkomsten met
behulp van naast elkaar liggende balken.
, Een frequentietabel toont alle mogelijke waarden van een variabele en hoe vaak elke waarde
voorkomt. Verhouding is het aantal in een categorie gedeeld door het totaal aantal waarnemingen.
Percentage is de verhouding × 100. Beide worden relatieve frequenties genoemd en helpen om de
verdeling van een categorische variabele samen te vatten.
Een unimodale verdeling heeft één heuvel. Een bimodale verdeling
heeft twee verschillende heuvels. De vorm van een unimodale
verdeling is vaak symmetrisch of scheef (uitgerekt in één richting).
Gegevens kunnen geclusterd zijn of er kan een kloof zijn, waarbij een of meer waarnemingen
duidelijk afwijken van de rest.
Een tijdreeks registreert waarnemingen in de tijd. Een tijdgrafiek geeft deze waarnemingen weer
tegen de tijd, wat helpt om trends te identificeren door datapunten met elkaar te verbinden.
Het gemiddelde x̅ (“x balk”) is het gemiddelde van de waarnemingen. Als het aantal waarnemingen
even groot is, neem je het gemiddelde van de middelste twee waarden. Het gemiddelde kan niet
representatief zijn door een uitbijter, een extreme waarde die ver onder of boven het grootste deel
van de gegevens valt.
De mediaan is de middelste waarde, waarbij de helft van de waarnemingen kleiner en de andere
helft groter is. Deze is bestand tegen uitschieters. Als de vorm symmetrisch is, is het gemiddelde
gelijk aan de mediaan. Het gemiddelde ligt in de richting van de scheefheid (de langere staart). Bij
sterk scheve verdelingen is de mediaan beter, omdat deze nauwkeuriger typische waarden
weergeeft. Bij symmetrische of licht scheve verdelingen is het gemiddelde beter omdat het alle
waarden in beschouwing neemt.
De modus is de meest frequente waarde en geeft de meest voorkomende uitkomst weer. Het is
nuttig voor categorische gegevens en discrete kwantitatieve gegevens, maar meestal niet zinvol voor
continue gegevens. Het bereik is het verschil tussen de grootste en de kleinste waarnemingen en
wordt sterk beïnvloed door uitschieters.
Een betere numerieke samenvatting gebruikt standaardafwijkingn (s), het typische verschil tussen
waarnemingen en het gemiddelde. Omdat het gemiddelde wordt gebruikt, kan het worden
beïnvloed door uitschieters. De afwijking van elke observatie ten opzichte van het gemiddelde kan
positief (boven het gemiddelde) of negatief (onder het gemiddelde) zijn en zijn samen nul. Grotere
waarden van s vertegenwoordigen een grotere variabiliteit. s = 0 betekent dat alle waarnemingen
dezelfde waarde hebben. Om variabiliteit in steekproefstatistieken te meten, gebruiken we
gekwadrateerde afwijkingen of hun absolute waarden (x is de individuele observatie, x̅ is het
gemiddelde):
Variantie: Gemiddelde van de gekwadrateerde afwijkingen.
Σ ( x−x̅ )2
o s2 =
n−1
Standaardstandaardafwijking: De wortel van de variantie, voor makkelijkere interpretatie.
o
Σ(x−x̅ )2 = √ s om van de gekwadrateerde deviaties
s=√
n−1 steekproefgrootte−1
Som van de kwadraten: Het totaal van de standaardafwijkings in het kwadraat.
o Σ(x - gemiddelde)²