Samenvatting

Samenvatting dataverwerking

1 keer verkocht

Vak
Dataverwerking

Instelling
Odisee Hogeschool (Odisee)

Samenvatting van de hoorcolleges (alle theoretische info die je moet kennen omtrent het vak dataverwerking). De oefeningen zijn ook een onderdeel van dit vak maar je mag geen oefeningen gebruiken op het examen.

[Meer zien]

Voorbeeld 4 van de 36 pagina's

Bekijk voorbeeld

Geupload op 10 november 2022
Aantal pagina's 36
Geschreven in 2022/2023
Type Samenvatting

Volgen

gemmafisher Lid sinds 7 jaar 93 documenten verkocht

€6,49

In winkelwagen

Op verlanglijstje

100% tevredenheidsgarantie
Direct beschikbaar na je betaling
Lees online óf als PDF
Geen vaste maandelijkse kosten

Hoofdstuk 1 – Inleiding
Statistiek verwijst vaak naar numerieke informatie, bijvoorbeeld informatie over:

 de bevolking van een land: geboorte- en sterftecijfers, immigraties en emigraties, …
(bevolkingsstatistieken)
 de Vlaamse landbouw en visserij: aantal bedrijven, bedrijfsgrootte, productie/aanvoerhoeveelheid, …
 dierproefstatistieken

Maar statistiek is eigenlijk meer dan dat. Het wordt gezien als een wetenschap die zich bezighoudt met het
verzamelen, analyseren en interpreteren van gegevens om vooropgestelde onderzoeksvragen te kunnen
beantwoorden. Deze gegevens zijn vandaag de dag vaak talrijk aanwezig. Zo vormt het internet een bron aan
informatie (heel veel datasets terug te vinden), maar vaak worden de gegevens ook zelf actief verzameld door
bijvoorbeeld het uitvoeren van experimenten of het afnemen van enquêtes.

Eens de nodige gegevens verzameld zijn is het dus belangrijk om deze te verwerken tot bruikbare informatie om
een antwoord te kunnen geven op de vooropgestelde onderzoeksvragen, zoals bijvoorbeeld:

 Heeft een nieuwe meststof invloed op de plantengroei?
 Wat is de invloed van regelmatig joggen op bloeddruk?
 Wordt de groei van tarwewortels geremd door hoge niveaus van aluminiumionen in de bodem?
 Is er een verschil in visie tussen jongeren en ouderen wat betreft de voedselveiligheid?
 Heeft socialisatie bij pups een effect op het latere gedrag?

Deze vragen kunnen zelden tot nooit beantwoord worden bij het louter bekijken van de verzamelde gegevens. Zo
zal je om na te gaan of een nieuwe meststof een invloed heeft op de plantengroei op zijn minst al de gemiddelde
lengte van de planten moeten berekenen (deze eenvoudige verwerking van de gegevens behoort ook al tot het
luik statistiek). Daarnaast moet je bij het beantwoorden van deze onderzoeksvragen ook rekening houden met het
feit dat de verzamelde gegevens onderhevig zijn aan variatie. Dit laatste wordt geïllustreerd aan de hand van
onderstaand voorbeeld:

Begrippen biologische en systematische variatie
Voorbeeld 1.1

Hoe iemand reageert op aspirine en of dit voor iedereen even effectief is, is meestal niet exact te voorspellen en
hangt af van:

 mensen verschillen in gewicht, ziektegraad, gevoeligheid voor een stof, …
 wanneer ingenomen 's morgens of 's avonds, als persoon moe of uitgerust is, voor of na het eten, op
geregelde tijdstippen of met onregelmatige intervallen, …
 variatie binnen een persoon, bloeddruk vandaag of morgen op exact hetzelfde tijdstip kan al sterk
variëren

De aanwezigheid van die biologische variabiliteit is bijzonder opvallend in de context van roken: de schadelijke
gevolgen van roken op longkanker en hartaandoeningen zijn intussen goed gekend, maar nagenoeg iedereen
kent wel iemand die zijn hele leven gerookt heeft en desondanks meer dan 80 jaar oud geworden is.

Omwille van deze biologische variabiliteit is het moeilijk om wetenschappelijke vragen goed te beantwoorden en
zal men zelden onmiddellijk het antwoord zien na het bekijken van ruwe gegevens.

Laat ons teruggaan naar de vraag of een nieuwe meststof effect heeft op de plantengroei. Om dit te achterhalen
zou een experiment kunnen uitgevoerd worden waarbij een groep planten de oude meststof krijgt toegediend en
een andere groep de nieuwe meststof. Indien er verschillen merkbaar zijn in de plantengroei tussen de twee
groepen dan zullen we met statistiek proberen na te gaan hoeveel van deze verschillen in plantengroei toe te
schrijven is aan systematische verschillen (in dit geval het gebruik van een andere meststof) en hoeveel toe te
schrijven is aan toeval of biologische variatie.

,Doel van statistiek
 Onderzoeksvragen beantwoorden
 Zelden antwoord na bekijken gegevens

 Uitkomsten zijn onderhevig aan variatie
o Voorbeeld: effect van meststof op plantengroei hangt af van:
 Omgeving: sommige planten in de zon, anderen in de schaduw
 Wanneer werd bemesting toegediend: droge periode of natte periode
 Verschil in individuele planten: sommige planten zijn zwakker
o Biologische variabiliteit

 Met statistiek kan men kwantitatieve data verwerken tot bruikbare informatie
 Aan de hand van statistiek proberen duidelijk te maken hoeveel variatie op de gegevens
o Is te verklaren door systematische verschillen
o Is te verklaren door toeval of biologische variatie

 Toegepast op voorbeeld: effect meststof op plantengroei
o We zien verschillen in plantengroei (variatie in plantengroei)
o Aan de hand van statistiek proberen duidelijk te maken hoeveel variatie in plantengroei
 Is te verklaren door systematische verschillen
 Voorbeeld: verschil in meststof (oude VS nieuwe)  effect van meststof
 Is te door toeval of biologische variatie
 Voorbeeld: verschil in individuele planten

Onderwerp van statistiek
Populatie: verzameling van alle objecten, subjecten waarover we uitspraak doen
 Alle veehouders in Vlaanderen
 Alle planten van een bepaalde soort

Gegevens: geobserveerde / geregistreerde eigenschappen of karakteristieken  variabelen
 Grootte van de plan (in cm), toegediend meststof (oude of nieuwe)

Meestal populatie heel groot, geen tijd of budget om elk element te observeren

Steekproef: een voldoende grote en representatieve deelgroep van de populatie wordt bestudeerd.

,Hoofdstuk 2 – Beschrijvende statistiek
Doel van dit hoofdstuk:

 Juiste keuze grafiek
 Keuze geschikte samenvattingsmaten
 Interpretatie grafieken en maatstaven om zo tot een conclusie te komen voor de steekproef
 Opmerking: het maken van de grafieken en het berekenen van de maatstaven komt aan bod in de handleiding van
SPSS

Voorbeeld: slagtanden

 Parkwachters in het Mikumi National Park in Tanzania verzamelden in 1983 gegevens i.v.m. de slagtanden van
olifanten (dode olifanten = subject dat we bestuderen).
 Id: identificatie olifant
 Aantal: aantal resterende slagtanden
 Gewicht 1: de massa in kg van de grootste resterende slagtand
 Klasse 1: gewichtscategorie van de grootste resterende slagtand: 1= licht, 2=licht tot middelmatig, 3=middelmatig tot
zwaar, 4=zwaar
 Oorzaak: doodsoorzaak: 1=ziekte, 2=stropers, 3=trein, 4=onbekend, 5=controle (d.i. parkwachters doden soms
olifanten omwille van de gevaren die ze stellen voor dorpen, toeristen, …)
o 1 = … ; 2 = … ; … = codering van een klasse/variabele
o Variabelen: id, aantal, gewicht, klasse, oorzaak, …

Id Aantal Gewicht 1 Klasse 1 Oorzaak
1 2 9,03 3 2
2 2 12,03 4 3
3 2 4,50 2 2
4 1 2,50 1 1
5 2 1,50 1 1
6 1 0,50 1 1
7 1 2,50 1 2
… …
Deel van de verzamelde dataset  verschillende variabelen (kolommen), verschillende subjecten (rijen)

Voorbeeld stroomgebied

 Chemische eigenschappen van beboste stroomgebieden
 Catskill bergen in New York State
 39 sites op eerste en tweede orde stromen (39 subjecten/waarnemingen)
 Concentraties van 10 chemische variabelen gemiddeld over 3 jaar

Welke variabelen/eigenschappen werden er per staal waargenomen?

 Stroom: naam van de stroom
 Max: maximale hoogte (in m) van de rivier
 Samp: hoogte (in m) van de site waar de stalen genomen werden
 Lengte: lengte (in m) van de stroom
 Opp: grootte (in ha) van het stroomgebied
 NH4: 𝑁𝐻4+ concentratie (in μmol per liter)
 SO4: 𝑆𝑂42− concentratie (in μmol per liter)
 CL: 𝐶𝐿− concentratie (in μmol per liter)
 Hoogtecat: 1=stalen die minstens 500 m boven de zeespiegel verzameld werden, 0=alle resterende stalen

STROOM MAX SAMP LENGTE OPP NH4 SO4 CL HOOGTECAT
Santa Cruz 1006 680 1680 23 0,8 50,6 15,5 1
Colgate 1216 628 3912 462 1,4 55,4 16,4 1
Halsey 1204 625 4032 297 0,8 56,5 17,1 1
Batavia Kill 1213 663 3072 399 1,4 57,5 16,8 1
Windham Ridge 1074 616 2520 207 0,6 58,3 18,3 1
Silver Spring 1113 451 3120 348 1,1 63 15,7 0
Little Timber 1027 463 2064 179 1,4 66,5 26,9 0
… …
Kolommen: verschillende variabelen; rijen: waarnemingen/subjecten (39 rijen origineel – dit is een stukje)

, Variabele
 Variabele: geobserveerde eigenschap van de bestudeerde subjecten.
 Waarde/uitkomst van een variabele varieert van subject tot subject
 Wordt verzameld in een dataset die verder bestudeerd wordt

Oefeningenbundel: oefening 2
Een kweker van vissen heeft de keuze uit 3 verschillende visvoeders bij zijn leverancier. Om te beslissen welk visvoeder hij in
de toekomst gaat gebruiken voor zijn vissen, wil de kweker nagaan of het type visvoeder een invloed heeft op het
lichaamsgewicht van vissen. Om deze vraag te beantwoorden plaatst de kweker 90 jonge vissen (van eenzelfde soort en met
gelijkaardig startgewicht) willekeurig in 3 verschillende tanks (iedere tank 30 vissen) waarbij iedere tank een ander visvoeder
krijgt. Na 24 weken, wanneer de vissen volgroeid zijn, meet de kweker het lichaamsgewicht van iedere vis.

 Welke variabelen worden er hier bestudeerd om de onderzoeksvraag te kunnen beantwoorden?
o Type visvoeder dat iedere vis krijgt = kwalitatief nominaal
o Lichaamsgewicht (eindgewicht) van iedere vis = kwantitatief continue

Meetschaal van variabelen
 Meetschaal van de variabele is cruciaal voor bepalen van:
o Geschikte grafiek
o Geschikte associatiemaat
o Eerste stap ter bepaling geschikte hypothesetest

 Type variabelen/meetschalen
o Kwalitatieve variabelen (geen getallen)
 Nominale variabelen (categorieën die je niet kan ordenen)
 Vb: bloedgroep, kleur ogen, geslacht, …
 Ordinale variabelen (categorieën die je kan ordenen)
 Vb: gewichtscategorie, antwoorden op enquêtes, …

o Kwantitatieve variabelen (getallen)
 Discrete variabelen (niet oneindig achter de komma)
 Vb: tellingen/aantallen
 Continue variabelen (oneindig achter de komma)
 Vb: leeftijd, gewicht, …

Oefening: welke soort variabele?
Id Kwalitatief nominaal
Aantal Kwantitatief discreet
Gewicht 1 Kwantitatief continue
Klasse 1 Kwalitatief ordinaal
Oorzaak Kwalitatief nominaal
Naam van de stroom Kwalitatief nominaal
Maximale hoogte (in m) van de rivier Kwantitatief continue
Hoogte (in m) van de site waar de stalen genomen werden Kwantitatief continue
Lengte (in m) van de stroom Kwantitatief continue
Grootte (in ha) van het stroomgebied Kwantitatief continue
NH4+ concentratie (in µmol per liter) Kwantitatief continue
SO4 2- concentratie (in µmol per liter) Kwantitatief continue
Cl- concentratie (in µmol per liter) Kwantitatief continue
Hoogtecategorie: 1 = stalen die minstens 500 m boven de Kwalitatief nominaal/ordinaal
zeespiegel verzameld werden, 0 = alle resterende stalen

Univariate beschrijving
 Naar iedere variabele apart kijken, meer bepaald:
o Hoe zijn de geobserveerde waarden van een variabele verdeeld (locatie en spreiding)?
 Locatie = centrum = rond welk getal liggen de waarden
 Spreiding = liggen de waarden dicht of ver van elkaar
o Uitschieters of extreme waarden (outliers)?
 In eerste instantie kan dit grafisch bekeken worden
 Keuze grafieken en tabellen afhankelijk van type variabelen/meetschaal  meetschalen spelen belangrijke rol

Dit zijn jouw voordelen als je samenvattingen koopt bij Stuvia:

Bewezen kwaliteit door reviews

Studenten hebben al meer dan 850.000 samenvattingen beoordeeld. Zo weet jij zeker dat je de beste keuze maakt!

In een paar klikken geregeld

Geen gedoe — betaal gewoon eenmalig met iDeal, Bancontact of creditcard en je bent klaar. Geen abonnement nodig.

Focus op de essentie

Studenten maken samenvattingen voor studenten. Dat betekent: actuele inhoud waar jij écht wat aan hebt. Geen overbodige details!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper gemmafisher. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €6,49. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 69411 samenvattingen verkocht

Opgericht in 2010, al 15 jaar dé plek om samenvattingen te kopen

Start met verkopen

Samenvatting

Samenvatting dataverwerking

Document informatie

Onderwerpen

Geschreven voor

Verkoper

Ontvangen beoordelingen

Voorbeeld van de inhoud