100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
Data Science for Auditors - Samenvatting & R codes (programmeren) - UvA €10,49   In winkelwagen

Samenvatting

Data Science for Auditors - Samenvatting & R codes (programmeren) - UvA

 44 keer bekeken  4 keer verkocht

Dit document betreft een samenvatting voor Data Science for Auditors met toelichting over de R codes (programmeren), welke voorkomen in de Jupyter huiswerkopdrachten. Dit vak wordt aangeboden aan de UvA voor de Post-Master Accountancy.

Voorbeeld 4 van de 39  pagina's

  • 29 juni 2023
  • 39
  • 2022/2023
  • Samenvatting
Alle documenten voor dit vak (1)
avatar-seller
davidcarvalho
Samenvatting – Data science for auditors

Inhoud
Introductie ............................................................................................................................................... 2
Handreiking 1141 .................................................................................................................................... 7
Audit standards and data-driven audit planning ...................................................................................... 7
Process mining ...................................................................................................................................... 14
Data engineering.................................................................................................................................... 18
Estimation, hypothesis testing, sampling .............................................................................................. 20
Estimation.......................................................................................................................................... 20
Hypothesis testing ............................................................................................................................. 22
Sampling – ISA/AU 530 ................................................................................................................... 23
Predictive analytics with regression ...................................................................................................... 25
Regression analysis ........................................................................................................................... 25
Sampling – ISA/AU 520 ................................................................................................................... 29
Machine Learning.................................................................................................................................. 31
Fraud detection ...................................................................................................................................... 33
Advanced analytics and artificial intelligence (AI) ............................................................................... 35
Jupyter codes ......................................................................................................................................... 37
Data engineering................................................................................................................................ 37
Estimation.......................................................................................................................................... 37
Attribute sampling ............................................................................................................................. 38




1

,Introductie
Data
Gestructureerde data verwijst naar informatie die in een duidelijk gedefinieerd formaat is
georganiseerd, zoals tabellen of databases. Bijvoorbeeld: een Excel-spreadsheet met klantgegevens.
Ongestructureerde data is niet georganiseerd en heeft geen duidelijke indeling, zoals e-mails of
sociale media-updates. Interne data is afkomstig van bronnen binnen een organisatie, zoals
verkoopcijfers. Externe data komt van buiten de organisatie, zoals marktonderzoeksrapporten.




Data-driven audit planning
- Understanding the entity
- Risk assessment
- Risk response
o Data analytics objectives, approach & tools
o Integration into the audit plan
- Determining data requirements




Data Engineering
Data engineering is het proces van het verzamelen van data vanuit het systeem, organiseren en
voorbereiden voordat er mee wordt geanalyseerd. Hierbij worden verschillende stappen doorlopen:
1. Data-identificatie: Identificeren van de relevante databronnen en het begrijpen van de aard en
structuur van de beschikbare data.
2. Data-extractie: Het extraheren van de benodigde data uit verschillende bronnen, zoals
databases, logbestanden of externe API's.
3. Data-kwaliteitscontrole: Het controleren en valideren van de kwaliteit van de verzamelde data
om ervoor te zorgen dat het compleet, nauwkeurig en consistent is. Dit omvat het identificeren
en oplossen van ontbrekende waarden, inconsistenties of anomalieën.
4. Data-transformatie: Het omzetten en aanpassen van de ruwe data naar een gestructureerd
formaat dat geschikt is voor analyse en verwerking. Dit omvat het uitvoeren van
gegevensreiniging, aggregatie, normalisatie of het toepassen van complexe transformaties
zoals joins of splitsingen.


2

,Door deze stappen van data engineering te doorlopen, kunnen accountants waardevolle inzichten uit
de data halen en deze gebruiken voor analyses voor jaarrekeningcontrole.

Hypothesis testing, sampling, estimation
Steekproeven(sampling): ISA530.
Hoe kan je op basis van een steekproef een redelijke uitspraak doen over een populatie?
Om een redelijke uitspraak te doen over een populatie op basis van een steekproef, is het belangrijk
dat de steekproef representatief is. Dit betekent dat de geselecteerde steekproefitems op een
willekeurige manier moeten worden gekozen en dat ze een goede afspiegeling vormen van de hele
populatie. Het gebruik van statistische technieken, zoals willekeurige steekproeftrekking en berekening
van betrouwbaarheidsintervallen, kan helpen bij het maken van uitspraken over de gehele populatie
op basis van de steekproefresultaten.

Hoe kan je een optimale steekproefomvang bepalen?
Het bepalen van de optimale steekproefomvang is afhankelijk van verschillende factoren, waaronder
het gewenste betrouwbaarheidsniveau, de omvang van de populatie en het verwachte
foutenpercentage. Om de steekproefomvang te bepalen, kunnen statistische methoden, zoals de
formule voor het berekenen van de benodigde steekproefomvang op basis van de gewenste
betrouwbaarheid en de verwachte foutenpopulatie, worden toegepast. Het is belangrijk om een
voldoende grote steekproefomvang te kiezen om een betrouwbaar resultaat te verkrijgen zonder
onnodige kosten of tijdsinvesteringen.

Hoe weet je of het steekproefrisico tot een aanvaardbaar niveau beperkt blijft?
Het beperken van het steekproefrisico tot een aanvaardbaar niveau wordt bereikt door het instellen van
een acceptabel foutniveau en een betrouwbaarheidsniveau. Het steekproefrisico, ook wel bekend als de
toelaatbare afwijzingsrisico, is de kans dat de conclusies op basis van de steekproef niet overeenkomen
met de werkelijke populatie. Dit risico kan worden beheerst door het bepalen van een geschikt
betrouwbaarheidsniveau en een fouttolerantie, waarbij rekening wordt gehouden met de
risicoacceptatie van de gebruiker van het steekproefresultaat. Dit kan worden bereikt door het
toepassen van statistische methoden, zoals het berekenen van de fouttolerantie en de gewenste
betrouwbaarheid op basis van de steekproefresultaten.

Schatten (estimation) en toetsen(hypothesis testing)
Hoe kan je op basis van een steekproef een schatting maken met een bepaald zekerheidsinterval?
Om een schatting te maken met een bepaald zekerheidsinterval op basis van een steekproef, kunnen
statistische methoden worden gebruikt. Een veelgebruikte techniek is het berekenen van een
betrouwbaarheidsinterval. Dit interval geeft een range aan waarden waarin de werkelijke
populatiewaarde naar verwachting valt met een bepaalde mate van zekerheid.
Om een betrouwbaarheidsinterval te berekenen, wordt vaak gebruikgemaakt van de normale
verdeling of de t-verdeling, afhankelijk van de steekproefgrootte en andere factoren. De formule voor
het berekenen van het betrouwbaarheidsinterval is gebaseerd op de steekproefstatistieken, zoals de
steekproefgemiddelde en de standaarddeviatie, evenals het gewenste betrouwbaarheidsniveau.

Hoe kan je een hypothese over een populatie toetsen?
Het toetsen van een hypothese over een populatie kan worden gedaan met behulp van
hypothesetesting, waarbij statistische methoden worden gebruikt om te bepalen of de gegevens
voldoende bewijs leveren om de hypothese te ondersteunen of te verwerpen. Er zijn twee typen
hypothesen: de nulhypothese (H0) en de alternatieve hypothese (H1).
Bij hypothesetesting wordt eerst een nulhypothese opgesteld, die meestal stelt dat er geen
verschil of geen relatie is in de populatie. Vervolgens wordt een steekproef genomen en worden


3

, statistische testen toegepast om te bepalen of de gegevens voldoende bewijs leveren om de
nulhypothese te verwerpen ten gunste van de alternatieve hypothese.
Bij het uitvoeren van hypothesetesting wordt een significantieniveau gekozen, meestal
aangeduid als α, dat de kans op het ten onrechte verwerpen van de nulhypothese aangeeft. Als het p-
waarde (de kans op het waarnemen van de gegevens of extremere gegevens, gegeven de nulhypothese)
kleiner is dan het gekozen significantieniveau, wordt de nulhypothese verworpen en wordt
geconcludeerd dat er voldoende bewijs is om de alternatieve hypothese te ondersteunen.

Predictive analytics: regression analysis
Wat is correlatie?
Correlatie is een statistische maatstaf die de relatie tussen twee variabelen meet. Het geeft aan in
hoeverre veranderingen in de ene variabele gepaard gaan met veranderingen in de andere variabele.
Correlatie varieert tussen -1 en 1, waarbij een correlatie van 1 een perfecte positieve relatie aangeeft, -
1 een perfecte negatieve relatie en 0 geen lineaire relatie.

Hoe kun je met regressie-analyse een voorspellend model bouwen?
Met regressie-analyse kun je een voorspellend model bouwen door de relatie tussen een afhankelijke
variabele en één of meer onafhankelijke variabelen te modelleren. Het doel is om een wiskundige
vergelijking te vinden die de afhankelijke variabele zo goed mogelijk voorspelt op basis van de
waarden van de onafhankelijke variabelen.

Aan welke voorwaarden moet je dan voldoen?
Om een voorspellend regressiemodel te bouwen, moet je aan bepaalde voorwaarden voldoen,
waaronder:
- Lineaire relatie: Er moet een lineaire relatie zijn tussen de afhankelijke en onafhankelijke
variabelen.
- Onafhankelijkheid van fouten: De fouttermen in het model moeten onafhankelijk zijn van
elkaar.
- Homoscedasticiteit: De variantie van de fouttermen moet constant zijn over het bereik van de
voorspelde waarden.
- Geen multicollineariteit: De onafhankelijke variabelen mogen onderling geen sterke lineaire
relatie hebben.

Hoe kan je toetsen of je model “goed” is?
Om te beoordelen of een regressiemodel "goed" is, zijn er verschillende statistieken en grafieken die
kunnen worden gebruikt:
- R-kwadraat (R²): Dit geeft de proportie van de variantie in de afhankelijke variabele weer die
wordt verklaard door het model. Een hogere R²-waarde geeft een betere pasvorm aan.
- Gecorrigeerd R-kwadraat: Dit houdt rekening met het aantal variabelen en de
steekproefgrootte, en het helpt om overmatige complexiteit in het model te vermijden.
- F-toets: Dit toetst de significantie van het gehele model.
- Residu-analyse: Door de residuen (de verschillen tussen de werkelijke en voorspelde waarden)
te analyseren, kunnen patronen, niet-lineaire relaties of heteroscedasticiteit worden
geïdentificeerd.

Machine learning en fraud detection
Wat is machine learning?
Machine learning is een tak van kunstmatige intelligentie (AI) die zich richt op het ontwikkelen van
algoritmen en modellen die computers in staat stellen te leren en taken uit te voeren zonder expliciete
programmering. Het draait om het bouwen van modellen die patronen in gegevens kunnen
identificeren en gebruiken om voorspellingen te doen, patronen te herkennen of beslissingen te nemen.




4

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper davidcarvalho. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €10,49. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 83662 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen
€10,49  4x  verkocht
  • (0)
  Kopen