Data Science for Auditors - Samenvatting & R codes (programmeren) - UvA
44 views 4 purchases
Course
Data Science for Auditors (6614ZP021Y)
Institution
Universiteit Van Amsterdam (UvA)
Dit document betreft een samenvatting voor Data Science for Auditors met toelichting over de R codes (programmeren), welke voorkomen in de Jupyter huiswerkopdrachten. Dit vak wordt aangeboden aan de UvA voor de Post-Master Accountancy.
,Introductie
Data
Gestructureerde data verwijst naar informatie die in een duidelijk gedefinieerd formaat is
georganiseerd, zoals tabellen of databases. Bijvoorbeeld: een Excel-spreadsheet met klantgegevens.
Ongestructureerde data is niet georganiseerd en heeft geen duidelijke indeling, zoals e-mails of
sociale media-updates. Interne data is afkomstig van bronnen binnen een organisatie, zoals
verkoopcijfers. Externe data komt van buiten de organisatie, zoals marktonderzoeksrapporten.
Data-driven audit planning
- Understanding the entity
- Risk assessment
- Risk response
o Data analytics objectives, approach & tools
o Integration into the audit plan
- Determining data requirements
Data Engineering
Data engineering is het proces van het verzamelen van data vanuit het systeem, organiseren en
voorbereiden voordat er mee wordt geanalyseerd. Hierbij worden verschillende stappen doorlopen:
1. Data-identificatie: Identificeren van de relevante databronnen en het begrijpen van de aard en
structuur van de beschikbare data.
2. Data-extractie: Het extraheren van de benodigde data uit verschillende bronnen, zoals
databases, logbestanden of externe API's.
3. Data-kwaliteitscontrole: Het controleren en valideren van de kwaliteit van de verzamelde data
om ervoor te zorgen dat het compleet, nauwkeurig en consistent is. Dit omvat het identificeren
en oplossen van ontbrekende waarden, inconsistenties of anomalieën.
4. Data-transformatie: Het omzetten en aanpassen van de ruwe data naar een gestructureerd
formaat dat geschikt is voor analyse en verwerking. Dit omvat het uitvoeren van
gegevensreiniging, aggregatie, normalisatie of het toepassen van complexe transformaties
zoals joins of splitsingen.
2
,Door deze stappen van data engineering te doorlopen, kunnen accountants waardevolle inzichten uit
de data halen en deze gebruiken voor analyses voor jaarrekeningcontrole.
Hypothesis testing, sampling, estimation
Steekproeven(sampling): ISA530.
Hoe kan je op basis van een steekproef een redelijke uitspraak doen over een populatie?
Om een redelijke uitspraak te doen over een populatie op basis van een steekproef, is het belangrijk
dat de steekproef representatief is. Dit betekent dat de geselecteerde steekproefitems op een
willekeurige manier moeten worden gekozen en dat ze een goede afspiegeling vormen van de hele
populatie. Het gebruik van statistische technieken, zoals willekeurige steekproeftrekking en berekening
van betrouwbaarheidsintervallen, kan helpen bij het maken van uitspraken over de gehele populatie
op basis van de steekproefresultaten.
Hoe kan je een optimale steekproefomvang bepalen?
Het bepalen van de optimale steekproefomvang is afhankelijk van verschillende factoren, waaronder
het gewenste betrouwbaarheidsniveau, de omvang van de populatie en het verwachte
foutenpercentage. Om de steekproefomvang te bepalen, kunnen statistische methoden, zoals de
formule voor het berekenen van de benodigde steekproefomvang op basis van de gewenste
betrouwbaarheid en de verwachte foutenpopulatie, worden toegepast. Het is belangrijk om een
voldoende grote steekproefomvang te kiezen om een betrouwbaar resultaat te verkrijgen zonder
onnodige kosten of tijdsinvesteringen.
Hoe weet je of het steekproefrisico tot een aanvaardbaar niveau beperkt blijft?
Het beperken van het steekproefrisico tot een aanvaardbaar niveau wordt bereikt door het instellen van
een acceptabel foutniveau en een betrouwbaarheidsniveau. Het steekproefrisico, ook wel bekend als de
toelaatbare afwijzingsrisico, is de kans dat de conclusies op basis van de steekproef niet overeenkomen
met de werkelijke populatie. Dit risico kan worden beheerst door het bepalen van een geschikt
betrouwbaarheidsniveau en een fouttolerantie, waarbij rekening wordt gehouden met de
risicoacceptatie van de gebruiker van het steekproefresultaat. Dit kan worden bereikt door het
toepassen van statistische methoden, zoals het berekenen van de fouttolerantie en de gewenste
betrouwbaarheid op basis van de steekproefresultaten.
Schatten (estimation) en toetsen(hypothesis testing)
Hoe kan je op basis van een steekproef een schatting maken met een bepaald zekerheidsinterval?
Om een schatting te maken met een bepaald zekerheidsinterval op basis van een steekproef, kunnen
statistische methoden worden gebruikt. Een veelgebruikte techniek is het berekenen van een
betrouwbaarheidsinterval. Dit interval geeft een range aan waarden waarin de werkelijke
populatiewaarde naar verwachting valt met een bepaalde mate van zekerheid.
Om een betrouwbaarheidsinterval te berekenen, wordt vaak gebruikgemaakt van de normale
verdeling of de t-verdeling, afhankelijk van de steekproefgrootte en andere factoren. De formule voor
het berekenen van het betrouwbaarheidsinterval is gebaseerd op de steekproefstatistieken, zoals de
steekproefgemiddelde en de standaarddeviatie, evenals het gewenste betrouwbaarheidsniveau.
Hoe kan je een hypothese over een populatie toetsen?
Het toetsen van een hypothese over een populatie kan worden gedaan met behulp van
hypothesetesting, waarbij statistische methoden worden gebruikt om te bepalen of de gegevens
voldoende bewijs leveren om de hypothese te ondersteunen of te verwerpen. Er zijn twee typen
hypothesen: de nulhypothese (H0) en de alternatieve hypothese (H1).
Bij hypothesetesting wordt eerst een nulhypothese opgesteld, die meestal stelt dat er geen
verschil of geen relatie is in de populatie. Vervolgens wordt een steekproef genomen en worden
3
, statistische testen toegepast om te bepalen of de gegevens voldoende bewijs leveren om de
nulhypothese te verwerpen ten gunste van de alternatieve hypothese.
Bij het uitvoeren van hypothesetesting wordt een significantieniveau gekozen, meestal
aangeduid als α, dat de kans op het ten onrechte verwerpen van de nulhypothese aangeeft. Als het p-
waarde (de kans op het waarnemen van de gegevens of extremere gegevens, gegeven de nulhypothese)
kleiner is dan het gekozen significantieniveau, wordt de nulhypothese verworpen en wordt
geconcludeerd dat er voldoende bewijs is om de alternatieve hypothese te ondersteunen.
Predictive analytics: regression analysis
Wat is correlatie?
Correlatie is een statistische maatstaf die de relatie tussen twee variabelen meet. Het geeft aan in
hoeverre veranderingen in de ene variabele gepaard gaan met veranderingen in de andere variabele.
Correlatie varieert tussen -1 en 1, waarbij een correlatie van 1 een perfecte positieve relatie aangeeft, -
1 een perfecte negatieve relatie en 0 geen lineaire relatie.
Hoe kun je met regressie-analyse een voorspellend model bouwen?
Met regressie-analyse kun je een voorspellend model bouwen door de relatie tussen een afhankelijke
variabele en één of meer onafhankelijke variabelen te modelleren. Het doel is om een wiskundige
vergelijking te vinden die de afhankelijke variabele zo goed mogelijk voorspelt op basis van de
waarden van de onafhankelijke variabelen.
Aan welke voorwaarden moet je dan voldoen?
Om een voorspellend regressiemodel te bouwen, moet je aan bepaalde voorwaarden voldoen,
waaronder:
- Lineaire relatie: Er moet een lineaire relatie zijn tussen de afhankelijke en onafhankelijke
variabelen.
- Onafhankelijkheid van fouten: De fouttermen in het model moeten onafhankelijk zijn van
elkaar.
- Homoscedasticiteit: De variantie van de fouttermen moet constant zijn over het bereik van de
voorspelde waarden.
- Geen multicollineariteit: De onafhankelijke variabelen mogen onderling geen sterke lineaire
relatie hebben.
Hoe kan je toetsen of je model “goed” is?
Om te beoordelen of een regressiemodel "goed" is, zijn er verschillende statistieken en grafieken die
kunnen worden gebruikt:
- R-kwadraat (R²): Dit geeft de proportie van de variantie in de afhankelijke variabele weer die
wordt verklaard door het model. Een hogere R²-waarde geeft een betere pasvorm aan.
- Gecorrigeerd R-kwadraat: Dit houdt rekening met het aantal variabelen en de
steekproefgrootte, en het helpt om overmatige complexiteit in het model te vermijden.
- F-toets: Dit toetst de significantie van het gehele model.
- Residu-analyse: Door de residuen (de verschillen tussen de werkelijke en voorspelde waarden)
te analyseren, kunnen patronen, niet-lineaire relaties of heteroscedasticiteit worden
geïdentificeerd.
Machine learning en fraud detection
Wat is machine learning?
Machine learning is een tak van kunstmatige intelligentie (AI) die zich richt op het ontwikkelen van
algoritmen en modellen die computers in staat stellen te leren en taken uit te voeren zonder expliciete
programmering. Het draait om het bouwen van modellen die patronen in gegevens kunnen
identificeren en gebruiken om voorspellingen te doen, patronen te herkennen of beslissingen te nemen.
4
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller davidcarvalho. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $11.76. You're not tied to anything after your purchase.