Garantie de satisfaction à 100% Disponible immédiatement après paiement En ligne et en PDF Tu n'es attaché à rien
logo-home
DSA-paper regressie analayse €8,49   Ajouter au panier

Dissertation

DSA-paper regressie analayse

 37 vues  2 fois vendu
  • Cours
  • Établissement

In deze paper staat een regressieanalyse centraal. Het doel van deze paper is het ontwikkelen van een model die het mogelijk maakt om de omzet van een taxionderneming te voorspellen. In de paper werk ik onder andere het volgende uit: De V's van Big data, het model van Gartner, de Wisdom Pyramid, d...

[Montrer plus]

Aperçu 4 sur 37  pages

  • 15 octobre 2022
  • 37
  • 2021/2022
  • Dissertation
  • Inconnu
  • 8-9
avatar-seller
NY Taxi omzet
voorspellen
Data-analyse in de audit praktijk




Student: Tim van der Weiden
Studentnummer: 000476290
Universiteit: Nyenrode Business Universiteit
Vak: Data Science in Auditing
Datum: 17-06-2022
Aantal woorden: 4.985

,Inhoudsopgave
1. Inleiding ......................................................................................................................................................... 3
1.1 Inleiding ................................................................................................................................................. 3
1.2 Onderzoeksvraag ................................................................................................................................... 3

2. Dataset ............................................................................................................................................................ 4
2.1 Inlezen dataset ....................................................................................................................................... 4
2.2 Beschrijving van de variabelen ............................................................................................................. 4
2.3 Descriptives ........................................................................................................................................... 4
2.4 Analyse in R ........................................................................................................................................... 5

3. Theorie ........................................................................................................................................................... 6
3.1 Relevantie in de audit context ................................................................................................................ 6
3.2 Aard analyse .......................................................................................................................................... 6
3.3 De V’s van big data ............................................................................................................................... 7
3.4 Gartner .................................................................................................................................................. 8
3.5 Inductief vs. deductief ............................................................................................................................ 9
3.6 Audit comfort cycle ................................................................................................................................ 9
3.7 ‘Push left’-principe .............................................................................................................................. 10
3.8 Bias-Variance trade-off ....................................................................................................................... 10

4. Data-analyse................................................................................................................................................. 12
4.1 Kenmerken van de analyse .................................................................................................................. 12
4.2 Resultaten van de analyse.................................................................................................................... 13
4.3 Risico’s van de analyse........................................................................................................................ 15
4.4 Conclusie ............................................................................................................................................. 16

Bibliografie ............................................................................................................................................................ 17

Appendix A ............................................................................................................................................................ 18

Appendix B ............................................................................................................................................................ 24

Appendix C ............................................................................................................................................................ 37




2

, 1. Inleiding
1.1 Inleiding
Deze paper is geschreven ter afsluiting van het vak Data Science in Auditing dat deel
uitmaakt van de Master of Science in Accountancy aan Nyenrode Business Universiteit. Het
doel van dit vak is om stil te staan bij de recente ontwikkelingen op het gebied van data-
analyse in de audit praktijk. Data-analyse krijgt bij de grotere kantoren in Nederland steeds
meer aandacht. Speciale afdelingen zijn opgericht ten einde tools te ontwikkelen die gebruikt
kunnen worden bij de controle van jaarrekeningen. Enerzijds kan Data-analyse gebruikt
worden om een beter begrip te krijgen van de cliënt, haar processen en haar omgeving.
Anderzijds kan data-analyse bijdragen aan het verkrijgen van zekerheid bij bepaalde
werkzaamheden (NBA, 2019). Hieruit blijkt dat data-analyse in meerdere stadia van de
controle toepasbaar is.

1.2 Onderzoeksvraag
In deze paper staat een data-analyse centraal. De data-analyse wordt gebruikt om een
vraagstuk vanuit de audit praktijk te beantwoorden. De dataset die is gebruikt bevat de
gegevens van taxiritten in New York uit de periode 2008 tot en met 2021. Aan de hand van
deze dataset zal een regressiemodel worden opgesteld waarmee de prijs van een taxirit
geschat/voorspeld kan worden. In de controlepraktijk kan dit model worden gebruikt om de
omzet van een uitbater van taxi’s in New York te voorspellen en dit te vergelijken met de
omzet zoals gepresenteerd in de jaarrekening.

De onderzoeksvraag die centraal staat luidt als volgt:
“In hoeverre is de prijs van een taxirit te voorspellen op basis van kenmerken van een taxirit?”




3

, 2. Dataset
2.1 Inlezen dataset
De reeds genoemde dataset is verkregen via Kaggle.com. Kaggle is een community voor en
van datawetenschappers waarin onder andere datasets worden gepubliceerd/gedeeld. De
verkregen dataset is ingelezen in R. In Appendix A is het script dat gebruikt is ten behoeve
van deze paper opgenomen. In het script is te zien welke packages zijn gedownload en
opgehaald (via Library) en hoe de dataset is ingelezen. Vervolgens zijn de werkzaamheden en
analyses die in deze paper zijn uitgevoerd zichtbaar in het script. Om redundantie te
voorkomen zijn gehanteerde codes niet in de hoofdtekst van deze paper opgenomen.
Daarnaast is het belangrijk om op te merken dat de totale dataset uit 83.691 observaties
bestaat. Gezien het doel en omvang van deze paper is dit te omvangrijk. Derhalve is besloten
om de eerste 30.000 regels te hanteren. Deze verkorte versie betreft de basis voor deze paper.

2.2 Beschrijving van de variabelen
In R blijkt dat de originele dataset 20 variabelen bevat. Na het runnen van de code om “NA”
waardes te detecteren bleek dat de variabele “ehail_fee” voornamelijk bestond uit dergelijke
waardes. Derhalve is besloten om deze variabele te elimineren uit de dataset. Hiertoe is een
nieuwe dataset aangemaakt. Zie in Appendix B een overzicht van de variabelen die zijn
opgenomen in de dataset. Vanuit de tabel blijkt dat variabelen zijn toegevoegd ten einde een
inschaling van een dag en nacht rit te bewerkstelligen. De code hiervoor is terug te lezen in
Appendix A. Deze toegevoegde variabelen zijn verder niet relevant voor de analyse.

In de regressieanalyse zijn niet alle variabelen betrokken. Of variabelen zijn betrokken is
aangegeven in de rechter kolom van de tabel. Allereerst zijn pick up time en drop off time
vereenvoudigd tot een dag/nacht variabele op basis van de pick up time. Vervolgens is van de
waardes “dag” en “nacht” een dummy variabele gemaakt. De gecreëerde dummy variabele is
eenvoudiger te hanteren in een regressiemodel. Daarnaast kan men vraagtekens zetten bij de
mate van segmentatie van pick up times in het kader van relevantie. Of een taxirit om 8:00 of
08:05 is gestart is minder relevant dan of de taxirit overdag of ’s nachts heeft plaatsgevonden.
De hoge mate van segmentatie schiet het doel van de regressie voorbij, daarom is besloten
niet verder te segmenteren dan dag/nacht.
Voor een nadere toelichting omtrent het elimineren van de overige variabelen wordt verwezen
naar hoofdstuk 4.

2.3 Descriptives
In Appendix B is een overzicht opgenomen met daarin de descriptives van variabelen die als
continue data classificeren. Het begrip continue data houdt in dat de variabelen in principe
elke waarde kunnen aannemen. In deze paper betreffen voorbeelden hiervan de ritafstand en
de totale kosten/prijs van een rit. De overige variabelen betreffen nominale data. Voor deze
variabelen zijn frequentietabellen in Appendix B opgenomen. Dit betreffen variabelen waarbij
slechts enkele waardes mogelijk zijn, bijvoorbeeld het aantal passagiers.
Vanwege de opbouw van de gegevens in de kolommen pick up time en drop off time zijn
geen descriptives opgenomen. Voor elke rit zijn namelijk het jaartal, de maand, de dag, de
uren, de minuten en de secondes opgenomen. Dit is te gesegmenteerd voor een overzichtelijk
descriptive. Tevens is in deze overweging meegenomen dat ten behoeve van de regressie deze
variabelen zijn vereenvoudigd tot een dummy variabele waarvan een frequentietabel is
opgenomen. Tevens zijn de frequentietabellen of descriptives van de variabelen time, hours



4

Les avantages d'acheter des résumés chez Stuvia:

Qualité garantie par les avis des clients

Qualité garantie par les avis des clients

Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.

L’achat facile et rapide

L’achat facile et rapide

Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.

Focus sur l’essentiel

Focus sur l’essentiel

Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.

Garantie de remboursement : comment ça marche ?

Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.

Auprès de qui est-ce que j'achète ce résumé ?

Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur Weid01. Stuvia facilite les paiements au vendeur.

Est-ce que j'aurai un abonnement?

Non, vous n'achetez ce résumé que pour €8,49. Vous n'êtes lié à rien après votre achat.

Peut-on faire confiance à Stuvia ?

4.6 étoiles sur Google & Trustpilot (+1000 avis)

79271 résumés ont été vendus ces 30 derniers jours

Fondée en 2010, la référence pour acheter des résumés depuis déjà 14 ans

Commencez à vendre!
€8,49  2x  vendu
  • (0)
  Ajouter