Drs. a.t.h. van der linden
All classes
Subjects
tax
technology
Written for
Tilburg University (UVT)
Fiscale Economie/Fiscaal Recht
Introduction Tax & Technology (390952B6)
All documents for this subject (4)
Seller
Follow
Viscalist
Reviews received
Content preview
Werkcollege 1
Deel A: Het Big Data Proces
1. Uit welke drie fases bestaat het big data analyseproces? Stel in elk van de drie fases ontstaat een
bias, dan wel is een bias ontstaan, wat betekent dat voor de output?
De drie fases zijn: verzamelen, analyseren en gebruiken. Als in elk van de fases bias ontstaat, dan is
de output ook bias. Bias kan ontstaan in elk van de drie fasen. Verzamelen: bijvoorbeeld alleen
volledige voornamen meenemen niet namen met alleen voorletters. Analyseren: alleen de data
analyseren die je zelf wil analyseren. Gebruiken: alleen data meenemen die je eigen standpunt
bevestigt.
2. Wat is waste-data? Bent u van mening dat de belastingdienst onbeperkt waste-data mag
gebruiken bij de aangifteselectie. Zo ja, waarom?
Waste-data is data waar niet om gevraagd wordt, maar die er wel als bijproduct extra bij komt. Ik
ben van mening dat de belastingdienst alle data mag gebruiken die ze tot haar beschikking heeft.
Hoe meer data, hoe nauwkeuriger het aangifteproces kan verlopen.
Deel B: Correlatie versus Causaliteit
3. Leg uit hoe het oorspronkelijke analyseproces is vormgegeven en hoe dat analyseproces zich
verhoudt tot data-gedreven analyses?
In het oorspronkelijke analyseproces werd er gericht gezocht naar de benodigde data die vervolgens
werd geanalyseerd en gebruikt. De mens is hierbij het startpunt. In het data gedreven analyseproces
wordt alle data die tot beschikking staat, geordend en vervolgens geanalyseerd en gebruikt. Het
startpunt is hier dus de data.
n de marketing is het voldoende om te weten dat bepaalde personen
interesse hebben in bepaalde producten (er is samenhang), zonder de oorzaak
te kennen. Zijn correlatieve verbanden, naar uw mening, vanuit enkel(!) ethisch
perspectief voldoende om juridische (deel-)besluiten op te nemen? Ga in op
aangifteselectie (deelbesluit) of aan het opleggen van een correctie (besluit).
4. In de marketing is het voldoende om te weten dat bepaalde personen interesse hebben in
bepaalde producten (er is samenhang), zonder de oorzaak te kennen. Zijn correlatieve verbanden,
naar uw mening, vanuit enkel(!) ethisch perspectief voldoende om juridische (deel-)besluiten op te
nemen? Ga in op aangifteselectie (deelbesluit) of aan het opleggen van een correctie (besluit).
In mijn ogen is een correlatief verband onvoldoende om een juridisch besluit op te nemen omdat
daarvoor een causaal verband nodig is. Een juridisch besluit zoals het opleggen van een correctie
moet gebaseerd zijn op een geconstateerd feit en niet op een aanname die gemaakt wordt naar
aanleiding van een correlatief verband. Dat een actie in 9/10 gevallen hetzelfde betekent, is geen
reden om die actie in 100% van de gevallen hetzelfde te behandelen.
5. In het hoorcollege hebben we de bestaande correlatie tussen ijsconsumptie en verdrinkingen
besproken. Er schijnt een derde variabele in het spel te zijn die positieve samenhang tussen
ijsconsumptie en verdrinkingen teweegbrengt: temperatuur. Laatstgenoemde ‘derde’ variabele
wordt een latente variabele genoemd. Leg uit dat hetzelfde speelt bij de positieve correlatie tussen
het aantal brandweermannen dat wordt ingezet en het aantal mensen dat gewond raakt in een
brand.
,Men zou verwachten dat hoe meer brandweermannen er worden ingezet, hoe minder mensen er
gewond raken, maar de latente variabele ‘hevigheid van de brand’ correleert positief met beide
variabelen. Bij een hevige brand raken er over het algemeen meer mensen gewond, maar worden er
over het algemeen dus ook meer brandweermannen ingezet.
6. Is er een causaal verband tussen het aantal brandweermannen dat wordt ingezet en het aantal
mensen dat gewond raakt in een brand? Waarom wel/niet? Betrek in uw antwoord alle
voorwaarden om van causaliteit te kunnen spreken.
Er is geen causaal verband tussen het aantal brandweermannen dat wordt ingezet en het aantal
mensen dat gewond raakt in een brand. Beide variabelen correleren wel, maar het één gaat niet
vooraf aan het ander en de samenhang tussen oorzaak en gevolg is te verklaren door de latente
variabele ‘hevigheid van de brand’.
Deel C: Kunstmatige Intelligentie
8. Alan Turing stelde de vraag: “Can machines think?”. Discussiepunt: hoe zou je die vraag anno
2021 beantwoorden. Op welke manier komt de computer tot uitkomsten? Beantwoord deze vraag
aan de hand van het artikel van Ronald Hein, WFR 2020/141.
Een computer kan menselijke intelligentie niet begrijpen, maar het wel nabootsen. Computers zijn
sterk afhankelijk van bepaalde factoren zoals interpretatie waardoor ze nog niet op een identieke
wijze na kunnen denken zoals mensen dat kunnen. Computers kunnen bepaalde uitkomsten wel
voorspellen, maar ze zijn niet gespecialiseerd in bepaalde vakgebieden zoals mensen. Een computer
kan dingen doen, maar het kan niet beredeneren waarom het dat op die manier heeft gedaan.
9. Wat is gestructureerde en wat is ongestructureerde data. Wat is vervolgens het verschil tussen
beide?
Gestructureerde data is data in rijen of kolommen zoals een Excel sheet. Bij ongestructureerde data
moet gedacht worden aan video’s, afbeeldingen of brieven. Het verschil tussen beide is dus dat
ongestructureerde data niet in rijen of kolommenstaat.
10. IBM Deep Blue wist Kasparov te verslaan met schaken. Wat zijn unieke sterke punten van de
mens en wat zijn de unieke sterke punten van de computer volgens Ronald Hein?
Unieke sterke punten van de mens zijn inzicht en intuïtie en unieke en sterke punten van computers
zijn een bijna onmetelijk geheugen, lijnrechte logica en onnavolgbare verwerkingssnelheid.
11. Is de techniek achter IBM Deep Blue te transponeren naar de fiscaliteit zonder opnieuw te
hoeven beginnen?
Nee, de fiscale praktijk is voor computers veel ingewikkelder dan schaken omdat erin de fiscale
praktijk in veel grotere mate sprake is van interpretaties, meningen en belangen dan bij schaken en
laat dit nou net de zwakke punten van computers zijn. De fiscale praktijk is een nieuwe dataset en
alleen General AI kan informatie converteren naar een nieuwe dataset, dit is Narrow AI.
12. Leg uit dat de inzet van kunstmatige intelligentie het spel ‘Go’ onorthodox heeft vernieuwd.
Leg vervolgens uit hoe C-Path tot onorthodoxe vernieuwing bij het onderzoeken van kankercellen
heeft geleid.
Kunstmatige intelligentie berekent bij het spel ‘Go’ bij elke zet hoe groot de kans is dat het spel wordt
gewonnen met elke mogelijke zet en kiest vervolgens de zet met de grootste kans om te winnen. C-
path kan microscoopbeelden van borstkanker nauwkeuriger analyseren dan mensen door
verschillende tumorstructuren te onderscheiden en deze vervolgens te koppelen aan de
, overlevingskans van een patiënt. Hierdoor weet het precies welke kenmerken van borstkanker
belangrijk zijn en welke niet.
Werkcollege 2
Casus 2: Data Mining & Machine Learning
Emma is data scientist bij de Belastingdienst van Artificialstan. Het is haar doel om een
voorspelling te kunnen maken wanneer een ingediende aangifte onjuist is. Daarom gaat ze een
risicomodel ontwikkelen. Als input voor het model heeft ze een dataset met gecorrigeerde en niet-
gecorrigeerde aangiften ontvangen, maar niet elke aangifte in de dataset is daadwerkelijk
behandeld. De dataset bevat 850 variabelen.
1.Wat is het takenpakket T, de ervaring E en de (potentiële) performance measure P?
T (voorspelling/taak): voorspellen of een nieuwe aangifte juist of onjuist is
E (trainingsdata): dataset met gecorrigeerde en niet-gecorrigeerde aangiften
P (maatstaf waartegen het model wordt beoordeeld): accuracy, sensitivity en/of specificity
2. Welk type machine learning gaat Emma toepassen?
Supervised machine learning, omdat het gaat om een vorm van classificatie en voorspelling- of
taakgedreven. Namelijk het aangeven of een aangifte juist of onjuist is.
3. Wat is de achterliggende data mining-techniek?
Classificatietechniek. De aangiften zijn geclassificeerd. De aangiften moeten ingedeeld worden in de
vooraf geclassificeerde categorieën. De categorieën sluiten elkaar uit en zijn uitputtend.
4. Wat is het multiple-comparisons-problem? Leg vervolgens uit waarom dit probleem zich hier kan
voordoen.
Als je een enorm grote dataset hebt, kan je altijd wel verbanden vinden. Je kan dus ook correlaties
vinden die geen weerspiegeling zijn in de werkelijk wereld. In dit geval kan dat ook zo zijn, want er
zijn 850 variabelen. Het zal vallen in de categorie false positive, omdat volgens de voorspelling een
verband aanwezig, terwijl in werkelijkheid deze niet aanwezig is.
5. Welke rol spelen ‘features’ in het machine learning proces?
Features zijn onafhankelijke variabelen waarop je je voorspelling baseert.
6. In de dataset zit een variabel correctiebedrag. Leg uit waarom een correctiebedrag een
uitstekend kenmerk zal zijn om de juiste en de onjuiste aangifte van elkaar te onderscheiden. Zou
Emma een correctiebedrag daadwerkelijk mee moeten willen nemen bij de ontwikkeling van het
machine learning model? Waarom wel/niet?
Bij een correctiebedrag is de aangifte onjuist, terwijl zonder correctiebedrag de aangifte niet of niet
juist behandeld is. Bij een toekomstige aangifte is nog niet bekend wat het correctiebedrag is.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller Viscalist. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $6.43. You're not tied to anything after your purchase.