Module opdracht module Big Data
Science
Naam: XX
Studentnummer: XX
Datum: 7 januari 2020
Onderwijsinstelling: NCOI
Opleiding: HBO Big Data Analytics
Module: Big Data Science
Periode: oktober 2019 – maart 2020
,Voorwoord
Mijn naam is XX. Ik ben werkzaam bij de afdeling lease van de XX. In Tilburg volg ik bij de NCOI de
opleiding HBO Big Data Science.
Dagelijks geneert de afdeling lease een enorme hoeveelheid data. Deze vele data hebben een grote
impact op ons dagelijks werk. Data analyse kan helpen om orde in deze wirwar van gegevens aan te
brengen. De mogelijkheden van die data analyse hebben bij mij de interesse gewekt om door deze
opdracht hier meer over te leren.
Deze opdracht is geschreven in het kader van de opleidingsmodule Big Data Science. Ik heb ervoor
gekozen om de moduleopdracht te schrijven voor de afdeling lease van de XX. Uiteindelijk is het ook
een adviesplan geworden voor het verbeteren van de Data analyse op de afdeling lease.
Ik wil de afdeling lease bedanken voor het beschikbaar stellen van informatie en voor de gevoerde
discussies, die mij nieuwe inzichten gaven bij het maken van deze opdracht.
2
,Samenvatting
De afdeling lease van de XX verstuurt dagelijks informatie per post naar klanten. Door de richtlijnen
van de bank mag deze informatie niet per mail aan klanten worden verstuurd. Om het risico te
verkleinen dat post door een onjuist adres niet of verkeerd aankomt controleert een medewerker van
de afdeling lease de juistheid van de adressen. Dit proces schiet echter tekort, zodat er dagelijks post
retour komt door onjuiste adressering. Voor de XX betekent dit imago schade .
Er is één bronsysteem dat data genereert namelijk Sim. De verzamelde data uit dit bronsysteem
worden opgeslagen in het datawarehouse en vervolgens verwerkt tot rapporten en analyses. De
analyses worden opgesteld door een data analist.
De verzamelde data bevatten informatie over de adressen van klanten. Met de informatie over deze
adressen wordt weinig gedaan. Een gewenste situatie zou zijn dat door een geautomatiseerde
analyse de foutieve adressen worden achterhaald. Zo’n analyse zorgt ervoor dat foutieve adressen
eerder worden herkend, dus nog voordat de informatie wordt verstuurd aan de klant. Het menselijk
oog wordt dan geholpen door de tevoren gedane geautomatiseerde analyse van de geregistreerde
adressen, waarna de medewerkers de data met onjuiste adressen controleren en aanpassen.
Een dergelijke analyse werd uitgevoerd met behulp van Excel. De data werden verzameld uit Sim en
opgeschoond door het verwijderen van alle data die niet van belang waren voor het onderzoek.
Vervolgens zijn de overgebleven data geanalyseerd.
Bij analyse van de retour gekomen data bleek de kwaliteit van de registratie onvoldoende. Er bestond
onduidelijkheid over wat wel en wat niet moet worden geregistreerd. De kwaliteit van de registratie kan
worden verhoogd door een werkinstructie op te stellen, waarin wordt opgenomen welke informatie
wordt gebruikt en in welk systeem deze wordt opgeslagen. Dit betekent de opstelling van registratie
richtlijnen. Uiteindelijk leiden deze maatregelen tot meer betrouwbare analyses en rapporten.
Met behulp van Excel werd aangetoond, dat bij ongeveer 10% van alle in 2020 verstuurde
poststukken de huisnummers van de adressen niet correct waren. Verder onderzoek moet uitwijzen
of alle geregistreerde adressen in Sim kunnen worden gecontroleerd en hoe in de toekomst de notatie
van foutieve adressen kan worden voorkomen. Een aanpassing in Sim kan zijn het leeg laten van
velden moeilijker te maken. De correcte spelling van straatnamen vormt dan nog een risico. Mogelijk
kunnen deze worden gecontroleerd met behulp van de postcodes.
De verwachting is dat door bovenstaande maatregelen de adressering van verstuurde informatie
beter wordt en daardoor sneller bij de klanten komt. Dit leidt waarschijnlijk tot een verbetering van de
klantwaardering (value to customer) en uiteindelijk tot het afsluiten van meer lease contracten.
3
,Inhoud
1. Inleiding ........................................................................................................................................... 5
1.1 Omschrijving van de organisatie ............................................................................................... 5
1.2 Omschrijving probleem ............................................................................................................. 5
1.3 Opzet moduleopdracht ............................................................................................................. 5
2. De huidige situatie ........................................................................................................................... 6
2.1 Big data bronnen ....................................................................................................................... 6
2.1.1 Huidige situatie big data bronnen .......................................................................................... 6
2.2 Big datacompetenties................................................................................................................ 6
2.2.1 Processen................................................................................................................................ 6
2.2.2 Systemen ................................................................................................................................ 7
2.2.3 Mensen ................................................................................................................................... 7
2.2.4 Organisaties ............................................................................................................................ 7
2.3 Big data analyse ......................................................................................................................... 8
2.4 Big datawaarde .......................................................................................................................... 8
3. De gewenste situatie ....................................................................................................................... 9
4. Conclusie en aanbevelingen .......................................................................................................... 11
Literatuurlijst ..................................................................................................................................... 12
Bijlage ................................................................................................................................................ 13
4
,1. Inleiding
1.1 Omschrijving van de organisatie
De XX is een grote financiële dienstverlener. Zij bedient zowel particuliere als zakelijke klanten met
een ruime keuze aan financiële producten.
De afdeling lease van de XX is verantwoordelijk voor de volledige administratieve afhandeling van
lease contracten die door lokale XXen met zakelijke klanten worden afgesloten. De lokale XXen
hebben leden en ledenraden. De ledenraden zorgen ervoor dat de lokale XX zich blijft richten op de
lokale dienstverlening en op de rol van de XX in de maatschappij.
De afdeling lease ondersteunt de lokale XXen bij het aangaan van nieuwe lease contracten,
objectvervanging en afkoop van lease contracten. Machines, apparaten en voertuigen kunnen worden
geleast. De afdeling bestaat uit twee onderafdelingen:
Sales: ondersteunt de lokale XX bij het afsluiten van nieuwe contracten
Beheer: ondersteunt de lokale XX bij het beheren van bestaande contracten
1.2 Omschrijving probleem
De afdeling lease van de XX verstuurt informatie aan haar klanten via post, mail en persoonlijke
berichten in de inbox van XX internet bankieren. Sommige informatie mag alleen per post worden
verstuurd door wetgeving ( Algemene Verordening Gegevensbescherming (AVG)) of door richtlijnen
van de XX. Dit betreft facturen, Single Euro Payments Area (SEPA) formulieren en leaseakten
(omschrijving onderpand leaseobject).
Voordat de informatie per post wordt verstuurd, controleert een medewerker de juistheid van de
adressen. Het menselijk oog kan echter niet voorkomen dat er regelmatig documenten worden
verstuurd naar een onjuist adres. Wekelijks ontvangt de afdeling lease tientallen poststukken retour
die niet kunnen worden bezorgd bij de klanten. De oorzaak heeft te maken met verkeerde
plaatsnamen, verkeerde postcodes, oude adressen enz. (zie voor een voorbeeld van deze adres
registratie bijlage 1).
Omdat informatie op deze wijze te laat bij klanten komt, leidt dit bij hen tot irritatie. Daardoor ontstaat
het risico dat klanten geen nieuwe lease contracten meer afsluiten bij de XX. De afdeling lease heeft
daarom besloten een controle te doen op alle adressen, die in 2020 een document moesten
ontvangen. Tevens wil de afdeling dat de controle op adressen structureel in de komende jaren wordt
voortgezet.
Probleemstelling
De controle door een medewerker op adresgegevens van klanten is onvolledig. Dit leidt tot
poststukken, die naar verkeerde adressen worden gestuurd, waardoor deze stukken te vaak retour
komen.
Doelstelling
Een geautomatiseerde analyse van adresgegevens van klanten
1.3 Opzet moduleopdracht
De opzet van de moduleopdracht is als volgt:
Hoofdstuk twee behandelt de huidige situatie
Hoofdstuk drie benoemt gewenste situatie
Hoofdstuk vier beschrijft de conclusies en aanbevelingen
5
, 2. De huidige situatie
De huidige situatie wordt omschreven met behulp van het Big Data Value Creation Model (Verhoef,
Kooge, & Walk, 2016, p. 21). Het model geeft weer hoe er waarde wordt gecreëerd uit big data door
niet de data, maar de waarde creatie als standpunt te gebruiken. Hierdoor kun je data waardevoller en
relevanter maken. Dit model (zie bijlage 2) bestaat uit vier onderdelen:
Big data bronnen
Big data competenties
Big data analyse
Big data waarde
2.1 Big data bronnen
Data worden uit verschillende bronnen verzameld en verdeeld in gestructureerde,
semigestructureerde en ongestructureerde data. Gestructureerde data zijn opgeslagen in een
database en daardoor makkelijker te verwerken dan semigestructureerde en ongestructureerde data.
Semigestructureerde en ongestructureerde data zijn moeilijker te verwerken door de manier waarop
deze data zijn opgeslagen (ter Braake, 2018, p. 146).
2.1.1 Huidige situatie big data bronnen
De databronnen bij de afdeling lease generen voornamelijk gestructureerde data. Op de afdeling
wordt gebruik gemaakt van verschillende systemen. Het belangrijkste systeem is Sim. Het is
ontwikkeld door Oracle en betreft een pakket voor customer relationship management. Zie voor meer
informatie de website van oracle.com (2020).
Sim wordt gebruikt voor de bouw van een digitaal klantdossier. Post- en mailadressen zijn daarin dan
ook terug te vinden. Verder worden in Sim alle acties in het dossier van de klant vermeld. Er wordt dus
ook geregistreerd welke informatie met de klant is gedeeld en welk communicatiekanaal daarvoor is
gebruikt.
Naast Sim wordt KL gebruikt. KL heeft een raadpleeg functie. In KL staan alle lopende en beëindigde
lease contracten met gegevens als looptijd, rentepercentage en objectgegevens Zie voor meer
informatie de website van KLsystems.com (2020). Voor deze opdracht werden alleen de in Sim
opgeslagen data gebruikt.
De data uit Sim en KL worden opgeslagen op een interne server. De poststukken die worden
verstuurd zijn gekoppeld aan de adressen van klanten. De adressen zijn dus terug vinden in de
verzamelde data. Voordat poststukken worden verstuurd, controleert een medewerker van de afdeling
lease deze opgeslagen adressen met als doel foutieve adressen te corrigeren. Correctie van adressen
gebeurt dus op basis van het menselijk oog.
De gewenste situatie is het bouwen van een geautomatiseerd systeem dat uit de gestructureerde data
een afwijkend en dus mogelijk niet kloppend adres signaleert.
2.2 Big datacompetenties
Big datacompetenties creëren waarde uit big data. De waarde van de big data in een organisatie
bestaan uit vier onderdelen (Verhoef, Kooge, & Walk, 2016, p. 10):
1. Processen
2. Systemen
3. Mensen
4. Organisaties
Deze vier onderdelen worden hieronder uiteengezet uitgaande van de huidige situatie bij de afdeling
lease.
2.2.1 Processen
Processen geven inzicht over de wijze waarop een organisatie omgaat met het verzamelen en
analyseren van data. Verhoef, Kooge, & Walk (2016, p. 259) stellen vast dat er vijf stappen worden
doorlopen bij het verzamelen en analyseren van data. Dit betreft de volgende stappen: vraag,
gegevensverzameling, gegevensbewerking, analyse en output. Zie bijlage 3.
6