Data – Mining
Inhaltsverzeichnis
1. Einleitung - Vorwort .......................................................................................................... 3
1.1. Data Mining - Einführung ........................................................................................... 3
1.2. KDD und CRISP ......................................................................................................... 3
1.2.1. KDD – Knowledge Discovery in Databases ........................................................ 4
1.2.2. CRISP – Cross Industry Standard Process for Data Mining .................................... 6
............................................................................................................................................ 7
2. Statistik – Grundlagen ........................................................................................................ 8
2.1. Univariate / Bivariate und Multivariate Statistik ......................................................... 8
2.2. Skalenniveau ................................................................................................................ 9
2.3. Häufigkeiten .............................................................................................................. 10
2.4. Modus, Median und Arithmetischer Mittelwert ........................................................ 11
2.5. Quartil und Spannweite ............................................................................................. 12
2.6. Mittlere absolute Abweichung................................................................................... 12
2.7. Varianz und Standardabweichung ............................................................................. 13
3. Statistik und Data-Mining ................................................................................................ 14
3.1. Klassifikation und Segmentierung............................................................................. 14
3.2. Überwachtes und Unüberwachtes Lernen ................................................................. 14
3.3. Data Mining in der Praxis .......................................................................................... 15
4. Klassifikation ................................................................................................................... 16
4.1. Entropie ......................................................................................................................... 16
4.2. Informationsgewinn ...................................................................................................... 17
4.3. Chi-Quadrat ................................................................................................................... 19
4.4. Entscheidungsbäume ..................................................................................................... 21
4.5. Entscheidungsbäume unter Verwendung von Chi-Quadrat .......................................... 23
5. Segmentierung ...................................................................................................................... 25
5.1. KNN – K-Nearest Neighbour ........................................................................................ 25
5.2. Distanzmatrix ................................................................................................................ 26
5.3. Manhattan-/Euklidische- und Chebyshev Distanz ........................................................ 26
5.3. Assoziationsanalyse ...................................................................................................... 29
5.4. Apriori – Algorithmus ................................................................................................... 30
5.5. K-Means Verfahren ....................................................................................................... 32
Literaturverzeichnis .................................................................................................................. 34
Tabellenverzeichnis .................................................................................................................. 35
Abbildungsverzeichnis ............................................................................................................. 35
, 1. Einleitung - Vorwort
Die vorliegende Zusammenfassung ist ein von mir selbst erstelltes Dokument, welches sich an
den Inhalten der Veranstaltung „Data-Mining“ orientiert und sich als Ziel setzt vor allem
praktische Inhalte verständlich aufzuführen. Vorhandene Quellenangaben basieren auf
öffentlich zugänglichen Publikationen, da exakte Materialien der Veranstaltung „Data-
Mining“, ohne Einwilligung des Professors, rechtlich in solcher Form unzulässig sind.
Dennoch bietet die folgende Zusammenfassung eine umfangreiche Ergänzung zum Lernstoff
und bildet die wichtigsten Bereiche der Veranstaltung ab. Zusätzlich zu den einzelnen
Kapitelinhalten sind Aufgaben eingefügt, die als Hilfestellung zur optimalen
Prüfungsvorbereitung dienen sollen. Ich nehme keine Garantie oder Gewährleistung auf
Richtigkeit auf die von mir aufgeführten Inhalte. Vorliegende Aufgaben sind gänzlich oder
teilweise von mir persönlich fiktiv angenommen und dienen dazu, aufgeführte Themen besser
zu verstehen.
Ich habe sehr viel Zeit und Mühe in diese Zusammenfassung investiert und würde mich
deshalb über eine positive Bewertung sehr freuen. Positive wie auch negative Kritik ist immer
erwünscht. Viel Spaß beim Durcharbeiten der Unterlagen und viel Erfolg bei der Klausur!
1.1. Data Mining - Einführung
Was ist Data-Mining - Definition?
Data Mining ist interdisziplinär und nutzt Erkenntnisse aus den Bereichen der Informatik,
Mathematik und Statistik zur rechnergestützten Analyse von Datenbeständen. Große
Datenbestände werden dabei auf bedeutsame Zusammenhänge, Trends oder Muster
untersucht.* (Vgl. Luber 2016)
*Die Definition von Data-Mining ist nicht prüfungsrelevant, aber dennoch wichtig, um die
folgenden Kapitel zu verstehen. Vor allem die Statistik ist ein wesentlicher Faktor für das
Durchführen erfolgreicher Analysen und dem Entdecken von Trends und Zusammenhängen
auf vorhandenen Datenbeständen.
1.2. KDD und CRISP
KDD (Knowledge Discovery in Databases) und CRISP (Cross Industry Standard Process for
Data Mining) sind beides Möglichkeiten zur Modellierung eines Data Mining Prozesses. Im
Wesentlichen unterscheiden sich die beiden Herangehensweisen im Einsatzgebiet. Während
CRISP-DM eher in der Industrie verwendet wird, kommt KDD primär in der Wissenschaft
zum Einsatz.
Anwendungsgebiete des Data-Mining:
• Lieferantenmanagement
• Medizin
• Ingenieurwesen
• Produktion
• Marketing
• Vertrieb
(Vgl. MoreThanDigital 2019)
, 1.2.1. KDD – Knowledge Discovery in Databases
KDD bedeutet auf Deutsch die Wissensentdeckung in Datenbanken. Es handelt sich hierbei
um einen Prozess mit dem Ziel der Erkennung von bislang unbekannten fachlichen
Zusammenhängen aus vorhandenen, meist großen Datenbeständen. In Abgrenzung zu Data-
Mining umfasst KDD auch die Vorbereitung der Daten sowie die Bewertung der Resultate.
Das bedeutet, dass Data-Mining nur eine Teilmenge von KDD darstellt. (Vgl. Wikipedia
2021)
Schritte des KDD Prozesses
1. Selection – Datenselektion
• Geeignete Daten werden aus dem Gesamtdatenbestand ausgewählt. Dabei können
sowohl externe als auch interne Daten genutzt werden. Nach erfolgreicher Auswahl
der Daten werden diese separat in einem Zieldatenbestand abgespeichert.
2. Preprocessing – Datenvorverarbeitung
• Der zuvor, in der Selektionsphase ausgewählte Zieldatenbestand wird nun auf
Qualität geprüft. Fehlerbehaftete oder widersprüchliche Daten werden dabei bereinigt
und gegebenenfalls korrigiert.
• Die Datenvorverarbeitung stellt dabei einen der wichtigsten Schritte im KDD dar.
Eine schlechte Datenvorverarbeitung kann das Analyseergebnis stark negativ
beeinflussen.
3. Transformation – Datentransformation
• In der Datentransformation geht es darum, die Daten in ein adäquates, in gewisser
Weise standardisiertes Format umzuwandeln. Das ist notwendig, um die spätere
Analyse zu verbessern.
4. Data Mining – Data Mining
• Das Data Mining stellt den Kernprozess, nämlich die Wissensgenerierung dar. Nun
kann, durch Einsatz geeigneter mathematischer Methoden, die auf die
Aufgabenstellung abgestimmt sind, ein Modell entwickelt werden.
• Das Ziel dabei ist die Suche und das Auffinden von Datenmustern, die bisher
unbekannt waren.
5. Interpretation/Evaluation – Evaluation und Interpretation
• In der Interpretation und Evaluation geht es darum das Ergebnis in der Data-Mining
Methode zu überprüfen und einzuschätzen.
• Dieses Wissen muss bezüglich der Verwendbarkeit bewertet werden. Folgende
Kriterien sind dabei zu nennen:
▪ Validität des Musters
▪ Neuartigkeit des generierten Wissens auf Basis der Muster
▪ Nützlichkeit des Musters
▪ Verständlichkeit der Aussage
(Vgl. MoreThanDigital 2019)
, Abbildung 1 KDD Prozess
Quelle: https://morethandigital.info/grundlagen-des-data-mining-ein-prozess-ueberblick/
Aufgabe - Überlege, wann eine solche Untersuchung Sinn machen würde. Nenne ein Beispiel
und begründe dieses.
Lösung
Wie zuvor, vor allem im letzten Punkt des KDD-Prozesses erwähnt, macht eine Untersuchung
dann Sinn, wenn man vermutet, dass ein Modell geschaffen werden kann, dass besser ist als
das Basismodell.
Fiktives Beispiel
Es wird angenommen, dass 50% aller Männer sonntags Brötchen kaufen
Diese Vorhersage trifft zu 70% zu. Von den angenommenen 50% aller Männer kaufen
tatsächlich nur 70% sonntags Brötchen. Nun möchten wir herausfinden, wie wir unsere
Annahme verbessern können. Welche Einflussfaktoren spielen eine wesentliche Rolle?
Zu nennen wären bspw. Alter, Wohnort, Familienstand usw.
Diese Einflussfaktoren werden auch Prädikatoren genannt.
Überprüft wird nun, unter Einfluss von Prädikatoren, ob sich unsere Vorhersage gegenüber
der Zielvariable „Männer kaufen sonntags Brötchen“ verbessert hat.
Es wird ein Modell erstellt, dass alle Einflussfaktoren berücksichtigt um eine konkretere,
bessere Vorhersage treffen zu können.
Spielen die oben aufgeführten Prädikatoren tatsächlich eine wesentliche Rolle dabei, ob
sonntags Brötchen gekauft werden oder nicht, so wird die Vorhersagequalität des neuen
Modelles höchstwahrscheinlich besser sein, da wir unsere Zielvariable genauer vorhersagen
können.
Ist dies der Fall, können wir das neu entwickelte Modell dem Basis-Modell vorziehen.