Zusammenfassung

Zusammenfassung Data Mining praktische Übungen und theoretisches

46 mal angesehen 2 mal verkauft

Kurs
Data Mining

Hochschule
Hochschule Fulda (HS Fulda)

Book
Data Mining

Der Schwerpunkt liegt auf dem praktischen Einüben bekannter Data-Mining Algorithmen

[ Mehr anzeigen ]

Letzte Aktualisierung vom Dokument: 3 Jahr vor

vorschau 4 aus 34 Seiten

Zum Beispiel

Gesamtes Buch? Nein
Welche Kapitel sind zusammengefasst? Kapitel 3.5
Hochgeladen auf 23. april 2021
Datei zuletzt aktualisiert am 23. april 2021
Anzahl der Seiten 34
geschrieben in 2020/2021
Typ Zusammenfassung

data mining
praktisch
Übung
algorithmen
crisp
kdd
knn
entscheidungsbäume
mining
data
data science
data engineer

15,39 €

In den Einkaufswagen

Zur Wunschliste hinzufügen

100% Zufriedenheitsgarantie
Sofort verfügbar nach Zahlung
Sowohl online als auch als PDF
Du bist an nichts gebunden

Data – Mining
Inhaltsverzeichnis
1. Einleitung - Vorwort .......................................................................................................... 3
1.1. Data Mining - Einführung ........................................................................................... 3
1.2. KDD und CRISP ......................................................................................................... 3
1.2.1. KDD – Knowledge Discovery in Databases ........................................................ 4
1.2.2. CRISP – Cross Industry Standard Process for Data Mining .................................... 6
............................................................................................................................................ 7
2. Statistik – Grundlagen ........................................................................................................ 8
2.1. Univariate / Bivariate und Multivariate Statistik ......................................................... 8
2.2. Skalenniveau ................................................................................................................ 9
2.3. Häufigkeiten .............................................................................................................. 10
2.4. Modus, Median und Arithmetischer Mittelwert ........................................................ 11
2.5. Quartil und Spannweite ............................................................................................. 12
2.6. Mittlere absolute Abweichung................................................................................... 12
2.7. Varianz und Standardabweichung ............................................................................. 13
3. Statistik und Data-Mining ................................................................................................ 14
3.1. Klassifikation und Segmentierung............................................................................. 14
3.2. Überwachtes und Unüberwachtes Lernen ................................................................. 14
3.3. Data Mining in der Praxis .......................................................................................... 15
4. Klassifikation ................................................................................................................... 16
4.1. Entropie ......................................................................................................................... 16
4.2. Informationsgewinn ...................................................................................................... 17
4.3. Chi-Quadrat ................................................................................................................... 19
4.4. Entscheidungsbäume ..................................................................................................... 21
4.5. Entscheidungsbäume unter Verwendung von Chi-Quadrat .......................................... 23
5. Segmentierung ...................................................................................................................... 25
5.1. KNN – K-Nearest Neighbour ........................................................................................ 25
5.2. Distanzmatrix ................................................................................................................ 26
5.3. Manhattan-/Euklidische- und Chebyshev Distanz ........................................................ 26
5.3. Assoziationsanalyse ...................................................................................................... 29
5.4. Apriori – Algorithmus ................................................................................................... 30
5.5. K-Means Verfahren ....................................................................................................... 32
Literaturverzeichnis .................................................................................................................. 34
Tabellenverzeichnis .................................................................................................................. 35
Abbildungsverzeichnis ............................................................................................................. 35

, 1. Einleitung - Vorwort
Die vorliegende Zusammenfassung ist ein von mir selbst erstelltes Dokument, welches sich an
den Inhalten der Veranstaltung „Data-Mining“ orientiert und sich als Ziel setzt vor allem
praktische Inhalte verständlich aufzuführen. Vorhandene Quellenangaben basieren auf
öffentlich zugänglichen Publikationen, da exakte Materialien der Veranstaltung „Data-
Mining“, ohne Einwilligung des Professors, rechtlich in solcher Form unzulässig sind.
Dennoch bietet die folgende Zusammenfassung eine umfangreiche Ergänzung zum Lernstoff
und bildet die wichtigsten Bereiche der Veranstaltung ab. Zusätzlich zu den einzelnen
Kapitelinhalten sind Aufgaben eingefügt, die als Hilfestellung zur optimalen
Prüfungsvorbereitung dienen sollen. Ich nehme keine Garantie oder Gewährleistung auf
Richtigkeit auf die von mir aufgeführten Inhalte. Vorliegende Aufgaben sind gänzlich oder
teilweise von mir persönlich fiktiv angenommen und dienen dazu, aufgeführte Themen besser
zu verstehen.

Ich habe sehr viel Zeit und Mühe in diese Zusammenfassung investiert und würde mich
deshalb über eine positive Bewertung sehr freuen. Positive wie auch negative Kritik ist immer
erwünscht. Viel Spaß beim Durcharbeiten der Unterlagen und viel Erfolg bei der Klausur!

1.1. Data Mining - Einführung

Was ist Data-Mining - Definition?

Data Mining ist interdisziplinär und nutzt Erkenntnisse aus den Bereichen der Informatik,
Mathematik und Statistik zur rechnergestützten Analyse von Datenbeständen. Große
Datenbestände werden dabei auf bedeutsame Zusammenhänge, Trends oder Muster
untersucht.* (Vgl. Luber 2016)

*Die Definition von Data-Mining ist nicht prüfungsrelevant, aber dennoch wichtig, um die
folgenden Kapitel zu verstehen. Vor allem die Statistik ist ein wesentlicher Faktor für das
Durchführen erfolgreicher Analysen und dem Entdecken von Trends und Zusammenhängen
auf vorhandenen Datenbeständen.

1.2. KDD und CRISP
KDD (Knowledge Discovery in Databases) und CRISP (Cross Industry Standard Process for
Data Mining) sind beides Möglichkeiten zur Modellierung eines Data Mining Prozesses. Im
Wesentlichen unterscheiden sich die beiden Herangehensweisen im Einsatzgebiet. Während
CRISP-DM eher in der Industrie verwendet wird, kommt KDD primär in der Wissenschaft
zum Einsatz.
Anwendungsgebiete des Data-Mining:
• Lieferantenmanagement
• Medizin
• Ingenieurwesen
• Produktion
• Marketing
• Vertrieb
(Vgl. MoreThanDigital 2019)

, 1.2.1. KDD – Knowledge Discovery in Databases

KDD bedeutet auf Deutsch die Wissensentdeckung in Datenbanken. Es handelt sich hierbei
um einen Prozess mit dem Ziel der Erkennung von bislang unbekannten fachlichen
Zusammenhängen aus vorhandenen, meist großen Datenbeständen. In Abgrenzung zu Data-
Mining umfasst KDD auch die Vorbereitung der Daten sowie die Bewertung der Resultate.
Das bedeutet, dass Data-Mining nur eine Teilmenge von KDD darstellt. (Vgl. Wikipedia
2021)

Schritte des KDD Prozesses

1. Selection – Datenselektion
• Geeignete Daten werden aus dem Gesamtdatenbestand ausgewählt. Dabei können
sowohl externe als auch interne Daten genutzt werden. Nach erfolgreicher Auswahl
der Daten werden diese separat in einem Zieldatenbestand abgespeichert.

2. Preprocessing – Datenvorverarbeitung
• Der zuvor, in der Selektionsphase ausgewählte Zieldatenbestand wird nun auf
Qualität geprüft. Fehlerbehaftete oder widersprüchliche Daten werden dabei bereinigt
und gegebenenfalls korrigiert.
• Die Datenvorverarbeitung stellt dabei einen der wichtigsten Schritte im KDD dar.
Eine schlechte Datenvorverarbeitung kann das Analyseergebnis stark negativ
beeinflussen.

3. Transformation – Datentransformation
• In der Datentransformation geht es darum, die Daten in ein adäquates, in gewisser
Weise standardisiertes Format umzuwandeln. Das ist notwendig, um die spätere
Analyse zu verbessern.

4. Data Mining – Data Mining
• Das Data Mining stellt den Kernprozess, nämlich die Wissensgenerierung dar. Nun
kann, durch Einsatz geeigneter mathematischer Methoden, die auf die
Aufgabenstellung abgestimmt sind, ein Modell entwickelt werden.
• Das Ziel dabei ist die Suche und das Auffinden von Datenmustern, die bisher
unbekannt waren.

5. Interpretation/Evaluation – Evaluation und Interpretation
• In der Interpretation und Evaluation geht es darum das Ergebnis in der Data-Mining
Methode zu überprüfen und einzuschätzen.
• Dieses Wissen muss bezüglich der Verwendbarkeit bewertet werden. Folgende
Kriterien sind dabei zu nennen:
▪ Validität des Musters
▪ Neuartigkeit des generierten Wissens auf Basis der Muster
▪ Nützlichkeit des Musters
▪ Verständlichkeit der Aussage
(Vgl. MoreThanDigital 2019)

, Abbildung 1 KDD Prozess
Quelle: https://morethandigital.info/grundlagen-des-data-mining-ein-prozess-ueberblick/

Aufgabe - Überlege, wann eine solche Untersuchung Sinn machen würde. Nenne ein Beispiel
und begründe dieses.

Lösung

Wie zuvor, vor allem im letzten Punkt des KDD-Prozesses erwähnt, macht eine Untersuchung
dann Sinn, wenn man vermutet, dass ein Modell geschaffen werden kann, dass besser ist als
das Basismodell.

Fiktives Beispiel

Es wird angenommen, dass 50% aller Männer sonntags Brötchen kaufen

Diese Vorhersage trifft zu 70% zu. Von den angenommenen 50% aller Männer kaufen
tatsächlich nur 70% sonntags Brötchen. Nun möchten wir herausfinden, wie wir unsere
Annahme verbessern können. Welche Einflussfaktoren spielen eine wesentliche Rolle?

Zu nennen wären bspw. Alter, Wohnort, Familienstand usw.
Diese Einflussfaktoren werden auch Prädikatoren genannt.

Überprüft wird nun, unter Einfluss von Prädikatoren, ob sich unsere Vorhersage gegenüber
der Zielvariable „Männer kaufen sonntags Brötchen“ verbessert hat.

Es wird ein Modell erstellt, dass alle Einflussfaktoren berücksichtigt um eine konkretere,
bessere Vorhersage treffen zu können.

Spielen die oben aufgeführten Prädikatoren tatsächlich eine wesentliche Rolle dabei, ob
sonntags Brötchen gekauft werden oder nicht, so wird die Vorhersagequalität des neuen
Modelles höchstwahrscheinlich besser sein, da wir unsere Zielvariable genauer vorhersagen
können.

Ist dies der Fall, können wir das neu entwickelte Modell dem Basis-Modell vorziehen.

Alle Vorteile der Zusammenfassungen von Stuvia auf einen Blick:

Garantiert gute Qualität durch Reviews

Stuvia Verkäufer haben mehr als 700.000 Zusammenfassungen beurteilt. Deshalb weißt du dass du das beste Dokument kaufst.

Schnell und einfach kaufen

Man bezahlt schnell und einfach mit iDeal, Kreditkarte oder Stuvia-Kredit für die Zusammenfassungen. Man braucht keine Mitgliedschaft.

Konzentration auf den Kern der Sache

Deine Mitstudenten schreiben die Zusammenfassungen. Deshalb enthalten die Zusammenfassungen immer aktuelle, zuverlässige und up-to-date Informationen. Damit kommst du schnell zum Kern der Sache.

Häufig gestellte Fragen

Was bekomme ich, wenn ich dieses Dokument kaufe?

Du erhältst eine PDF-Datei, die sofort nach dem Kauf verfügbar ist. Das gekaufte Dokument ist jederzeit, überall und unbegrenzt über dein Profil zugänglich.

Zufriedenheitsgarantie: Wie funktioniert das?

Unsere Zufriedenheitsgarantie sorgt dafür, dass du immer eine Lernunterlage findest, die zu dir passt. Du füllst ein Formular aus und unser Kundendienstteam kümmert sich um den Rest.

Wem kaufe ich diese Zusammenfassung ab?

Stuvia ist ein Marktplatz, du kaufst dieses Dokument also nicht von uns, sondern vom Verkäufer JAdel. Stuvia erleichtert die Zahlung an den Verkäufer.

Werde ich an ein Abonnement gebunden sein?

Nein, du kaufst diese Zusammenfassung nur für 15,39 €. Du bist nach deinem Kauf an nichts gebunden.

Kann man Stuvia trauen?

4.6 Sterne auf Google & Trustpilot (+1000 reviews)

45.681 Zusammenfassungen wurden in den letzten 30 Tagen verkauft

Gegründet 2010, seit 15 Jahren die erste Adresse für Zusammenfassungen

Starte mit dem Verkauf

Populäre Bücher

Beliebte Hochschulen und Universitäten

Beliebte Hochschulen

Verkäufer