Hier findest du die Zusammenfassung der Kerninhalte des Moduls Maschinelles Lernen auf dem Wintersemester 22/23 bei Prof. Dr. Korinna Bade. Zunächst werden alle relevanten Themen definiert und entsprechend der Vorlesungsfolien zusammengefasst. Danach findet sich ein kompakter Überblick der Prüfu...
- Basis des Lernens:
- Erfahrung E (aus Trainingsdaten)
- Lernaufgabe T (Lernziel)
- Qualitätsmaß P
- Modell (Abstraktion der Daten)
- Basis des Lernens ist Erfahrung E (in Form von Trainingsdaten)
- Instanz = ein Element eines Datensatzes
- Lernaufgabe T definiert das Lernziel
- Hypothese = Modell das auf Gültigkeit überprüft werden muss
Induktives Lernen
- Eine Hypothese die mit Hilfe von Trainingsdaten sich der Zielfunktion annähert,
kann sich dieser auch durch unbeobachtet/unbekannte Beispiele annähern
- Daten bestehen aus (vielen) beschreibenden Attributen (Features: nominal, ordinal,
metrisch)
- Lernziel (Zielattribut) besteht aus einer Menge an zulässigen Werten
- Induktives Lernen = Verallgemeinern aus Beispielen, Vorhersage für unbekannte
Beispiele aus Trainingsdaten
- Beispiel "Enjoy Sport" Trainingsdaten
- gegebene Werte:
, - Instanzen X: Tage durch Attribute Sky, Temp, …, Forecast beschrieben
- Zielfunktion c: EnjoySport: X → {0,1} (ja,nein)
- Hypothesen H: Regeln nach vorgegebenen Format
- Trainingsbeispiele D: positive und negative Beispiele der Zielfunktion:
{x1 , c(x1)}, …, {xn , c(xn)}
- gesucht:
- Hypothese h in H, so dass h x = c(x) ∀ x ∈D, d.h. alle Trainingsbeispiele
werden korrekt vorhergesagt
Find-S Algorithmus
- Start mit spezifischster Hypothese:
- WENN ∅ DANN ES=yes SONST ES=no
- Verallgemeinern durch positive Trainingsbeispiele
- Eigenschaften
- Find-S findet garantiert die spezifischste Hypothese ℎ ∈ 𝐻, die mit allen
positiven Trainingsbeispielen konsistent ist
- h ist auch mit allen negativen Trainingsbeispielen konsistent
- Probleme
- Unklar, ob Find-S das Zielkonzept wirklich gelernt hat (Es könnte noch andere
passende Hypothesen geben)
, - Kann nicht erkennen, ob die Trainingsdaten inkonsistent sind (Da
negative Trainingsbeispiele nicht beachtet werden)
- Bias: Annahme dass Hypothesenraum H das Zielkonzept c enthält
Hypothesenraum
- mit Verzerrung:
- keine disjunktiven Zielkonzepte enthalten (x OR y)
- keine Konsistente Hypothese für alle Beispiele
- Konjunktionen nicht aussagekräftig genug
- z.B.: <x,z> + ; <y,z> –
- ohne Verzerrung:
- wähle einen Hypothesenraum H der alle vermittelbaren Konzepte enthält (H
= Potenzmenge aller Instanzen) → Problem: wir können nicht mehr
verallgemeinern, da alle Zielkonzepte enthalten sind
- man müsste auf jedes positive Beispiel trainieren, um das Zielkonzept zu
erlernen
Induktive Verzerrung
- gegeben:
- L – Lernalgorithmus, X – Instanzen, c – Zielkonzept
- Dc = { <x, c(x)> } – Trainingsbeispiele
- L(xi, Dc) – Klassifikation der Instanz xi durch L nach Training auf den Daten Dc
- Definition:
- Die induktive Verzerrung von L ist jede minimale Menge von Behauptungen
B, so dass für jedes Zielkonzept c und dazugehörenden Trainingsbeispiele Dc
gilt: ∀ xi ∈ X: (B∧ Dc ∧ xi ) ⊢ L(xi ,Dc) wobei A ⊢ B Bedeutet, dass aus A B
Logisch folgt.
- Unter einer induktiven Verzerrung versteht man die
Annahmen/Behauptungen, die ein Lernalgorithmus machen muss, um aus
Trainingsbeispielen verallgemeinern zu können.
→ induktive Verzerrung beschreibt die minimalen Menge an
Behauptungen, die ein Algorithmus benötigt um mit den Trainingsdaten
eine Instanz zu klassifizieren
Lerner mit unterschiedlicher Verzerrung
- Lerner der auswendig lernt:
- Speichert Beispiele und klassifiziert x wenn es einem der Beispiele entspricht
- KEINE induktive Verzerrung → da er nicht verallgemeinern kann
- Find-S-Algorithmus
- Verzerrung: Zielkonzept muss in Hypothesenraum liegen
- alle Instanzen sind negativ (0) bis das Gegenteil gelernt wurde (1)
, KLASSIFIKATION / ÜBERWACHTES LERNEN
- Vordefinierte Menge an Klassen = Zielattribute (zu erkennende Klassen)
- Zielattribute bei Klassifikation diskret
- Kontinuierliches Zielattribut (Regression)
- Datensatz = Trainingsdaten
- enthalten beschreibende Attribute für jede Instanz (Klasse) in Form eines
Eigenschafts Vektors
- Lernaufgabe: Lerne aus den beschreibenden Attributen das Zielattribut, um
dieses nur mit den beschreibenden Attributen vorhersagen zu können
- Attribute
- nominal (Nur auf Gleichheit prüfbar)
- ordinal (Natürliche Ordnung)
- metrisch (Aussagekräftige numerische Differenz zwischen Werten)
.
- Phasen
- Lernphase:
- Lernen der Abbildung: Vorhersage der Zielattribute mit Hilfe der
beschreibenden Attribute der Trainingsdaten
- Vorhersagephase:
- Vorhersage einer Klasse für neue Instanzen mit unbekanntem
Zielattribut auf Basis der Eingabe der beschreibenden Attribute
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller StudentKarsten. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $4.33. You're not tied to anything after your purchase.