Login |
 
 

Aktives Lernen zur Klassifikation großer Datenmengen

Nicolas Cebron

Der Begriff des Lernens wird in verschiedenen Fachgebieten wie der Biologie, Psychologie oder der Informatik unterschiedlich verwendet. In der Biologie z.B. wird Lernen als "durch Erfahrung entstandene Verhaltensänderungen und -möglichkeiten, die Organismen befähigen, aufgrund früherer und weiterer Erfahrungen situationsangemessen zu reagieren" (Schwachulla, 1998) definiert.
Im Kontext des maschinellen Lernens ist der Ansatz des induktiven Lernens aus dem Bereich der Biologie wiederzufinden. Hierbei soll mit Hilfe von gezeigten Mustern eine Gesetzmäßigkeit gelernt werden. Dies geschieht beispielsweise, weil eine explizite Formulierung des Konzeptes in  manchen Fällen unmöglich oder zu aufwändig ist. Oft sind die Muster auch schon in großer Anzahl
vorhanden und können direkt verwendet werden. Darüberhinaus ist das Lernen mit Mustern leichter an neue Gegebenheiten anzupassen und flexibler. Es lässt sich daher in realitätsnahen Szenarien leicht und schnell einsetzen.

Das Ziel des maschinellen Lernens ist es, mit Hilfe von klassifizierten Mustern automatisch ein Modell zu lernen. Dieses Modell soll sowohl möglichst einfach (z. B. eine möglichst geringe Anzahl von Regeln) als auch möglichst generalisierend sein, d. h. eine gute Performanz auf neuen unbekannten Daten haben. Das Ziel ist es, Gesetzmäßgkeiten in den Daten aufzudecken und mit diesem Modell weitere Daten zu klassifizieren.

 

 

Im Bereich der Informatik stehen oft riesige Datenmengen aus den unterschiedlichsten Anwendungsbereichen in Form von Mustern für das induktive Lernen zur Verfügung.
Um diese Daten zu klassifizieren, ist jedoch in vielen Anwendungsfällen eine manuelle Klassifikation durch einen menschlichen Experten nötig. Dies ist ein zeitaufwändiger und kostenintensiver Prozess. Die Interpretation des Musters durch den Experten und die darauf folgende Kategorisierung kann einige Zeit in Anspruch nehmen und damit hohe Kosten verursachen. Es kann aber auch weitere Ursachen geben, so kann z.B. die Bestimmung einer  Klasse nur durch ein aufwändiges Experiment erfolgen, dessen Durchführung hohe Kosten verursacht.


Viele Daten spielen für die Konstruktion eines Modells keine große Rolle. Daher möchte man die  Ziehung von Mustern so beeinflussen, dass nur möglichst geeignete Muster zur Klassifikation vorgelegt werden. Dies findet zumeist unter Berücksichtigung der Verteilung der Daten und des bisher gelernten Modells statt. Diesen Prozess der Einflussnahme auf die Selektion von neuen Mustern bezeichet man als Aktives Lernen (Cohn u. a., 1994).

Referenzen

[Schwachulla 1998] Schwachulla, Wolfram (Hrsg.): Der Brockhaus. Leipzig, Deutschland : F.A. Brockhaus GmbH, 1998.  ISBN 3-7653-1678-4

[Cohn u. a. 1994] Cohn, D. A. ; Atlas, L. ; Ladner, R. E.: Improving Generalization with Active Learning. In: Machine Learning 15 (1994), Nr. 2, S. 201-221