Kategorisierung
Technologien
Mehrklassen-Kategorisierung
Von Mehrklassen-Kategorisierung spricht man, falls ein Kategorisierungsalgorithmus einzelne Objekte (Dokumente) potentiell mehreren Kategorien zuweist. Dies kann nötig sein, falls der Inhalt eines Dokuments aus mehreren Facetten besteht.
Themenmagnete
Statistische-/Regel-basierte Klassifikation
Statistische Kategorisierungsverfahren können beispielsweise das Vektorraummodell nutzen, welches einen statistischen Hintergrund besitzt. Zusätzlich kann ein Kategorisierungsalgorithmus auf definierte Regeln zurückgreifen, um die Qualität der Kategorisierung zu erhöhen.
Feature-Kompression
Insbesondere bei großen Dokumentmengen wird über die Feature-Kompression eine Datenreduktion erreicht, um die Berechenbarkeit zu gewährleisten. Die Datenreduktion ist dabei im Allgemeinen nicht mit Qualitätseinbußen verbunden, da ein optimal konfigurierter Algorithmus hauptsächlich "verrauschte Informationen" aus den Dokumenten entfernt.
K-Nearest Neighbours
K-Nearest Neighbours (KNN) bezeichnet ein Kategorisierungsverfahren, welches sich durch seine Robustheit auszeichnet und bereits mit wenigen Trainingsdokumenten gute Ergebnisse erzielt.
Rocchio
Der Rocchio Algorithmus ist ebenfalls ein Kategorisierungsverfahren, welches sich durch seine hohe Qualität auszeichnet, dafür aber eine größere Menge an Trainingsdokumenten wie beispielsweise das KNN Verfahren benötigt.
|