Alles auf dieser Welt kann man rückgängig machen, bloß nicht das Wissen.
– Alberto Moravia

Zurück zur Übersicht

Kategorisierung

Technologien

Mehrklassen-Kategorisierung
Von Mehrklassen-Kategorisierung spricht man, falls ein Kategorisierungsalgorithmus einzelne Objekte (Dokumente) potentiell mehreren Kategorien zuweist. Dies kann nötig sein, falls der Inhalt eines Dokuments aus mehreren Facetten besteht.

Themenmagnete

Statistische-/Regel-basierte Klassifikation
Statistische Kategorisierungsverfahren können beispielsweise das Vektorraummodell nutzen, welches einen statistischen Hintergrund besitzt. Zusätzlich kann ein Kategorisierungsalgorithmus auf definierte Regeln zurückgreifen, um die Qualität der Kategorisierung zu erhöhen.

Feature-Kompression
Insbesondere bei großen Dokumentmengen wird über die Feature-Kompression eine Datenreduktion erreicht, um die Berechenbarkeit zu gewährleisten. Die Datenreduktion ist dabei im Allgemeinen nicht mit Qualitätseinbußen verbunden, da ein optimal konfigurierter Algorithmus hauptsächlich "verrauschte Informationen" aus den Dokumenten entfernt.

K-Nearest Neighbours
K-Nearest Neighbours (KNN) bezeichnet ein Kategorisierungsverfahren, welches sich durch seine Robustheit auszeichnet und bereits mit wenigen Trainingsdokumenten gute Ergebnisse erzielt.

Rocchio
Der Rocchio Algorithmus ist ebenfalls ein Kategorisierungsverfahren, welches sich durch seine hohe Qualität auszeichnet, dafür aber eine größere Menge an Trainingsdokumenten wie beispielsweise das KNN Verfahren benötigt.