Suchtechnologie
Technologien
Natürlichsprachliche Suchanfragen
Die Formulierung natürlichsprachlicher Suchanfragen erleichtert die Benutzung von Suchapplikationen: Der Nutzer muss keine komplexe Syntax lernen, um eine erfolgreiche Suchanfrage zu stellen, stattdessen ist eine intuitive Benutzung gewährleistet.
Relevanzbewertung von Suchergebnissen
Jedes Dokument eines Suchergebnisses kann vom Nutzer positiv oder negativ bewertet werden. Dadurch erfolgt automatische eine Umsortierung der Suchergebnisse mit Berücksichtigung der Relevanzbewertung. Beispielsweise erhält der Nutzer bei einer Suchanfrage nach dem Term Golf sowohl Treffer für den Sport als auch für das Automobil. Falls er sich über den Sport informieren will, reicht eine einzige negative Bewertung eines Automobiltreffers, um die Suchergebnismenge entsprechend umzusortieren.
Assoziative Suche
Die assoziative Suche findet Dokumente basierend auf konzeptuellen Ähnlichkeiten. Daher können Dokumente gefunden werden, selbst wenn die Suchterme im entsprechenden Dokument nicht enthalten sind.
Ähnlichkeitssuche
Das Finden ähnlicher Inhalte kann über eine Ähnlichkeitssuche realisiert werden. Dabei werden Dokumente inhaltlich verglichen und die besten Treffer dem Nutzer präsentiert.
Boole'sche Suche
Die Boole'sche Suche ist eine Keyword-Suche bei der die einzelnen Terme durch die Operatoren und, oder und nicht verknüpft werden können. Dadurch ist das Formulieren komplexer Suchanfragen möglich.
Dublettenekennung
Analog zur Ähnlichkeitssuche können mit der Dublettenerkennung Dokumente aufgespürt werden, die mehrfach identisch im Dokumentbestand vorkommen.
Ergebnis-Clustering
Bei Suchanfragen, die in einer großen Treffermenge resultieren, hilft das Ergebnis Clustering, einen schnellen Überblick über die Ergebnisse zu erlangen. Dies wird erreicht, indem ähnliche Dokumente gruppiert werden.
Dezentrale Indexierung
Die dezentrale Indexierung erlaubt das Aufbauen von Peer-to-Peer Suchapplikationen.
Unscharfe Suche
Die unscharfe Suche ist ein Oberbegriff über verschiedene Features: Sie bezeichnet einerseits die Wildcardsuche, andererseits eine fehlertolerante Suche, die beispielsweise gegenüber Rechtsschreibfehlern unempfindlich ist.
Spracherkennung
Über eine Spracherkenunng wird festgestellt, in welcher Sprache ein Dokument abgefasst ist. Zwei der wesentlichen Ansätze sind die sogenannte short word detection und Lexikon-basierte Verfahren.
Informationsextraktion
Ein wesentlicher Aspekt für die Ergebnisqualität einer Suchapplikation ist das Filtern von bedeutungstragenden Inhalten eines Dokuments vom irrelevanten "Rauschen". Dies ist insbesondere bei Webseiten wichtig: Hier darf beispielsweise nur der "Inhaltsbereich" berücksichtigt werden, die Navigationselemente müssen hingegen ignoriert werden.
N-Gramme
Ein N-Gramm ist ein Wortfragment, welches aus N Zeichen besteht. N-Gramme werden im Information Retrieval unter anderem zur Korrektur von Rechtschreibfehlern eingesetzt.
Vektorraummodell
Das Vektorraummodell ist ein Verfahren zur Modellierung von Dokumenten und Suchanfragen in einem Vektorraum, wobei eine der Anwendungen eine Suchapplikation sein kann. Der Vektorraum wird durch das in den Dokumenten verwendete Vokabular erzeugt und ist entsprechend hochdimensional.
tf-idf
tf-idf ist ein Akronym für Term Frequency – Inverse Document Frequency. Suchapplikationen die nach dem Vektorraummodell arbeiten benutzten zur Gewichtung von Termen oftmals eine tf-idf-Methode. Mit der tf-idf-Gewichtung wird erreicht, dass Worte ein hohes Gewicht erhalten, die innerhalb eines Dokuments häufig auftreten, in der gesamten Dokumentmenge aber selten.
Recall / Precision
Recall und Precision sind zwei Kenngrößen zur Messung der Qualität einer Suchapplikation. Recall beschreibt dabei den Prozentsatz an relevanten Dokumenten, die zu einer Suchanfrage gefunden wurden, zur totalen Anzahl an objektiv relevanten Dokumenten zur Suchanfrage. Die Precision gibt an, wie hoch der Anteil an irrelevanten Dokumenten innerhalb der Treffermenge für eine Suchanfrage ist.
Snippets
Ein Snippet ist ein Textausschnitt aus einem Dokument. Auf Suchergebnisseiten werden Snippets genutzt, um dem Recherchierenden einen schnellen Überblick über den Inhalt eines Dokumentes zu geben.
IFilter
IFilter können Texte und Metadaten aus Dokumenten verschiedenster Formate extrahieren.
|