Information Retrieval

Unter dem Begriff Information Retrieval – genauer Information Storage and Retrieval – versteht man Methoden und Verfahren, die mit der Aufbereitung, Speicherung und Wiedergewinnung (Recherche) von Wissen (Texte, Fakten) zu tun haben. Dabei geschieht die  Aufbereitung der Daten schon im Hinblick auf die Speicherung und spätere Recherche.

Indexierung

Bei der Textaufbereitung vergeben Indexierer oder automatische Indexierungssystemen Deskriptoren – also Suchbegriffe die etwas über den Inhalt eines Textes aussagen. Es handelt sich entweder um Stichwörter aus den Texten selbst, oder um Schlagwörter, die in Relation zum Inhalt stehen, aber selbst nicht im Text vorkommen.

Für die Schlagwortvergabe empfiehlt es sich einen Thesaurus zu nutzen. Ein Thesaurus bestimmt „welche Begriffe vor der Speicherung eines Dokuments zur Inhaltsbeschreibung vergeben werden sollen, und andererseits, welche Begriffe bei der Suche nach relevanten Dokumenten benutzt werden sollten.“ Es handelt sich also um eine „Liste zulässiger und nicht zulässiger Deskriptoren für ein bestimmtes Sachgebiet, wobei alle Deskriptoren miteinander in einem Geflecht von Beziehungen (Thesaurusrelationen) verbunden sind.“

Datenbanken

Es lassen sich grob drei Arten von Datenbanken unterscheiden:

  • Referenz- oder Literaturdatenbanken: enthalten neben Titel und ggf. Abstract nur bibliographische Angaben zu Textdokumenten – ermöglicht wird die weitere Suche nach dem eigentlichen Dokument
  • Volltextdatenbanken: enthalten komplette Textdokumente
  • Faktendatenbanken: enthalten numerische Daten oder Sachverhalte z.B. Firmenbeschreibungen

Retrieval/Recherche

Die Suche nach relevanten Dokumenten erfolgt über Schlüsselbegriffe, die bei der Indexierung mit den Dokumenten verknüpft wurden. Um eine Anfrage zu spezifizieren benutzt man eine Retrievalsprache. Am bekanntesten ist die Boolesche Logik, basierend auf den Funktion der Operatoren AND, OR und AND NOT,  die auf den englischen Mathematiker George Boole zurückgeht. (1)

Recall und Precision – diese Begriffe bewerten die Qualität der Antwortmenge eines Information-Retrieval-Systems.
Mathematisch definieren sie sich folgendermaßen:

  • recall = Anzahl der gefundenen relevanten Dokumente / Anzahl aller relevanten Dokumente in der Datenbank.
  • precision = Anzahl der gefundenen relevanten Dokumente / Anzahl aller gefundenen Dokumente.

Beim Recall wird die Vollständigkeit errechnet, aber weil die Anzahl der relevanten, aber eventuell nicht gefundenen Dokumenten nicht direkt messbar ist, bleibt es „ein reines Konstrukt.“ (2)
Precision ist dagegen messbar, weil sich aus der Anzahl der gefundenen Dokumente der unrelevante Ballast erschließen lässt und so, die Genauigkeit einer Suchanfrage geprüft werden kann.
Durch eine Recallsteigerung zum Optimalwert 1, wird eine Precisionsenkung herbeigeführt – dies beruht auf der umgekehrt proportionalen Abhängigkeit der beiden Werte.(2)

Quellen:

  1. Virtuelles Handbuch Informationswissenschaft: Information Retrieval [Stand 2007-12-03]
  2. Stock, W. G. : Information Retrieval – Informationen suchen und finden. Oldenbourg Verlag: München 2007, S. 63-66