Stoppwort
Stoppwörter nennt man in der Informationsrückgewinnung bzw. im Information Retrieval Wörter, die bei einer Volltextindexierung nicht beachtet werden, da sie sehr häufig auftreten und gewöhnlich keine Relevanz für die Erfassung des Dokumentinhalts besitzen. Die Stoppwörter befanden sich bei älteren Suchmaschinen gewöhnlich auf einer Liste und wurden aus dem Text entfernt und nicht indexiert. Heute basieren die meisten Internet-Suchmaschinen auf Vollindexierung, dabei werden die Stoppwörter angezeigt, tragen aber nichts zur Suche bei.[1]
Es handelt sich üblicherweise bei den Stoppwörtern um die am häufigsten vorkommenden Wörter einer Sprache. Man spricht dann auch von einer „festen Stoppwortliste“. Allen Stoppwörtern ist gemeinsam, dass sie vor allem grammatikalische/syntaktische Funktionen übernehmen und daher keine Rückschlüsse auf den Inhalt des Dokumentes zulassen.[2] Eine weitere Gemeinsamkeit ist ihre große Zahl: Sie treten in jedem Dokument sehr oft auf und kommen in sehr vielen Dokumenten vor, wodurch sie bei der Erschließung der Dokumente einen hohen Aufwand verursachen würden. Handelt es sich um die am häufigsten vorkommenden Wörter einer Menge von Dokumenten (beispielsweise Akten und Berichte) spricht man von einer „berechneten Stoppwortliste“. Das Erkennen von Stoppwörtern macht Suchmaschinen effizienter. Würde man Stoppwörter bei einem Suchauftrag beachten, wäre nahezu jedes Dokument ein Treffer. Ein solches Suchergebnis wäre für den Anwender nutzlos.[3] Allerdings ist es nicht immer sinnvoll, Stoppwörter komplett auszublenden. Beispiele hierfür sind im Englischen die Rockgruppe „The Who“ oder im Deutschen „Die Ärzte“ und Personen mit dem Nachnamen „Weil“[4]. Daher ist es heute bei Vollindizierung möglich, auch nach diesen Kombinationen suchen zu lassen.[5] Früher war dazu bei den meisten Suchmaschinen ein Operator notwendig, zum Beispiel „+“ oder die Phrasensuche.[6]
Allgemein übliche Stoppwörter in deutschsprachigen Dokumenten sind bestimmte Artikel ('der', 'die', 'das'), unbestimmte Artikel ('einer', 'eine', 'ein'), Konjunktionen (z. B. 'und', 'oder', 'doch', 'weil') und häufig gebrauchte Präpositionen (z. B. 'an', 'in', 'von') sowie die Negation 'nicht'.[1] Im Englischen sind unter anderem 'a', 'of', 'the', 'I', 'it', 'you' und 'and' Stoppwörter. Abhängig von den zu erschließenden Dokumenten können Stoppwörter auch mehrsprachig vorliegen. Obwohl eher als Stoppzeichen zu benennen, werden häufig auch der Punkt (.), das Komma (,) und der Strichpunkt (;) als Stoppwörter bezeichnet. In der freien Software-Bibliothek NLTK sind Listen von Stoppwörtern für 21 Sprachen sowie fertige Methoden zu deren Benutzung enthalten.[7][8]
Hans Peter Luhn, einer der Pioniere des Information Retrieval, prägte den Begriff der Stoppwörter und benutzte dieses Konzept im Design und in der Implementation des Indexers KWIC.[5]
Abzugrenzen ist das Stoppwort von den sogenannten Black Lists, dabei handelt es sich um eine Liste von unzulässigen Wörtern. Das Vorkommen eines solchen führt nicht zum Ausschluss des Wortes aus der Indizierung, sondern zur Elimination des gesamten Dokuments.[9]
Einzelnachweise
- Daniel Koch: Suchmaschinen-Optimierung: Website-Marketing für Entwickler. Pearson Deutschland, 2007, ISBN 978-3-8273-2469-6, S. 35.
- Mario Fischer: Website Boosting 2.0: Suchmaschinen-Optimierung, Usability, Online-Marketing. mitp Verlag, 2009, ISBN 978-3-8266-1703-4, S. 203.
- André Klahold: Empfehlungssysteme: Recommender Systems - Grundlagen, Konzepte und Lösungen. Springer-Verlag, 2009, ISBN 978-3-8348-0568-3, S. 25.
- Der unsichtbare Ministerpräsident Stoppwort. November 2017, abgerufen am 2. November 2017.
- Tom Slevin: Stop Words. Kids, Code, and Computer Science, November 2013, abgerufen am 11. Mai 2016.
- Philipp Wiedmaier: Suchmaschinenoptimierung am Beispiel von Google. Diplom.de, 2006, ISBN 978-3-8324-9838-2, S. 55.
- 2. Accessing Text Corpora and Lexical Resources. NLTK.org, abgerufen am 10. April 2019 (englisch).
- python - Stopword removal with NLTK. stackoverflow.com, abgerufen am 10. April 2019 (englisch).
- Michael Glöggler: Suchmaschinen im Internet: Funktionsweisen, Ranking Methoden, Top Positionen. Springer-Verlag, 2013, ISBN 978-3-642-59321-5, S. 56.