Suche verstehen
Wir helfen Ihnen dabei, die Such­anfragen Ihrer Kund*innen und Mit­ar­bei­­ter*innen zu ver­stehen und schnell re­le­vante Ergebnisse zu liefern.

Lemmatisierung – Mehr als Stemming

Beim Verarbeiten von natürlichsprachlichen Texten steht man immer wieder vor der Herausforderung, die unterschiedlichen Formen eines Wortes als zusammengehörig erkennen, um diese einheitlich zu behandeln. Ein einfacher und kostengünstiger Ansatz ist Stemming, bei dem Worte auf ihren jeweiligen Wortstamm reduziert werden. Wenn dieser Ansatz nicht ausreicht, kann die deutlich mächtigere Lemmatisierung eingesetzt werden.

Lemmatisierung ist viel mehr als Stemming

Der rein algorithmische Ansatz des Stemmings liefert in vielen Fällen brauchbare Ergebnisse, leidet aber speziell in der deutschen Sprache unter vielen Ausnahmen und Unregelmäßigkeiten. Darüber hinaus sind die Wortstämme meist keine eigenständigen Worte und können deshalb oft nicht direkt für die Anzeige beim Endbenutzer verwendet werden.

Das Lemmatisieren hat seinen Namen von “Lemma“, der Grundform bzw. Zitierform. Es ist die Form unter der ein Wort in einem Wörterbuch zu finden ist. Das Lemma ist also ein eigenständiges Wort und damit in der Regel für Endanwender auch geläufig.

Welches Lemma einem Wort zugeordnet wird, kann theoretisch frei gewählt werden und hängt teilweise auch vom konrekten Anwendungsfall ab, im allgemeinen Sprachgebrauch haben sich jedoch bestimmte Herangehensweisen etabliert.

So wird für Nomen typischerweise der Nominativ Singular gewählt:

(die) Tische → (der) Tisch
(die) Gesellschaften → (die) Gesellschaft
(den) Schwestern → (die) Schwester

Bei Verben wird normalerweise der Infinitiv Präsens Aktiv verwendet:

(du) träumst → träumen
(sie) sahen → sehen
(ich) bin → sein

Die Umsetzung

Diese Zuordnungen können nur durch umfangreiche Wörterbücher realisiert werden, in denen alle Wortpaare aufgelistet werden. Das Ermitteln eines Lemmas wird dann durch simples Nachschlagen im Wortschatz gelöst.

Da zusammengesetzte Worte eine wichtige Rollen im Deutschen spielen und wesentlich zur Schaffung von neuen Worten beitragen, müssen sie auch bei der Lemmatisierung berücksichtigt werden. Das Lemma eines zusammengesetzen Wortes kann gebildet werden, indem lediglich der Kopf bzw. das Grundwort lemmatisiert wird:

Wohnhäuser → Wohn|haus
Reihenhäuser → Reihen|haus
Krankenhäuser → Kranken|haus

Ganz allgemein:

...|häuser → ...|haus

Anstatt eine große Anzahl an Komposita mit in den Wortschatz mitaufzunehmen, sollte die Lemmatisierung also lieber mit einer Kompositazerlegung kombiniert werden. Der benötigte Wortschatz kann so deutlich reduziert werden.
Für den Fall, dass das Lemma eines Wortes nicht direkt bekannt ist, wird dann zunächst versucht, das Wort als Kompositum zu betrachten und es in seine Bestandteile zu zerlegen. Wenn das gelingt, kann der Kopf lemmatisiert und dann das ursprüngliche Wort aus den Einzelteilen wiederhergestellen werden.

Notwendige Anpassbarkeit

Wie bei der Kompositazerlegung ist es auch bei Lemmatisierung notwendig, auf den konkreten Anwedungsfall einzugehen und entsprechende Anpassungen vornehmen zu können. Hierbei geht es vorallem um die Frage, welche Wortformen unter demselben Lemma zusammengefassen werden sollen. In Fachlexika werden Begriffe teilweise thematisch zusammengefasst, sodass z.B. “der Traum”, “träumen” und “das Träumen” das Lemma “(der) Traum” zugeordnet bekommen.

Aber auch bei Ableitungen wie “vorlesen”, “nachlesen”, “mitlesen” oder “durchlesen” ist nicht zwingend vorgeschrieben, dass diese eigenständige Lemmas haben müssen. Falls keine weitere Unterscheidung sinnvoll oder notwendig ist, können diese auch unter dem Lemma “lesen” zusammengefasst werden. Ähnlich wie bei Fachlexika können so ganze Bedeutungsgruppen völlig unabhängig von der Wortart zusammen gefasst werden:

singen, vorsingen, (der) Gesang, (der) Sänger, singend, gesungen, ... → singen
fliegen, geflogen, (der) Flug, (die) Fliege, fliegend, Abflug, ... → (der) Flug

Fazit

Die Lemmatisierung ist ein wichtige Alternative zum Stemming. Beim Verarbeiten von natürlichsprachlichen Texte ist der Einsatz von einem dieser beiden Methoden fast unerlässlich. Durch den Wörterbuch-basierten Ansatz bietet Lemmatisierung eine höhere Flexibilität und kann so im Deutschen deutlich besser mit Unregelmäßigkeiten und den vielen unterschiedlichen Wortformen umgehen. Zusätzlich bietet sich die Möglichkeit, den Wortschatz auf den konkreten Anwendungsfall anzupassen und dadurch ein besseres Ergebnis zu erhalten. Der rein algorithmische Ansatz des Stemmings bietet diese Möglichkeit nicht. Wird die Lemmatisierung mit einer Kompositazerlegung kombiniert, können auch Wortneuschöpfungen durch Komposition automatisch korrekt behandelt werden.