Suche verstehen
Wir helfen Ihnen dabei, die Such­anfragen Ihrer Kund*innen und Mit­ar­bei­­ter*innen zu ver­stehen und schnell re­le­vante Ergebnisse zu liefern.

Kompositazerlegung – zusammengesetzte Worte trennen

Die Komposition, d.h. die Zusammensetzung von mehreren Worten zu einem einzelnen Wort, ist im Deutschen eine der wichtigsten Arten der Wortbildung. Komposita werden verwendet, um komplexere Sachverhalte in einem einzigen Wort auszudrücken und tragen so wesentlich zur Effizienz der Sprache bei. Die Kompositazerlegung ist deshalb ein wichtiger Bestand der Verarbeitung von natürlichsprachlichen Texten.

Kompositazerlegung zur Erschließung von Bedeutungen

Es ist klar, dass ein Kinderarzt ein Arzt ist, der Kinder behandelt; ein Wintersportverein ein Verein ist, der sich Sportarten für den Winter widmet; die Autowaschanlage eine Anlage zum Waschen von Autos ist. Durch die theoretisch unbegrenzten Kombinationsmöglichkeiten ergeben sich theoretisch beliebig viele, theoretisch beliebig lange Worte, um Dinge und Situationen genau zu beschreiben.

Bei der Verarbeitung von natürlichsprachlichen Texten erweisen sich zusammengesetze Worte aber als problematisch.
Suchsysteme wie Apache Solr erfordern eine exakte Übereinstimmung der Suchbegriffe, so dass ein Kinderarzt nicht automatisch als “ein Arzt für Kinder” erkannt wird und eben zu keinem Suchtreffer beim Begriff “Arzt” führt.

Durch Wildcards kann an vielen Stellen nachgeholfen werden, allerdings können hier falsch-positive Treffer erzeugt werden, die der Intention des Suchenden widersprechen. So ist “Beispiel” meist kein gewünschter Treffer für “Spiel” und “gehen” nicht für “Ehe”.

Zusammengesetzte Worte werden häufig zur genaueren Bestimmung gebildet: der Schreibtisch, der Hausschuh, die Präsidentenwahl.
Die Erwartung der Benutzer ist meist, dass diese zusammengesetzten Worte inhaltlich “verstanden” und in ihre einzelnen Teilworte zerlegt werden.

Eine Suche nach “Schuh” soll also auch den “Hausschuh” liefern, “Sport” auch den “Wintersportverein” finden und die “Präsidentenwahl” ist ein guter Treffer bei der Suche nach “Wahl”.

Grundsätzlich kann die Worttrennung nicht allein auf algorithmischem Weg gelöst werden, da die natürliche Sprache viel zu unregelmäßig ist.
Man kann nicht einfach nach bestimmten Buchstabenfolgen suchen, um eine Wortgrenze erkennen. Für sinnvolle Worttrennung muss daher zwingend eine Liste an verfügbaren Wortteilen benutzt werden.

Darüber hinaus müssen auch Fugenelemente, wie z.B. bei “Arbeitsplatz-Sicherungsgesetz” berücksichtigt werden.

Probleme

Die Unregelmäßigkeit der natürlichen Sprache bereitet aber auch bei diesem Ansatz Schwierigkeiten.

Die korrekte Trennung ist für einen Menschen oft sofort klar, weil andere Varianten einfach “sinnlos” erscheinen.
In der automatisierten Verarbeitung ist diese Plausibilitätsprüfung aber oft schwierig oder überhaupt nicht möglich.

So könnte “Arbeitsamt” sowohl als “Arbeit-s-amt”, als auch als “Arbeit-samt” getrennt werden.
“Nachteilzug” könnte in “Nacht-eil-zug” oder auch “Nach-teil-zug” zerlegt werden.

Der “Lautsprecher“ ist dagegen überhaupt kein zusammengesetzes Wort und “Verkäuferinnen“ ist nicht aus “Verkäufer“ und „Innen“ gebildet.

Auf der inhaltlichen Ebene ist auch interessant, zu welchem Zweck die Worttrennung durchführt wird. Daraus können sich unterschiedliche Erwartungshaltungen und Anforderungen ergeben, bei denen dann zu entscheiden ist, ob Worte wie “Wasserstoff” oder “Übersee” überhaupt zu trennen sind.

Bei ihnen bildet der “Kopf” zwar ein eigenständiges Wort, hat allerdings eine ganz andere Bedeutung.
So ist die “Schildkröte” überhaupt keine Art von “Kröte”, obwohl dies bei der “Erdkröte” der Fall ist.
Wenn den Benutzern dieser Umstand bekannt ist, wird dies zu unerwarteten Ergebnissen führen und unter Umständen negativ bewertet.

Fazit

Zusammengesetzte Worte tauchen überall in deutschen Texten auf, da die Komposition eines der wichtigsten Mittel zur Bildung neuer Worte ist.
Deshalb spielt die Kompositazerlegung auch eine wichtige Rolle bei der Verarbeitung von natürlicher Sprache, wie z.B. im Zusammenspiel mit Lemmatisierung, Suche aber auch Maschine Learning.

Die Einzelteile von zusammengesetzten Worten zu erkennen benötigt Regeln zur Handhabung von Fugenelementen und einen dazu passenden Wortschatz. Dieser muss aber unter Umständen auf die entsprechende Anwendung angepasst werden können, da nicht jede mögliche und korrekte Trennung auch zu den tatsächlichen Anforderungen und Erwartungen der Benutzer passt.