Was ist maschinelle Übersetzung?

Regelbasierte maschinelle Übersetzung im Vergleich zur statistischen maschinellen Übersetzung

Maschinelle Übersetzung (MT) ist automatisierte Übersetzung. Dabei handelt es sich um den Prozess, bei dem Computersoftware verwendet wird, um einen Text aus einer natürlichen Sprache (wie Englisch) in eine andere (wie Spanisch) zu übersetzen.

Um eine Übersetzung in menschlicher oder automatisierter Form verarbeiten zu können, muss die Bedeutung des Textes in der Ausgangssprache (Ausgangssprache) vollständig in der Zielsprache, d. h. der Übersetzung, wiederhergestellt werden. Obwohl dies oberflächlich betrachtet unkompliziert erscheint, ist es doch um einiges komplexer. Übersetzung ist keine bloße Wort-für-Wort-Ersetzung. Ein Übersetzer muss alle Textbestandteile interpretieren und analysieren und wissen, wie sich jedes Wort auf ein anderes auswirken kann. Dies erfordert umfangreiche Kenntnisse in Grammatik, Syntax (Satzstruktur), Semantik (Bedeutungen) usw. in den Ausgangs- und Zielsprachen sowie Vertrautheit mit jeder Region.

Bei der Übersetzung von Mensch und Maschine stehen alle Herausforderungen im Vordergrund. Beispielsweise kann kein einzelner Übersetzer eine identische Übersetzung desselben Texts in demselben Sprachpaar erstellen, und es kann mehrere Überarbeitungsrunden dauern, um die Kundenzufriedenheit zu erhöhen. Die größere Herausforderung liegt jedoch darin, wie maschinelle Übersetzung qualitativ hochwertige Übersetzungen zur Veröffentlichung erzeugen kann.

Regelbasierte maschinelle Übersetzungstechnologie

Regelbasierte maschinelle Übersetzung basiert auf unzähligen integrierten linguistischen Regeln und Millionen von zweisprachigen Wörterbüchern für jedes Sprachpaar.

Die Software analysiert Text und erstellt eine Übergangsdarstellung, aus der der Text in der Zielsprache generiert wird. Dieser Prozess erfordert umfangreiche Lexika mit morphologischen, syntaktischen und semantischen Informationen und große Regelwerke. Die Software verwendet diese komplexen Regelsätze und überträgt dann die grammatikalische Struktur der Ausgangssprache in die Zielsprache.

Übersetzungen bauen auf gigantischen Wörterbüchern und ausgefeilten linguistischen Regeln auf. Benutzer können die Qualität von Standardübersetzungen verbessern, indem sie ihre Terminologie in den Übersetzungsprozess einbinden. Sie erstellen benutzerdefinierte Wörterbücher, die die Standardeinstellungen des Systems außer Kraft setzen.

In den meisten Fällen gibt es zwei Schritte: eine Erstinvestition, die die Qualität deutlich erhöht, bei begrenzten Kosten, und eine laufende Investition, um die Qualität schrittweise zu erhöhen. Während regelbasierte MT Unternehmen an die Qualitätsschwelle und darüber hinaus bringt, kann der Qualitätsverbesserungsprozess langwierig und teuer sein.

Technologie der statistischen maschinellen Übersetzung

Die statistische maschinelle Übersetzung verwendet statistische Übersetzungsmodelle, deren Parameter sich aus der Analyse von ein- und zweisprachigen Korpora ergeben. Die Erstellung statistischer Übersetzungsmodelle ist ein schneller Prozess, aber die Technologie basiert weitgehend auf vorhandenen mehrsprachigen Unternehmen. Mindestens 2 Millionen Wörter für eine bestimmte Domäne und noch mehr für die allgemeine Sprache sind erforderlich. Theoretisch ist es möglich, die Qualitätsschwelle zu erreichen, aber die meisten Unternehmen verfügen nicht über so große Mengen an bestehenden mehrsprachigen Unternehmen, um die notwendigen Übersetzungsmodelle zu erstellen. Darüber hinaus ist die statistische maschinelle Übersetzung prozessorintensiv und erfordert eine umfangreiche Hardwarekonfiguration, um Übersetzungsmodelle für durchschnittliche Leistungsniveaus auszuführen.

Regelbasierte MT im Vergleich zur statistischen MT

Regelbasierte MT bietet gute Qualität außerhalb des Bereichs und ist von Natur aus vorhersehbar. Durch die wörterbuchbasierte Anpassung wird die Qualität und die Einhaltung der Unternehmensterminologie gewährleistet. Aber die Übersetzungsergebnisse sind vielleicht nicht so flüssig, wie die Leser es erwarten. In Bezug auf Investitionen kann der Anpassungszyklus, der erforderlich ist, um die Qualitätsschwelle zu erreichen, lang und kostspielig sein. Die Leistung ist auch bei Standardhardware hoch.

Statistische MT bietet eine gute Qualität, wenn große und qualifizierte Kapitalgesellschaften zur Verfügung stehen. Die Übersetzung ist fließend, d. h. sie liest sich gut und entspricht daher den Erwartungen der Benutzer. Die Übersetzung ist jedoch weder vorhersehbar noch konsistent. Training von Good Corpora ist automatisiert und billiger. Die Ausbildung in allgemein verständlichen Korpora, also in anderen Texten als dem angegebenen Bereich, ist jedoch schlecht. Darüber hinaus erfordert statistische MT umfangreiche Hardware, um große Übersetzungsmodelle zu erstellen und zu verwalten.

Regelbasierte MT	Statistische MT
+ Konsistente und vorhersehbare Qualität	- Unvorhersehbare Übersetzungsqualität
+ Qualität der Übersetzung außerhalb des Bereichs	- Schlechte Qualität außerhalb des Bereichs
+ Kennt grammatische Regeln	- Kennt keine Grammatik

+ Hohe Leistung und Stabilität	- Hohe Anforderungen an CPU und Festplattenspeicher
+ Konsistenz zwischen den Versionen	- Inkonsistenz zwischen den Versionen

- Mangel an Flüssigkeit	+ Gute Fließfähigkeit
- Schwer zu handhabende Ausnahmen von Regeln	+ Gut für das Abfangen von Ausnahmen von Regeln

- Hohe Entwicklungs- und Anpassungskosten	+ Schnelle und kostengünstige Entwicklungskosten

Angesichts der allgemeinen Anforderungen besteht ein klarer Bedarf an einem dritten Ansatz, durch den die Benutzer eine bessere Übersetzungsqualität und hohe Leistung erreichen würden (ähnlich wie bei regelbasierten MT), mit weniger Investitionen (ähnlich wie bei statistischen MT).