Machine Translation auf einen Blick | kothes

Geschrieben von Katrin Grzimek | 22. März 2021 09:20:00 Z

Im Zeitalter der Digitalisierung profitiert auch die Übersetzung von KI (künstlicher Intelligenz). Durch den Einsatz von trainierbaren oder generischen Engines können Texte und Technische Dokumente effizienter übersetzt werden.

Falls auch Sie sich mit maschineller Übersetzung beschäftigen und davon profitieren möchten, haben wir Ihnen die wichtigsten Fakten zum Thema "Machine Translation" in Form eines FAQs zusammengestellt.

1. Einstieg und Allgemeines zum Thema Machine Translation

Was ist Machine Translation (MT)?

Machine Translation (MT) meint die automatische Übersetzung von Texten durch die Anwendung von Computerprogrammen. Seit ca. 2016/2017 wird hauptsächlich die neuronale MT (NMT) eingesetzt, bei der künstliche neuronale Netze die Wahrscheinlichkeit von Wortfolgen oder Sätzen in der Übersetzung vorhersagen. Diese sog. MT-Engines verknüpfen mittels Deep-Learning-Methode bilinguale Daten und können so völlig autonom komplexe sprachliche Merkmale "erlernen".

Was sind generische MT-Engines?

Generische MT-Engines werden mit öffentlich zugänglichen Daten aus den verschiedensten Bereichen trainiert. Bekannte generische Übersetzungsdienste sind GoogleTranslate, DeepL und Amazon Translate. Durch die Fülle an Daten, die in das Training dieser neuronalen Engines einfließen, klingen diese Übersetzungen sehr natürlich. Dies macht es allerdings auch schwieriger, ohne genaue Prüfung der Texte Fehler der maschinellen Übersetzung zu entdecken.

Durch das umfangreiche Training können generische Engines die unterschiedlichsten Fachbereiche bedienen. Ob fachspezifische Inhalte jedoch auch dem Fachgebiet entsprechend korrekt und konsistent übersetzt werden, ist aufgrund der unberechenbaren Datenmenge und variierenden Algorithmen, die die Engines steuern, nicht gewährleistet.

Was sind trainierbare MT-Engines?

Trainierbare MT-Engines (auch individualisierte Engines genannt) werden mit kundenspezifischen Daten trainiert. Diese Daten stammen aus bereits bestehenden Übersetzungsspeichern (translation memory) sowie zwei- oder mehrsprachigen Terminologiedatenbanken. Durch das individuelle Training werden fach- und kundenspezifische Termini besser übersetzt und die Konsistenz kann bei wiederkehrenden Texten analog eines exakten Matches oder Context Matches gewährleistet werden. Darüber hinaus können mit fortlaufendem Training und Anpassungen Fehler durch Machine Translation gezielter behoben werden. Je mehr die individualisierte Engine trainiert wird, desto höher ist die Qualität der maschinellen Übersetzung.

Wie viel Zeit und Kosten kann ich mit Machine Translation sparen und welche weiteren Vorteile bietet mir MT?

Durch MT bedingte Kosteneinsparungen in Übersetzungsprojekten sind abhängig vom Datenbestand und von den Ausgangstexten sehr unterschiedlich. Im Durchschnitt liegen sie derzeit bei 20 % nach erfolgreicher Etablierung des MT-Prozesses. Allgemein ergeben sich größere Einsparungen bei großen Mengen an neuen Texten, bei kleineren Überarbeitungen oder Updates kann man eher weniger Einsparungen durch MT verzeichnen.

Die Bearbeitungszeit von Übersetzungen kann sich je nach Ausgangslage (z. B. Qualität der Trainingsdaten, Terminologie) durch den Einsatz von MT um bis zu 50 % verkürzen.

Eine gut trainierte Engine ermöglicht es, den Bestand an Übersetzungsdaten (z. B. Translation Memories und Glossare) optimal zu nutzen und Zeit und Kosten für die Übersetzung kontinuierlich zu minimieren.

Ist der Einsatz von Übersetzern bei Machine Translation überhaupt noch nötig?

Ja, denn grundsätzlich fehlen der Maschine einige Fähigkeiten, die für Humanübersetzer selbstverständlich sind. So können maschinelle Übersetzungssysteme Segmente immer nur unabhängig voneinander bearbeiten und sie nicht zusammen in einen Kontext setzen. Das wird besonders dann zum Problem, wenn im Ausgangstext lexikalische oder strukturelle Mehrdeutigkeiten vorhanden sind. Da Machine Translation also nicht unfehlbar ist, sind die maschinellen Übersetzungsergebnisse stets als Rohdaten zu verstehen, die anschließend posteditiert werden müssen.

Was ist Post-Editing?

Post-Editing ist das Editieren und Korrigieren von maschinell übersetzten Texten. Dabei prüft der Post-Editor die ihm vom System vorgeschlagenen Übersetzungen und passt diese in Grammatik, Rechtschreibung und Stil sowie nach kundenspezifischen Vorgaben wie beispielsweise Fachterminologie an. Post-Editoren sollten zudem mit den linguistischen Eigenschaften von Machine Translation vertraut sein, denn während Rechtschreib- und Flüchtigkeitsfehler kaum auftreten, weisen maschinelle Übersetzungen oft syntaktische Unstimmigkeiten, Terminologie- oder Tagfehler auf.

2. Voraussetzungen, Bedingungen

Welche Faktoren beeinflussen die Qualität der Machine-Translation-Ergebnisse?

Die Qualität der maschinellen Übersetzungsergebnisse hängt von verschiedenen Faktoren ab. Dazu zählen:

- Qualität des Ausgangstexts
- Textsorte
- Sprachrichtungen
- Anzahl und Qualität der Trainingsdaten, mit denen die Engine trainiert wurde
Wie kann ich diese Ergebnisse verbessern und positiv beeinflussen?

Da die Qualität der MT-Ergebnisse unter anderem von der Qualität des Ausgangstexts abhängt, ist es sinnvoll, bereits im redaktionellen Erstellungsprozess nach bestimmten Vorgaben zu arbeiten. Diese Vorgaben lassen sich in Redaktionsleitfäden oder Leitfäden zu übersetzungsgerechtem Schreiben finden. Als Beispiele sind die Verwendung von einfachen, kurzen Sätzen oder die Vermeidung von Mehrdeutigkeiten und Inkonsistenzen zu nennen.

Für welche Textsorten eignet sich Machine Translation gut?

Für den Einsatz von MT sind am besten Fachtexte bzw. sprachlich regulierte Texte, wie sie im Bereich der Technischen Dokumentation zu finden sind, geeignet. Diese Texte sind optimalerweise konsistent und verständlich geschrieben. Aber auch Produktbeschreibungen, -kataloge, interne Dokumentation, Lernplattformen oder Wissendatenbanken sind geeignet.

Für welche Aufträge eignet sich der Einsatz von Machine Translation eher weniger gut?

- Texte mit vielen Tags* (z. B. HTML):
  Die Engine ist nicht immer in der Lage, Tags an der richtigen Stelle im Zieltext wieder einzusetzen, lässt Tags aus oder fügt zusätzliche Tags ein. Besonders bei Texten mit vielen Tags erhöht sich dadurch der Aufwand beim Post-Editing so sehr, dass das Kosten/Nutzen-Verhältnis von MT nicht mehr gerechtfertigt ist.
- Aufträge mit geringem Übersetzungsvolumen:
  Bei Aufträgen, die von Übersetzern auf "herkömmlichem Wege" in kurzer Zeit bearbeitet werden können, sollte abgewägt werden, ob sich der Einsatz (sowie der initiale Aufwand) von MT lohnt.
- Kontextarme Texte:
  MT-Systeme können Segmente immer nur unabhängig voneinander bearbeiten und sie nicht zusammen in einen Kontext setzen. Das wird besonders dann zum Problem, wenn im Ausgangstext lexikalische oder strukturelle Mehrdeutigkeiten vorhanden sind.
- Texte mit häufig verwendeten besonderen Formulierungen:
  Dazu zählen nicht gebräuchliche Abkürzungen, Eigennamen und Produktbezeichnungen.
- Kreative Texte:
  Da die MT nicht den Sinn eines Texts erschließen kann, sondern nur "die Oberfläche" übersetzt, eignen sich Texte mit Metaphern, idiomatischen Ausdrücken oder Wortspielen eher weniger für den Einsatz von MT. Hierzu zählen literarische Texte, Marketingtexte oder Slogans.

* Auszeichnungselemente, die beispielsweise Formatierungen definieren

Welche Sprachen eignen sich?

Die MT erzielt beispielsweise bei romanischen Sprachen (z. B. Spanisch, Italienisch, Französisch) und germanischen Sprachen (z. B. Deutsch, Niederländisch) gute Ergebnisse. Darüber hinaus eignet sich Machine Translation eher bei Sprachpaaren, die einander ähnlich sind, wie etwa Deutsch und Englisch, als beispielsweise bei Sprachpaaren wie Russisch und Chinesisch.

3. Einsatz von Machine Translation und Prozesse

Wie wird Machine Translation bei kothes eingesetzt?

Der Einsatz von Machine Translation erfolgt im Übersetzungsprozess über eine Anbindung (API) an das Übersetzungsmanagementsystem. Diese Schnittstelle ermöglicht es, Texte, die noch nicht im kundenspezifischen Übersetzungsspeicher (translation memory) des Systems vorhanden sind, automatisch übersetzen zu lassen. Textbausteine aus vorigen Übersetzungen können somit auch weiterhin wiederverwendet werden. Welche Inhalte dabei aus dem Übersetzungsspeicher und welche von der Maschine gezogen werden, lässt sich individuell einstellen. Alle nachgelagerten Tätigkeiten im Übersetzungsprozess, wie der automatische Qualitätscheck und Layoutanpassungen, laufen weiterhin wie gewohnt ab.

Wie kann ich Machine Translation in meine Prozesse integrieren?

Die MT-Engine kann via Plug-in in allen kothes Übersetzungssystemen genutzt werden. Es ist zudem möglich, die Machine-Translation-Engine über eine Schnittstelle (API) an andere Kundensysteme anzubinden (CRM, CDP etc.). In diesen Fällen bietet kothes an, das Hosting sowie Training der MT-Engine zu betreiben und diese über eine API beim Kunden zur Verfügung zu stellen.

Muss ich, wenn ich mich für den Einsatz von Machine Translation entschieden habe, für immer maschinell übersetzen?
- Nein. Der Einsatz von Machine Translation kann auch noch nachträglich aus dem Übersetzungsprozess entfernt werden. Das Translation Memory wird dann wie gewohnt für den humanen Übersetzungsprozess genutzt und enthält die bis dahin aus dem Post-Editing gespeicherten Übersetzungseinheiten.
- Jedoch ist hervorzuheben, dass der Umstieg auf Machine Translation eine strategische Entscheidung ist. Wir empfehlen daher, den neuen MT-Prozess für die gewählten Sprachpaare mindestens in der Anfangszeit beizubehalten. Somit kann die MT-Engine außerdem fortlaufend trainiert werden, um die Qualität der maschinellen Übersetzungsergebnisse beizubehalten oder sogar zu verbessern.
Welchen Nutzen hat meine Terminologie bei der Anwendung von Machine Translation?

Trainierbare MT-Engines werden mit kundenspezifischen Daten trainiert, um sowohl die Terminologie als auch die Unternehmenssprache in den Übersetzungen zu berücksichtigen und damit die Qualität der Vorübersetzung zu erhöhen. Somit kann schlussendlich der Aufwand beim Post-Editing minimiert werden.

Hier gibt es zwei wichtige Faktoren, die auf die MT Einfluss nehmen:

1. Eine gut gepflegte Terminologie in Ausgangs- und Zielsprache steigert die Qualität der Translation Memories.
2. Beim Training einer Engine kann diese Terminologie für die maschinelle Vorübersetzung priorisiert werden.

Wie wird die Qualitätssicherung gewährleistet?

Im Anschluss an das Post-Editing erfolgt wie im regulären Übersetzungsprozess eine automatische Prüfung und – sofern gewünscht – eine Prüfung nach dem 4-Augen-Prinzip, denn das Post-Editing dient nicht als Ersatz für eine Prüfung durch eine weitere Person. Die posteditierten und ggf. geprüften Textbausteine werden im Anschluss im Übersetzungsspeicher abgelegt und können beim nächsten Übersetzungsauftrag wiederverwendet werden. So gewähren wir als Übersetzungsdienstleister weiterhin eine hohe Qualität bei allen Übersetzungen.

4. Hard Facts

Wie viele Daten benötige ich für das Training einer MT-Engine?

Für das Training individualisierter Machine-Translation-Engines werden größere Mengen an Übersetzungsdaten benötigt. Daher sollten mindestens 15.000, im Idealfall jedoch 100.000 Segmente im Übersetzungsspeicher vorhanden sein. Der Einsatz von trainierbaren Engines eignet sich daher eher für Unternehmen mit hohen Übersetzungsvolumina. Je mehr qualitativ hochwertige Daten vorhanden sind, desto höher ist die Wahrscheinlichkeit, dass die trainierbare MT-Engine gute Übersetzungsergebnisse liefert.

Für den Fall, dass der Auftraggebende noch keinen umfangreichen Datenbestand hat, gibt es die Möglichkeit, diesen zusätzlich mit thematisch-allgemeinen Übersetzungsdaten anzureichern, um genügend Daten für das Training der MT-Engine zu erhalten. Dies ermöglicht einem breiteren Kundenspektrum den Einstieg in Machine Translation.

Was sind die initialen Kosten für den Einsatz von Machine Translation?

Der initiale Aufwand von MT ist stark von den Rahmenbedingungen (Ausgangsdaten), der Anzahl der Engines und der Art des Hostings abhängig. Gern prüfen wir Ihre Anforderungen in unserem Machine-Translation-Check.

Welche Möglichkeiten des Hostings gibt es?

MT-Übersetzungssysteme können meist cloudbasiert und inhouse gehostet werden. Das Inhouse-Hosting erfordert einen hohen Investitionsaufwand im Bereich der Hardware, weswegen wir für den Einstieg ein cloudbasiertes System empfehlen.

Sind meine Daten sicher?

Während bei trainierbaren Engines die Daten nur für das Training der entsprechenden Engine verwendet werden, herrscht Skepsis darüber, wie Anbieter von generischen Systemen die Daten verarbeiten. Bei der Nutzung von frei zugänglichen generischen Engines ist unklar, was mit den Daten geschieht. Jedoch werden auch Firmenversionen von generischen Engines angeboten, bei denen der Datenschutz mittels End-to-end-Verschlüsselung und der unmittelbaren Löschung der Daten nach der Übersetzung gewährleistet wird. In jedem Fall raten wir davon ab, sensible Daten mit browserbasierten Übersetzungstools maschinell übersetzen zu lassen.

Welche Normen bewerten die Kernprozesse im Bereich Machine Translation und stellen die Umsetzung sicher?

Alle Prozesse, Aufgaben und Anforderungen rund um das Thema Machine Translation und Post-Editing werden in der ISO 18587 (Übersetzungsdienstleistungen – Posteditieren maschinell erstellter Übersetzungen – Anforderungen) beschrieben. In allen anderen Bereichen verlaufen die Prozesse weiterhin wie gehabt gemäß der ISO 17100 (Übersetzungsdienstleistungen – Anforderungen an Übersetzungsdienstleistungen).

Weitere Fragen zu Machine Translation beantworten wir Ihnen gerne in einem persönlichen Gespräch. Kontaktieren Sie uns gerne.

Vollständigen Beitrag anzeigen