Im ersten Teil unser dreiteiligen Blog-Serie „Machine Translation“ haben wir bereits geschildert, dass die Wahl der maschinellen Übersetzungssoftware ‒ also der sogenannten Machine Translation Engine oder Engine ‒ ein entscheidender Faktor bei der Implementierung von maschineller Übersetzung im Übersetzungsprozess sein kann. In diesem zweiten Teil erläutern wir die Eigenschaften und Unterschiede von generischen und trainierbaren Translation Engines zur Anwendung von Machine Translation. Dabei gehen wir auf Entscheidungsfaktoren wie Qualität, Trainingsdaten und Kosten sowie Datenschutz ein.
Generische Engines werden mit öffentlich zugänglichen Daten aus den verschiedensten Bereichen trainiert. Bekannte generische Übersetzungsdienste sind GoogleTranslate, DeepL und Amazon Translate. Diese Anbieter bieten sowohl browserbasierte Übersetzungstools ‒ der Google Translator ist wahrscheinlich das bekannteste Tool ‒ als auch Schnittstellen zur Einbindung in CAT-Tools an. Durch die Fülle an Daten, die in das Training dieser neuronalen Engines einfließen, klingen diese Übersetzungen sehr natürlich. Dies macht es allerdings auch schwieriger, ohne genaue Prüfung der Texte Fehler der maschinellen Überstzung zu entdecken. Durch das umfangreiche Training können generische Engines die unterschiedlichsten Fachbereiche bedienen. Ob fachspezifische Inhalte jedoch auch dem Fachgebiet entsprechend korrekt übersetzt werden, ist aufgrund der unberechenbaren Datenmenge und variierenden Algorithmen, die die Engines steuern, nicht gewährleistet.* Dies wird vor allem bei Übersetzungen mit fach- und firmenspezifischen Terminologie- sowie Stilvorgaben deutlich. Ein Satz, der an einer Stelle korrekt übersetzt wurde, kann an anderer Stelle im Text eine völlig andere Übersetzung erhalten.
Trainierbare Engines (auch individualisierte Engines genannt) werden hingegen mit kundenspezifischen Daten trainiert. Diese Daten stammen aus bereits bestehen Übersetzungsspeichern (translation memory) sowie zwei- oder mehrsprachigen Terminologiedatenbanken. Das Training erfolgt durch die Anbieter der maschinellen Übersetzungssoftware und muss nicht von den Kunden selbst übernommen werden. Durch das individuelle Training werden fach- und kundenspezifische Termini besser übersetzt und die Konsistenz kann bei wiederkehrenden Texten analog eines exakten Matches oder Context Matches gewährleistet werden. Darüber hinaus können mit fortlaufendem Training und Anpassungen Fehler durch Machine Translation gezielter behoben werden. Je mehr die individualisierte Engine trainiert wird, desto höher ist die Qualität der maschinellen Übersetzung. Zusammenfassend eignet sich der Einsatz von trainierbaren Engines vor allem bei Aufträgen mit wiederkehrenden Textteilen, kundenspezifischen Vorgaben sowie für kontextarme Texte und Wortlisten. Darüber hinaus zeichnen sich trainierbare Engines durch einen besseren Umgang mit Tags (Auszeichnungselemete, durch die Inhalte zusätzliche Informationen wie Formatierungen erhalten) aus.
Entscheidend für den erfolgreichen Einsatz von trainierbaren Engines ist die Qualität der Trainingsdaten. Wir empfehlen daher eine gründliche Prüfung der Segmente aus dem Übersetzungsspeicher, bevor dieser für ein Maschinentraining genutzt wird. Darüber hinaus werden für das Training individualisierter Engines größere Datenmengen benötigt. Im Idealfall handelt es sich dabei um mindestens 30.000 Segmente bzw. 300.000 Wörter. Der Einsatz von trainierbaren Engines eignet sich daher eher für Kunden mit hohen Übersetzungsvolumina. Des Weiteren gilt es zu beachten, dass die Integration einer trainierbaren Engine und deren fortlaufende Pflege auch mit höheren Kosten verbunden ist.
Während bei trainierbaren Engines die Daten nur für das Training der entsprechenden Machine Translation Engine verwendet werden, herrscht Skepsis darüber, wie Anbieter von generischen Systemen die Daten verarbeiten. Bei der Nutzung von frei zugänglichen generischen Engines ist unklar, was mit den Daten geschieht. Wir raten daher davon ab, Ihre sensiblen Daten mit browserbasierten Übersetzungstools maschinell übersetzen zu lassen. Jedoch werden auch Firmenversionen von generischen Engines angeboten, bei denen der Schutz von sensiblen Daten versprochen wird. So gibt beispielsweise DeepL an, einen zweifachen Datenschutz mittels End-to-end-Verschlüsselung und der unmittelbaren Löschung der Daten nach der Übersetzung zu gewährleisten.
Bei der Entscheidung für die Implementierung von Machine Translation ‒ egal, ob generisch oder trainierbar ‒ bleibt zu beachten, dass die Übersetzungsergebnisse der Maschine nur Rohdaten darstellen. Sofern die Übersetzungen nicht nur zu reinen Informationszwecken genutzt werden, sondern beispielsweise veröffentlicht werden sollen, ist das Post-Editing durch geschulte, muttersprachliche Übersetzer immer noch zwingend erforderlich. Wie gutes Post-Editing aussieht und ob trotz Post-Editing von maschinell übersetzten Texten letzten Endes wirklich die gewünschten und hoch angepriesenen Zeit- und Kostenersparnisse erzielt werden, stellen wir im dritten Teil unserer Blogreihe zu Machine Translation vor.
* Seit Mai 2020 bietet DeepL im DeepL Übersetzer (www.deepL.com) und der Pro-Version eine Glossarfunktion an. Durch die Einbindung von Terminologie im Glossar können so, laut DeepL, konsistente maschinelle Übersetzungen gewährleistet werden. Derzeit ist nicht bekannt, ob die DeepL-Glossarfunktion auch in CAT-Tools verfügbar sein wird.
Quelle: https://www.deepl.com/blog/20200506.html (letzter Zugriff: 29.07.2020)