Neurale maschinelle Übersetzung: Künstliche Intelligenz in der mehrsprachigen Kommunikation

Weiterverteilen:Share on Facebook1Share on LinkedIn44Tweet about this on TwitterShare on Google+0

Die meisten Marketingexperten wissen es bereits: Die explosionsartige Ausbreitung von Big Data hat zur einer Revolution der betrieblichen Effizienz und Innovation in Unternehmen geführt – und wir stehen erst am Anfang dieser Entwicklung. Experten sagen voraus, dass das Volumen der verwendeten Daten jedes Jahr um 40 Prozent steigen wird.

Und wenn Unternehmen immer effektivere Möglichkeiten der Nutzung von Daten finden, dann stehen sie natürlich gleichzeitig vor der Herausforderung, eine wahre Flut an Daten verarbeiten zu müssen. Aber Big Data steht auch für große Chancen: So kann ein Unternehmen z. B. mit Hilfe von Übersetzung und Lokalisierung ohne große Probleme auf der ganzen Welt tätig werden.

Doch neben dieser ständig wachsenden Menge an Daten sorgen noch zwei weitere Faktoren für einen Paradigmenwechsel in der Lokalisierungsbranche. Erstens das exponentielle Wachstum der Rechnerleistung und zweitens das wachsende Interesse am sogenannten Deep Learning: einer Art maschinellen Lernens, das Google in seinen Bild- und Spracherkennungsalgorithmen einsetzt.
Vor dem Hintergrund dieser beiden Faktoren ist es nicht erstaunlich, dass das Deep Learning für viel Wirbel in der Übersetzungs- und Lokalisierungsbranche und die Entstehung der sogenannten „Neuralen maschinellen Übersetzung“ (NMT, Neural Machine Translation) gesorgt hat. Mit dem ständigen Anwachsen des Datenvolumens und dem technologischen Fortschritt nimmt schließlich auch das übersetzbare Material immer weiter zu.

Aber was genau ist NMT und wie sorgt diese Art der maschinellen Übersetzung für mehr Effizienz in der Lokalisierung?

In diesem Webinar stellt Jay Marciano, Director of Machine Translation bei Lionbridge, die Anwendung dieser neuen und präziseren Übersetzungsmethode vor und erläutert, wie sie für Fortschritten in der Branche sorgen kann.

Funktionsweise von neuraler maschineller Übersetzung

Neurale maschinelle Übersetzung ist ein relativ neues Paradigma, das zum ersten Mal Ende 2014 untersucht wurde. Zuvor basierte die maschinelle Übersetzung auf einem statistischen Modell, wobei die Maschine aus Datenbanken vorheriger Übersetzungen, den sogenannten Translations Memories, lernte.

Neurale MT (NMT) wird zwar wie die statistische maschinelle Übersetzung (SMT, Statistical Machine Translation) immer noch mithilfe von Translation Memories trainiert. Doch zusätzlich kommen Deep Learning und wesentlich größere Mengen an Trainingsdaten zum Einsatz, auf deren Grundlage ein künstliches neuronales Netzwerk erzeugt wird.

Marciano erläuterte die Funktionsweise der statistischen maschinellen Übersetzung am Beispiel des Schachspiels. Ein Schachprogramm arbeitet in einem eingeschränkten Universum, in dem eine eingeschränkte Anzahl an Zügen möglich ist. Das Programm berechnet einfach alle möglichen Züge, um den besten zu erkennen. Und das maschinelle Lernen in einem statistischen maschinellen Übersetzungssystem funktioniert ähnlich: Zur Erkennung von Korrelationen werden N-Gramme – oder 6-Wort-Gruppen in einem Satz – in der Ausgangssprache mit den in der Zielsprache auftretenden N-Grammen verglichen.

Dagegen kann die neurale maschinelle Übersetzung als „Aufzucht“ eines neuronalen Systems bezeichnet werden, wie Marciano erläutert. Es ist mit dem Klavierspielen vergleichbar: Wenn Sie einen Fehler machen, gehen Sie einen Schritt zurück, versuchen es erneut und wiederholen dieses Schleife, bis alles richtig ist. Und genauso versuchen die neuralen MT-Systeme, den richtigen Weg durch neuronale Netzwerke zu finden.

Somit ist neurale MT um vieles effektiver als das häufig ungenaue, auf N-Grammen basierende Modell. So laufen NMT-Systeme beispielsweise auf leistungsstarken Grafikprozessoren (GPUs, Graphical Processing Units) und nicht, wie die SMT-Systeme, auf CPUs (Central Processing Units). Und so, wie zuvor die SMT wesentlich mehr Zeit für die Übersetzung benötigte als die älteren regelbasierten Systeme, dauert zwar die Übersetzung eines Satzes mit neuraler MT aufgrund der riesigen Datenmengen ebenfalls länger als eine statistische maschinelle Übersetzung. Doch treten mit der statistischen Methode große Probleme bei Sprachen auf, in denen Regeln außerhalb der 6-Wort-Einheit vorkommen.

Selbstverständlich ist auch die NMT noch nicht perfekt: beispielsweise bei der Übersetzung sehr technischer Inhalte. Doch ein Text mit unbekannten technischen Abkürzung würde auch durch jedes andere maschinelle Übersetzungssystem nicht perfekt übersetzt werden – da ist die neurale MT keine Ausnahme. Bei Sprachrichtungen, für die nur wenig Trainingsdaten vorliegen, wie z. B. vom Deutschen ins Koreanische, bietet das Deep Learning die Möglichkeit, indirekte oder „drehbare“ Trainingsdaten aus Quelltexten einer anderen Sprache zu verwenden.

Wo liegt der Hauptunterschied zwischen NMT und SMT? Wenn Sie den Deep Learning-Algorithmen Trainingsmaterial vorlegen, dann wissen die Algorithmen noch nicht, wonach sie suchen müssen. Das System muss selbst Muster erkennen, z. B. Kontexthinweise in der Umgebung eines Satzes in der Ausgangssprache. Doch der genaue Ablauf des Prozesses bleibt in vielerlei Hinsicht undurchsichtig.

Neurale MT und Big Data: Das Ende aller Einschränkungen

Neuronale Netzwerke wurden zuerst in Systemen für Bild- und Spracherkennungsprogrammen mit überwachten Daten angewendet – z. B. einem Bild von einem Hund mit den entsprechenden Metadaten. Beim Lesen dieser Metadaten erkennt das System den Inhalt des Bildes als einen Hund.

Dann versucht das System, den besten Weg durch das neuronale Netzwerk zu finden, um eine Verknüpfung zu erstellen. Bei einer falschen Antwort geht es einen Schritt zurück und sucht einen besseren Pfad. Dabei wird letztendlich ein neuronaler Pfad entwickelt, der zur richtigen Antwort führt. Auf der Grundlage dieses Pfades erfolgt dann die Suche nach dem weiteren Weg.

Bei der Spracherkennung gibt es in der Regel für einen aufgezeichneten Satz in einer bestimmten Sprache eine einzige richtige Transkription, die das Deep Learning finden muss. Und damit wird das Training ziemlich einfach. Doch Übersetzungen beinhalten Trainingsmaterialien mit höherem Rauschen und sind eine komplexere Aufgabe.

Und doch setzen Deep Learning und Big Data, so Marciano, unserem eingeschränkten Vermögen zu Wahrnehmung und Analyse der Welt ein Ende. Da in Big Data so viele Informationen zusammengeführt werden, können komplizierte Muster und innerhalb dieser Muster Verbindungen mit Verfahren erkannt werden, die außerhalb der Erkennungsmöglichkeiten des Menschen liegen.

Doch in einem kürzlich erschienenen Artikel über die Deep Learning-Algorithmen von Google hat sich gezeigt, dass der NMT-Prozess nur schwer durch ein mentales Bild dargestellt werden kann. Ein Großteil der Verarbeitung findet in „verborgenen Schichten“ komplizierter Daten statt. Das bedeutet, dass nur schwer zu erkennen ist, wie das neuronale Netzwerk seine Entscheidungen trifft.
Aus diesem Grund können wir nur für das Trainingsmaterial sorgen, die Algorithmen arbeiten lassen und das Trainingsmaterial optimieren, sollten die Übersetzungen nicht korrekt sein. Lionbridge nutzt außerdem GeoFluent zur Bereinigung von Fehlern in den Ergebnissen der neuralen MT.

Der Einsatz von Methoden zur Qualitätsbewertung wie BLEU verschiebt sich dabei in eine Grauzone. Wenn ein NMT-System sich für eine Übersetzung entscheidet, die sich aus einem unerfindlichen Grund von der Referenzübersetzung unterscheidet, kann sie wegen der Wortwahl bestraft werden – selbst wenn sie absolut perfekt ist.

Die Zukunft von neuronalen Netzwerken und Kommunikation

Es ist zwar schwierig, Fehler in einem neuronalen Netzwerk zu beseitigen und die dahinter liegenden Entscheidungsprozesse zu verstehen. Doch die Sprachkompetenz der NMT verbessert sich so rasant, dass sie aus der Branche nicht mehr wegzudenken ist. Bieten derzeit auch andere Anbieter von maschineller Übersetzung neurale maschinelle Übersetzung an?

Kurz gesagt: Nein! Derzeit können Sie drei neurale MT-Systeme im Internet testen: Google Translate (das in jedes CAT-Tool (Computer-Aided Translation) integriert werden kann), Microsoft Translator und Systran Pure Neural Machine Translation. Aber wir sind (immer noch) das einzige Unternehmen, das ein zur Serienreife entwickeltes System mit einem vollständigen Satz an Trainingstools anbietet. Achten Sie im Verlauf des Jahres weiter auf Ankündigungen zu neuen NMT-Systemen von Microsoft, Google, Systran, Baidu, Facebook, Amazon und anderen.

Neurale MT wird zuerst bei den Sprachrichtungen eingesetzt, bei denen sich gegenüber der SMT die größten Vorteile zeigen. Bevor wir bei Lionbridge NMT einsetzen, werden wir die verfügbaren Systeme für neurale MT testen und dann entscheiden, welche Tools am besten zu unseren Lokalisierungsprozessen passen und die Anforderungen unserer Kunden erfüllen.

Aber eines ist ganz sicher: Mit neuraler MT ändert sich alles. Wenn wir überlegen, wie jung dieses Modell noch ist, so sind die Fortschritte, die damit in den letzten 10 Jahren bereits im Übersetzungsbereich erzielt wurden, höchst erstaunlich. Die Unterschiede zwischen einer herkömmlichen Übersetzung und einer maschinellen Übersetzung werden immer geringer – und wir möchten herausfinden, wie weit man damit kommen kann.

Weiterverteilen:Share on Facebook1Share on LinkedIn44Tweet about this on TwitterShare on Google+0