Als automatisierter Prozess müssen maschinelle Übersetzungen regelmäßig bewertet werden, um ihre Qualität sicherzustellen.
Und wie kann man das machen? Unternehmen haben zwei Möglichkeiten. Eine davon besteht darin, Fachleute zur Überprüfung der Übersetzungen einzusetzen.
Natürlich wäre dies fast widersprüchlich zum gesamten MT-Prozess - da es sich um einen Übersetzungsprozess handelt, der keine Menschen involviert. Um dieses Problem zu lösen, wurde der BLEU-Score entwickelt. Der BLEU-Score ist ein bekanntes Konzept für diejenigen, die mit MT vertraut sind.
BLEU ist die Abkürzung für Bilingual Evaluation Understudy - oder ein Algorithmus, der maschinell übersetzte Texte von einer Sprache in eine andere bewertet.
Wie bewertet der BLEU-Score die Qualität?
Um die Qualität eines Textes zu bewerten, vergleicht der BLEU-Score ihn mit Referenzübersetzungen. Mit anderen Worten, der BLEU-Score misst die Ähnlichkeit zwischen einer automatisierten Übersetzung und einer professionellen Übersetzung. Idealerweise ist die automatisierte Version umso besser, je näher sie dem inhalt der menschlichen Übersetzung kommt. Der BLEU-Score erkennt mithilfe seines Algorithmus, wie "nah" ein Text dem Referenzinhalt ist.
Dieser Algorithmus vergleicht aufeinanderfolgende Sätze des maschinellen Übersetzungstextes mit den aufeinanderfolgenden Sätzen der Referenzübersetzung und bewertet, wie ähnlich sie einander sind, ohne Grammatik oder Verständlichkeit zu berücksichtigen. Dann liefert BLEU basierend auf diesen Informationen eine Punktzahl von 0 bis 1. 1 ist idealerweise das beste Szenario hier.
Es ist jedoch wichtig zu beachten, dass nur wenige Texte jemals diese Punktzahl erreichen werden, da dies bedeuten würde, dass der maschinell übersetzte Text mit mindestens einem Text aus dem Referenzkorpus identisch ist.
Wie Sie vielleicht bemerkt haben, benötigt das BLEU-Punktzahlsystem Referenzinhalt, um die maschinell übersetzten Texte zu bewerten. Tatsächlich wird im Allgemeinen empfohlen, mindestens 1.000 Sätze in den Referenzübersetzungen zu haben, um deren Qualität zu gewährleisten.
Es gibt jedoch einige Nachteile dieser Technologie. Zum Beispiel kann es je nach Art des übersetzten Inhalts ein Problem sein, eine signifikante Anzahl von referenzierten Sätzen zu benötigen. Dennoch ist diese Methode immer noch sehr beliebt bei MT-Benutzern und ist eine der kostengünstigsten Möglichkeiten, automatisch übersetzte Texte zu messen.