Technologie

Wie sich die maschinelle Übersetzung an Double-Byte-Sprachen anpasst

UTF-8 zusammen mit neuronalen Netzwerken steigern die Leistung der maschinellen Übersetzung bei der Verarbeitung von Double-Byte- und Multi-Byte-Sprachen.

Thalita Lima

8 minutes, 48 seconds

Jede Sprache auf der Welt gehört zu einer Familie, die ihren Ursprung und ihre Verbreitung erklärt, aber wussten Sie, dass gemäß den Parametern des Datensystems alle gesprochenen Sprachen in zwei Gruppen unterteilt werden können: Einzelbyte- und Doppelbyte-Sprachen?

Doppelbyte-Sprachen beziehen sich auf Zeichencodierungssysteme, bei denen ein Zeichen durch 2 Bytes (16 Bit) dargestellt wird, um ein Zeichen darzustellen.

Dies geschieht, weil diese Sprachen einen großen Zeichensatz haben, der mehr Speicherplatz erfordert als Ein-Byte (8 Bit) Kodierungssysteme.

Zu den Double-Byte-Sprachen gehören Chinesisch (vereinfacht und traditionell), Japanisch, Koreanisch, Vietnamesisch (in einigen älteren Kodierungen) und viele andere auf der ganzen Welt.

Support-Systeme wie UTF-16 und UTF-8, die zwischen einem, zwei oder sogar mehr Bytes wechseln können, sind für Double-Byte- und Multi-Byte-Sprachen notwendig.

Wichtig: DBCS-Sprachen (Double Byte) werden oft fälschlicherweise als Multi-Byte Character Set (MBCS) bezeichnet, da sie ähnliche Konzepte haben.

Schauen wir uns die Details in diesem Artikel an und konzentrieren wir uns auf den Zusammenhang dieses Kodierungsunterschieds in der maschinellen Übersetzung!

1. Zeichenzuordnungssysteme für Double-Byte-Sprachen

Der Kodierungsprozess wurde nach der Erfindung von UTF (dem Unicode Transformation Format) einfacher.

1.1) Die Systeme, die vor der Popularität von Unicode entstanden – DBCS (Double-Byte Character Set)

Die Erstellung von DBCS war für Sprachen, die viele Zeichen benötigen, hauptsächlich Chinesisch, Japanisch und Koreanisch (CJK).

Beispiele: Shift JIS (Japanisch), Big5 (Traditionelles Chinesisch), EUC-KR (Koreanisch).

Mit 2 Bytes (16 Bit) kann es bis zu 65.536 Zeichen darstellen (2¹⁶).

‍

1.2) Fortgeschrittene Systeme: UTF-16 und UTF-8

UTF ist ein Kodierungsschema, das Unicode-Zeichen in binäre Formate umwandelt; somit können Computer und Software-Systeme effektiv Text aus vielen Sprachen und Schriftsystemen darstellen und austauschen.

Es ist ein internationaler Standard, bei dem jedem Zeichen eine eindeutige Nummer (Codepunkt) zugewiesen wird, unabhängig davon, ob es zu einer bestimmten Sprache oder einem bestimmten Schriftsystem gehört.

UTF beschreibt den Prozess der Umwandlung dieser Codepunktnummern in einen Bytestrom, der für einen Computer verständlich ist.

‍

Beispiele für UTF:

UTF-16: 2 oder 4 Byte für jedes Zeichen.

Es wird immer noch in bestimmten Systemen verwendet, die mit asiatischen Zeichen umgehen.

Einige Versionen von Windows verwenden beispielsweise intern UTF-16.

‍

UTF-8: Jedes Zeichen ist je nach Symbol 1-4 Byte wert.

Lateinische Alphabete (Englisch, Spanisch, Portugiesisch) - 1 Byte; Sonderzeichen und asiatische Sprachen - 2-4 Bytes.

Außerdem ist UTF-8 heutzutage die am weitesten verbreitete Kodierung, im Web, in Datenbanken und in modernen Anwendungen.

‍

1.3 Das SBCS funktioniert nicht für Doppelbyte-Sprachen. Warum?

SBCS (Single-Byte Character Set) ist ein System, das maximal 256 Zeichen hat (1 Byte = 8 Bit = 2⁸ = 256 Möglichkeiten). Es ist in Ordnung für Sprachen mit kleineren Alphabeten, zum Beispiel Englisch, Spanisch oder Französisch, die innerhalb dieser Grenze dargestellt werden können.

Bei Sprachen, die aus tausend Zeichen bestehen, fehlt SBCS der Platz für Double-Byte-Sprachen!

‍
Chinesisch hat mehr als 50.000 Zeichen, obwohl 3.000-5.000 davon im täglichen Gebrauch sind;

Japanisch kombiniert Kanji (chinesische Logogramme) mit Hiragana und Katakana und erfordert weit mehr Zeichen, als SBCS enthalten kann.

Deshalb benötigen Double-Byte-Sprachen geeignete Systeme.

2. Doppelbyte-Sprachen in der maschinellen Übersetzung

Es gibt einige auffällige Funktionen, die diese Sprachen haben und die Maschinen bewältigen müssen:

2.1) Support für Kodierung

Die überwiegende Mehrheit der derzeit verfügbaren Sprachmaschinen-Tools kann effizient mit UTF-8 und UTF-16 arbeiten, da diese vielseitig sind und hochkomplexe Zeichen darstellen.

UTF-8 wird besser akzeptiert als die anderen Codierungsformate, da es sowohl englischsprachige (die 1 Byte verwenden) als auch japanische und chinesische Sprecher (die mehrere Bytes benötigen) zulässt.

Dies ist optimal, wenn man das wettbewerbsintensive Weltgeschäft bedenkt, das von Ländern dominiert wird, in denen Englisch und Mandarin sprechende.

2.2) Segmentierung des Textes

Im Spanischen oder Portugiesischen werden Leerzeichen verwendet, um jedes Wort zu segmentieren, was das Isolieren von Wörtern in einem Satz sehr einfach macht.

Im Deutschen oder Japanischen wird die Worttrennung oder Textsegmentierung, bei der lexikalische Einheiten abgegrenzt werden, von Maschinen vorgenommen, bevor eine Übersetzung durchgeführt wird, da Leerzeichen als Trennzeichen fehlen.

2.3) Mehrdeutigkeit und Kontext

Ein Zeichen in zahlreichen asiatischen Sprachen kann je nach Situation verschiedene Bedeutungen haben.

Nehmen wir zum Beispiel "银行" im Chinesischen, genauer gesagt "yínháng", was übersetzt "Bank" bedeutet, könnte ein Finanzinstitut oder das Ufer eines Flusses bedeuten.

Systeme heutzutage wie DeepL, Google Übersetzer, Microsoft Übersetzer und Papago (Naver) verwenden neuronale Netzwerke*, um den Kontext vorherzusagen und dann den besten Satz aus den vorhandenen Optionen auszuwählen.

*Künstliche neuronale Netzwerke sind Rechenmodelle, die das menschliche Gehirn nachahmen. Die massiven Daten werden über künstliche Neuronenschichten verarbeitet, um nach Mustern zu suchen und zu lernen, Entscheidungen mit oder ohne vorgegebene Regeln zu treffen.

Bei der maschinellen Übersetzung berücksichtigen neuronale Netzwerke den Kontext auf Satzebene anstatt einer wortweisen Übersetzung, was mit unserem Ziel übereinstimmt, natürlichere und bessere Übersetzungen zu erstellen.

2.4) Wortstellung

Die Unterschiede in den grammatikalischen Strukturen zwischen den Sprachen sind enorm...

Beispiel:

Ich esse einen Apfel.

Japanisch:「I apple eat」 (「リンゴ　を　食む)

Maschinelle Übersetzung muss die Wörter richtig anordnen, damit die Bedeutung des Satzes nicht verloren geht.

2.5) Übersetzung von Phrasal-Ausdrücken von muttersprachlichen Redewendungen

Redewendungen können schwierig direkt zu übersetzen sein.

Z.B.: "Sogar Affen fallen von Bäumen" lässt sich natürlich mit der japanischen Redewendung "猿も木から落ちる" ("Auch Experten machen Fehler") übersetzen.

3. Sind DBCS und MBCS dasselbe?

Double-Byte (DBCS) und Multi-Byte (MBCS) sollten voneinander unterschieden werden.

Double-Byte Characters Set (DBCS) → Zunächst sind die Kodierungssysteme, die doppelte Bytes oder 16 Bits für ein Zeichen verwalten, das Double-Byte Characters Set (DBCS).

Beispiel: Big5 (Traditionelles Chinesisch), Shift JIS (Japanisch), EUC-JP(Koreanisch)

Dies mussten Systeme sein, die vor-unicode Paradigmen ausnutzten.

Multi-Byte Character Set (MBCS) → (jede Codierung mit zwei Byte pro Zeichen)

Bsp.: (UTF-8, kann bis zu 1, 2, 3 oder 4 Byte pro Zeichen verwenden)

Vor Unicode wurde DBCS (Double-Byte Character Set) in der Regel für die vielen D's wie CJK (Chinesisch, Japanisch, Koreanisch) mit einer Beschränkung von zwei Byte pro Zeichen verwendet.

Einige Sprachen außer Thailändisch, Vietnamesisch, Hindi und Arabisch (Multi-Byte-Zeichensatz) werden normalerweise in diesem Unicode-System codiert.

Aufgrund von UTF-8 und UTF-16 stirbt DBCS aus, und viele Sprachen werden oder werden bald als 'Multi-Byte' bzw. unter ihren jeweiligen Namen dargestellt (z.B. Chinesisch, Japanisch, Koreanisch, Swahili und andere).

Schlussfolgerung: Für die maschinelle Übersetzung von Double-byte-Sprachen sind die Ähnlichkeiten stärker denn je. Heute können Systeme Daten für die meisten Sprachen verarbeiten (zwei oder mehr Bytes).

Double-Byte-Sprachen ist immer noch ein Begriff, der verwendet wird und sehr beliebt ist, aber jetzt wissen Sie, dass die Bandbreite größer ist.

4. Double-Byte (DBCS) und Multi-Byte-Sprachen weltweit

Wir haben über Chinesisch und Japanisch gesprochen, aber es gibt noch viel mehr Double-Byte-Sprachen, die wir einbeziehen können. Machen wir also eine Reise um die Welt, um all diese Sprachen zu lernen...

4.1 Ältere historisch Double-Byte (DBCS) Sprachen

DBCS wird hauptsächlich von CJK-Sprachen (Chinesisch, Japanisch, Koreanisch) in Ostasien verwendet.

Vereinfachtes Chinesisch (China, Singapur) – Alte Kodierung: GB2312, GBK
traditionelles Chinesisch (Taiwan, Hongkong, Macau) – Alte Kodierung: Big5
Japanisch – Alte Kodierung: Shift JIS, EUC-JP
Koreanisch – Alte Kodierung: EUC-KR

Diese Sprachen haben eine große Anzahl von Zeichen, was eine Double-Byte-Codierung in vor-Unicode-Systemen erforderlich macht.

Koreanische TastaturBild von Wikimedia Commons

4.2 Standardkonform – Sprachen, die Multi-Byte (MBCS) verwenden

Heutzutage könnten Kodierungssysteme in diesen Sprachen zwei, drei oder sogar vier Bytes pro Zeichen erfordern. Sie werden heute normalerweise als UTF-8 oder UTF-16 symbolisiert.

Südostasiatische Sprachen:

→ Vietnamesisch — Verwendet das lateinische Alphabet mit vielen diakritischen Zeichen, die in älteren Kodierungen mehr als ein Byte annehmen können.

→ Thailändisch – einige Zeichenkombinationen benötigen mehr als 1 Byte, um sie korrekt darzustellen.

→ Laotisch — (genau wie Thai) Ein Byte, besser geeignet für 1-Byte-Zeichen im relevanten Kontext.

→ Khmer (Kambodscha) – hat einen großen Zeichensatz, der Multi-Byte benötigt.

→ Myanmar (Burmesisch) – Enthält harte Zeichen, die für die Multibyte-Codierung benötigt werden.

Südasiatische Sprachen:

→ Hindi und andere Devanagari wie Hindi (Marathi), Nepali/ Sanskrit, Tamil, Telugu, Kannada, Bengali, Gurmukhi (Punjabi), Gujarati, Malayalam, Singhalesisch.

Die Skripte sind sehr komplex und müssen in einem Format namens Multi-Byte-Codierung mit ihren verschiedenen Kombinationen dargestellt werden.

Sprachen des Nahen Ostens: Mehrere Bytes

→ Arabisch, Persisch – diese Sprachen werden oft mit kontextualisierter Zeichencodierung codiert, was bedeutet, dass dasselbe Zeichen je nach Kontext durch mehr als ein Byte dargestellt werden kann, da sie relativ kleine Alphabete haben.

→ Hebräisch: Wie im Arabischen benötigt es je nachdem, was Sie zum Codieren verwenden, mehr als ein Byte.

Tibetisch, Georgisch und Armenisch: Möglicherweise werden viele Bytes benötigt, um sie in bestimmten Codierungen zu erhalten.

Die meisten Originalschriften der afrikanischen und amerikanischen indigenen Sprachen (die meisten von ihnen mehrere Bytes).

5. Warum ist es wichtig, dass die maschinelle Übersetzung mit Double-Byte- und Multi-Byte-Sprachen umgehen kann?

5.1) Globale Zugänglichkeit

Es ist eine große Chance für viele asiatische Sprachen wie Chinesisch, Japanisch und Koreanisch sowie einige südostasiatische Sprachen – was bedeutet, dass die Codierungsanforderung mehrere Bytes beträgt.

Wenn die Systeme der Übersetzung nicht in der Lage sind, Double-Byte- und Multi-Byte-Codierung in Wörter ordnungsgemäß zu verarbeiten, führt dies zu Codierungsfehlern, Systemausfällen und falscher Übersetzung.

‍
Da sich der internationale Handel und die Kommunikation ständig weiterentwickeln, ist die Bereitstellung von Übersetzungen für diese Sprachen ein entscheidender Aspekt für die Marktexpansion und eine bessere globale Kommunikation.

Shenzhen Airport, Shenzhen, ChinaImage by Andy Beales in Unsplash

5.2) Wettbewerbsfähigkeit auf dem Weltmarkt

Die Unterstützung von Sprachen, die traditionell schwer auf hochwertigen maschinellen Übersetzungsdienstleistungen zu übersetzen sind, kann auch eine Basis für zusätzliche Benutzer eröffnen.

Dies verbessert nicht nur die Benutzererfahrung, sondern ermöglicht es auch vielen weiteren, Inhalt in ihren Sprachen zu empfangen und zu nutzen.

Kunden in wichtigen Märkten wie Asien müssen davor geschützt werden, ihre Verkäufe zu verlieren, wenn maschinelle Übersetzungssysteme Schwierigkeiten mit Multi-Byte-Sprachen haben.

5.3) Interoperabilität und Datenflüsse

Maschinelle Übersetzung muss gut mit vielen Byte-Sprachen funktionieren, da sonst die richtigen Informationen nicht auf Geräte und Plattformen übertragen werden können, die auf Multi-Byte-Sprachen basieren.

Diese Fähigkeit ermöglicht es, Informationen korrekt zu verarbeiten, unabhängig von ihrem ursprünglichen Standort sowie dem Format der Kodierung, und unterstützt somit die Nutzung mehrsprachiger Daten innerhalb globaler Systeme wie Anwendungen, Websites und Datenbanken. Kurz gesagt, Interoperabilität und Datenflüsse stellen sicher, dass verschiedene Systeme mit unterschiedlichen Kodierungsformaten Informationen effektiv austauschen können, insbesondere in mehrsprachigen Kontexten.

6. Schlüssel Punkte zum Abschluss

Es gibt viele Herausforderungen in der maschinellen Übersetzung für Double-byte-Sprachen, wie Segmentierung, Grammatik und kontextuelle Bedeutungen.

Für die älteren Systeme wie Shift JIS für Japanisch, Big5 für Traditionelles Chinesisch, EUC-KR für Koreanisch waren die Begriffe der Double-Byte-Zeichensätze (DBCS) eine schwierige Aufgabe.

Mit dem Aufkommen von neuronalen Netzwerken, Deep Learning und Natural Language Processing (NLP), die ansteckende Fortschritte machen, werden Zeichen-Speicher-Systeme bei Übersetzungen genauer sein — besser, schneller. UTF-8 ist eine Markierung und hat das Szenario geändert, um mit diesen Sprachen mit mehreren Zeichen umzugehen.

‍

Double-byte- und Multi-byte-Support ist ein Muss für maschinelle Übersetzung; und essenziell für die Gewährleistung von Genauigkeit, Kontext und Interoperabilität.

Das Fehlen dieser Fähigkeit hinterlässt einen schlechten Beigeschmack in den meisten Übersetzungs-Systemen und verzerrt das Benutzererlebnis, was die Leistung der Übersetzungs-Systeme verringert.

‍
Also, der effizienteste Weg wäre, die maschinelle Übersetzung von Double-byte-Sprachen mithilfe bestehender moderner Systeme zu optimieren.

Die gute Nachricht ist, dass wir bereits Support dafür haben, wir müssen diese Modelle nur weiter verbessern.

‍