Tecnologia

Come la Traduzione Automatica si Adatta alle Lingue a Doppio Byte

UTF-8 insieme alle reti neurali migliorano le prestazioni della traduzione automatica quando si trattano lingue a doppio byte e multi-byte.

Thalita Lima

8 minutes, 48 seconds

Ogni lingua del mondo appartiene a una famiglia che ne spiega l'origine e la diffusione, ma lo sapevi che secondo i parametri del sistema di dati, tutte le lingue parlate possono essere suddivise in due gruppi: Linguaggi a byte singolo e a byte doppio?

Le lingue a doppio byte si riferiscono a sistemi di codifica dei caratteri in cui un carattere è rappresentato da 2 byte (16 bit) per rappresentare un carattere.

Questo accade perché queste lingue hanno un ampio set di caratteri, richiedendo più spazio per memorizzarli rispetto ai sistemi di codifica a byte singolo (8 bit).

Le lingue a doppio byte includono il cinese (semplificato e tradizionale), il giapponese, il coreano, il vietnamita (in alcune codifiche precedenti) e molte altre in tutto il mondo.

I sistemi di assistenza come UTF-16 e UTF-8, che possono passare tra uno, due o anche più byte, sono necessari per le lingue a doppio byte e multi-byte.

Importante: I linguaggi Double Byte (DBCS) sono spesso erroneamente identificati come Multi-Byte Character Set (MBCS) perché hanno concetti simili.

Esaminiamo i dettagli in questo articolo, concentrandoci sulla relazione di questa differenza di codifica nella traduzione automatica!

1. Sistemi di Mappatura dei Caratteri per Lingue a Doppio Byte

Il processo di codifica è diventato più semplice dopo l'invenzione di UTF (il Unicode Transformation Format).

1.1) I Sistemi Che Sono Nati Prima Che Unicode Diventasse Popolare – DBCS (Double-Byte Character Set)

La creazione di DBCS era per le lingue che necessitano di molti caratteri, principalmente cinese, giapponese e coreano (CJK).

Esempi: Shift JIS (giapponese), Big5 (cinese tradizionale), EUC-KR (coreano).

Con 2 byte (16 bit), può rappresentare fino a 65.536 caratteri (2¹⁶).

‍

1.2) Sistemi avanzati: UTF-16 e UTF-8

UTF è uno schema di codifica che converte i caratteri Unicode in formati binari; quindi, i computer e i software sistemi possono presentare e condividere efficacemente testo da molte lingue e scritture.

È uno standard internazionale secondo il quale a ciascun carattere viene assegnato un numero unico (punto di codice), indipendentemente dalla sua appartenenza a qualsiasi lingua o sistema di scrittura.

UTF descrive il processo di conversione di questi numeri di punti di codice in un flusso di byte comprensibile da un computer.

Esempi di UTF:

UTF-16: 2 o 4 byte per ogni carattere.

È ancora in uso in specifici sistemi che gestiscono caratteri asiatici.

Ad esempio, alcune versioni di Windows utilizzano UTF-16 internamente.

UTF-8: ogni carattere vale da 1 a 4 byte, a seconda del simbolo.

alfabeti latini (inglese, spagnolo, portoghese) - 1 byte; caratteri speciali e lingue asiatiche - 2-4 byte.

Inoltre, UTF-8 è la codifica più utilizzata al giorno d'oggi, sul web, nei database e nelle applicazioni moderne.

1.3 L'SBCS non funziona per le lingue a doppio byte. Perché?

SBCS (Single-Byte Character Set) è un sistema che ha un massimo di 256 caratteri (1 byte = 8 bit = 2⁸ = 256 possibilità). Va bene per le lingue con alfabeti più piccoli, ad esempio l'inglese, lo spagnolo o il francese, che possono essere rappresentate entro questo limite.

Con le lingue che utilizzano un migliaio di caratteri, SBCS non ha lo spazio per le lingue a doppio byte!

‍
Il cinese ha più di 50.000 caratteri, anche se 3.000-5.000 di questi sono di uso quotidiano;

Il giapponese combina kanji (logogrammi cinesi) con hiragana e katakana e richiede molti più caratteri di quanti ne possa contenere un SBCS.

Ecco perché le lingue a doppio byte necessitano di sistemi appropriati.

2. Lingue a doppio byte nella traduzione automatica

Ci sono alcune caratteristiche salienti che queste lingue hanno, che le macchine devono superare:

2.1) Assistenza per la codifica

La stragrande maggioranza degli strumenti di linguaggio disponibili attualmente può funzionare in modo efficiente con UTF-8 e UTF-16, poiché sono versatili e rappresentano caratteri altamente complessi.

UTF-8 è più accettato rispetto al resto dei formati di codifica perché consente sia agli anglofoni (che utilizzano 1 byte) che ai parlanti giapponesi e cinesi (che richiedono più byte).

Questo è ottimale se si considera il business mondiale competitivo che è dominato da paesi di lingua inglese e mandarina.

2.2) Segmentazione del testo

In spagnolo o portoghese, gli spazi vengono utilizzati per segmentare ogni parola, rendendo molto facile isolare le parole in una frase.

In tedesco o giapponese, la delimitazione delle parole, o segmentazione del testo, in cui le unità lessicali sono demarcate, viene eseguita dalle macchine prima che venga eseguita qualsiasi traduzione, perché gli spazi come delimitatori sono assenti.

2.3) Ambiguità e contesto

Un carattere in numerose lingue asiatiche può avere varie definizioni contestuali alla situazione.

Prendiamo ad esempio "银行", in cinese, più precisamente "yínháng", che si traduce in "banca", potrebbe significare un istituto finanziario o la riva di un fiume.

I sistemi odierni come DeepL, Google Traduttore, Microsoft Traduttore e Papago (Naver) utilizzano reti neurali* per prevedere il contesto e poi decidere la migliore frase tra le opzioni esistenti.

*Le reti neurali artificiali sono modelli computazionali che imitano il cervello umano. I dati massicci vengono elaborati tramite strati di neuroni artificiali, alla ricerca di schemi e imparando a prendere decisioni con o senza regole predeterminate.

Nella traduzione automatica, le reti neurali considerano il contesto a livello di frase piuttosto che la traduzione parola per parola, il che è in linea con il nostro obiettivo di creare traduzioni più naturali e migliori.

2.4) Ordine delle parole

Le differenze nelle strutture grammaticali tra le lingue sono enormi...

Esempio:

Mangio una mela.

Giapponese:「I apple eat」 (「リンゴ　を　食む)

La traduzione automatica deve riordinare correttamente le parole affinché il significato della frase non venga perso.

2.5) Traduzione di espressioni frasali di modi di dire nativi

I modi di dire possono essere difficili da tradurre direttamente.

Ad esempio: "Anche le scimmie cadono dagli alberi" si traduce naturalmente nell'idioma giapponese:猿も木から落ちる ("Anche gli esperti commettono errori").

3. DBCS e MBCS sono la stessa cosa?

Double-Byte (DBCS) e Multi-Byte (MBCS) devono essere differenziati l'uno dall'altro.

Set di Caratteri a Doppio Byte (DBCS) → Inizialmente, i sistemi di codifica che gestiscono il doppio byte o 16 bit per un carattere sono il Set di Caratteri a Doppio Byte (DBCS).

Esempio: Big5 (Traditional Chinese), Shift JIS (Japanese), EUC-JP(Korean)

Questi dovevano essere sistemi che sfruttavano paradigmi pre-unicode.

Set di caratteri multibyte (MBCS) → (qualsiasi codifica con da due byte per carattere)

Es: (UTF-8, può utilizzare fino a 1, 2, 3 o 4 byte per carattere)

Prima di Unicode, DBCS (Double-byte character set) era tipicamente utilizzato per le molte D come CJK (cinese, giapponese, coreano) con una restrizione di due byte per carattere.

Alcune lingue diverse dal tailandese, dal vietnamita, dall'hindi e dall'arabo (Multi-Byte Character Set) vengono normalmente codificate in questo sistema di Unicode.

A causa di UTF-8 e UTF-16, DBCS sta scomparendo e molte lingue sono o saranno presto rappresentate come "Multi-byte" o meglio con i loro rispettivi nomi (ad esempio cinese, giapponese, coreano, swahili e altri).

Conclusione: Per la traduzione automatica delle lingue a doppio byte, le somiglianze sono più forti che mai. Oggi, i sistemi possono gestire dati per la maggior parte delle lingue (due o più byte).

Le lingue a doppio byte sono ancora un termine in uso ed è piuttosto popolare, ma ora sai che la gamma è più ampia.

4. Lingue a doppio byte (DBCS) e multibyte in tutto il mondo

Abbiamo parlato del cinese e del giapponese, ma ci sono anche molte altre lingue a doppio byte da includere. Facciamo quindi un giro del mondo per imparare tutte queste lingue...

4.1 Lingue DBCS (Storicamente a Doppio Byte) più vecchie

DBCS è per la maggior parte utilizzato dalle lingue CJK (cinese, giapponese, coreano) nell'Asia orientale.

Cinese semplificato (Cina, Singapore) – Vecchia codifica: GB2312, GBK
Cinese tradizionale (Taiwan, Hong Kong, Macao) — Vecchia codifica: Big5
Giapponese – Vecchia codifica: Shift JIS, EUC-JP
coreano - Vecchia codifica: EUC-KR

Queste lingue hanno un vasto numero di caratteri, richiedendo la codifica a doppio byte nei sistemi pre-Unicode.

Tastiera coreanaImmagine di Wikimedia Commons

4.2 Conforme agli standard – Lingue che utilizzano multi-byte (MBCS)

Al giorno d'oggi, i sistemi di codifica in queste lingue potrebbero richiedere due, tre o addirittura quattro byte per carattere. Di solito sono rappresentati come UTF-8 o UTF-16 oggi.

Lingue del sud-est asiatico:

→ Vietnamita — Utilizza l'alfabeto latino con molti segni diacritici che possono richiedere più di un byte nelle codifiche più vecchie.

→ Tailandese – alcune combinazioni di caratteri richiedono più di 1 byte per rappresentarle correttamente.

→ Lao — (proprio come il tailandese) Un byte, più appropriato per caratteri da 1 byte nel contesto pertinente.

→ Khmer (Cambogia) – ha un set di caratteri di grandi dimensioni che necessita di multibyte.

→ Myanmar (birmano) – Contiene caratteri complessi che richiedono la codifica multibyte.

Lingue dell'Asia meridionale:

→ hindi e altri devanagari come l'hindi (marathi), il nepalese/sanscrito, il tamil, il telugu, il kannada, il bengalese, il gurmukhi (punjabi), il gujarati, il malayalam, il singalese.

Gli script sono molto complessi e devono essere rappresentati in un formato chiamato codifica Multi-Byte con le loro varie combinazioni.

Lingue mediorientali: Byte multipli

→ arabo, persiano: queste lingue sono spesso codificate utilizzando la codifica dei caratteri contestualizzata, il che significa che lo stesso carattere potrebbe essere rappresentato da più di un byte, a seconda del contesto, poiché hanno alfabeti relativamente piccoli.

→ ebraico: Come l'arabo, a seconda di ciò che usi per codificare, richiede più di un byte.

tibetano, georgiano e armeno: Potrebbe essere necessario disporre di molti byte per ottenerli in determinate codifiche.

La maggior parte delle scritture originali delle lingue africane e americane indigene (la maggior parte di esse ha più byte).

5. Perché è importante per la traduzione automatica gestire le lingue a doppio byte e multi-byte?

5.1) Accessibilità globale

Si tratta di una grande opportunità per molte lingue asiatiche come il cinese, il giapponese e il coreano, così come per alcune lingue del sud-est asiatico, il che significa che il requisito di codifica è di più byte.

Se i sistemi di traduzione non sono in grado di gestire correttamente la codifica Double-Byte e Multi-Byte nelle parole, si verificano errori di codifica, guasti del sistema e traduzioni errate.

‍
Con lo sviluppo sempre maggiore del commercio internazionale e della comunicazione, fornire traduzioni per queste lingue è un aspetto fondamentale per l'espansione del mercato e una migliore comunicazione globale.

Shenzhen Airport, Shenzhen, ChinaImage by Andy Beales in Unsplash

5.2) Competitività nel Mercato Mondiale

Supportare le lingue che sono state tradizionalmente difficili da tradurre su servizi di traduzione automatica di alta qualità può aprire una base per ulteriori utenti.

Questo non solo migliora l'esperienza utente, ma consente anche a molti altri di ricevere e utilizzare il Contenuto nelle loro lingue.

I clienti nei mercati vitali come l'Asia devono essere protetti dalla perdita delle loro vendite se i sistemi di traduzione automatica hanno difficoltà con le lingue multi-byte.

5.3) Interoperabilità e Flussi di Dati

La traduzione automatica deve funzionare bene con le lingue a molti byte altrimenti le giuste informazioni non possono essere trasferite a dispositivi e piattaforme che utilizzano lingue basate su multi-byte.

Questa capacità consente di gestire correttamente le informazioni, sia per quanto riguarda la loro posizione originale che il formato della codifica, facilitando così l'uso di dati multilingue all'interno di sistemi globali come applicazioni, siti web e database. In breve, l'interoperabilità e i flussi di dati garantiscono che diversi sistemi con diversi formati di codifica possano scambiare informazioni in modo efficace, specialmente in contesti multilingue.

6. Punti Principali per Concludere

Ci sono molte sfide nella traduzione automatica per le lingue a doppio byte, come la segmentazione, la grammatica e i significati contestuali.

Per i sistemi più vecchi come Shift JIS per il giapponese, Big5 per il cinese tradizionale, EUC-KR per il coreano, i termini dei set di caratteri a doppio byte (DBCS) erano come un compito difficile.

Con l'avvento delle reti neurali, del deep learning e dell'elaborazione del linguaggio naturale (NLP) che fanno passi da gigante, i sistemi di archiviazione dei caratteri diventeranno più accurati nelle traduzioni — migliori, più veloci. UTF-8 è un marchio e ha cambiato lo scenario per gestire queste lingue a più caratteri.

‍

Il supporto per i caratteri a doppio byte e multi-byte è indispensabile per la traduzione automatica; ed è essenziale per garantire accuratezza, contesto e interoperabilità.

L'assenza di questa capacità lascia un cattivo sapore nella maggior parte dei sistemi di traduzione e distorce l'esperienza utente, riducendo così le prestazioni dei sistemi di traduzione.

‍
Quindi, il modo più efficiente sarebbe ottimizzare la traduzione automatica dalle lingue a doppio byte utilizzando i sistemi moderni esistenti.

La buona notizia è che abbiamo già l'assistenza per questo, dobbiamo solo continuare a migliorare questi modelli.

‍