Tecnología

Cómo la Traducción Automática se Adapta a los Idiomas de Doble Byte

UTF-8 junto con redes neuronales mejoran el rendimiento de la Traducción automática al tratar con idiomas de Doble Byte y Multi-Byte.

Thalita Lima

8 minutes, 48 seconds

Cada idioma en el mundo pertenece a una familia que explica su origen y propagación, pero ¿sabías que según los parámetros del sistema de datos, todos los idiomas hablados se pueden separar en dos grupos? ¿Lenguajes de un solo byte y de doble byte?

Los idiomas de doble byte se refieren a sistemas de codificación de caracteres donde un carácter está representado por 2 bytes (16 bits) para representar un carácter.

Esto ocurre porque estos idiomas tienen un conjunto de caracteres grande, lo que requiere más espacio para almacenarlos que los sistemas de codificación de un solo byte (8 bits).

Los idiomas de doble byte incluyen chino (simplificado y tradicional), japonés, coreano, vietnamita (en algunas codificaciones más antiguas) y muchos otros en todo el mundo.

Los sistemas de soporte como UTF-16 y UTF-8 que pueden cambiar entre uno, dos o incluso más bytes son necesarios para los idiomas de doble byte y multibyte.

Importante: Los lenguajes de doble byte (DBCS) a menudo se identifican erróneamente como conjunto de caracteres de varios bytes (MBCS) porque tienen conceptos similares.

¡Veamos los detalles en este artículo, centrándonos en la relación de esta diferencia de codificación en la Traducción automática!

1. Sistemas de mapeo de caracteres para idiomas de doble byte

El proceso de codificación se volvió más fácil después de la invención de UTF (el Unicode Transformation Format).

1.1) Los Sistemas que surgieron antes de que Unicode se hiciera popular – DBCS (Conjunto de Caracteres de Doble Byte)

La creación de DBCS fue para idiomas que necesitan muchos caracteres, principalmente chino, japonés y coreano (CJK).

Ejemplos: Shift JIS (japonés), Big5 (chino tradicional), EUC-KR (coreano).

Con 2 bytes (16 bits), puede representar hasta 65,536 caracteres (2¹⁶).

‍

1.2) Sistemas avanzados: UTF-16 and UTF-8

UTF es un esquema de codificación que convierte caracteres Unicode en formatos binarios; así, las computadoras y los sistemas de software pueden presentar y compartir texto de muchos idiomas y escrituras de manera efectiva.

Es un estándar internacional bajo el cual a cada carácter se le asigna un número único (punto de código), independientemente de su pertenencia a cualquier idioma o sistema de escritura.

UTF describe el proceso de convertir estos números de punto de código en un flujo de bytes que es comprensible para una computadora.

Ejemplos de UTF:

UTF-16: 2 o 4 bytes para cada carácter.

Todavía se utiliza en sistemas específicos que manejan caracteres asiáticos.

Por ejemplo, algunas versiones de Windows usan UTF-16 internamente.

UTF-8: cada carácter tiene un valor de 1 a 4 bytes, dependiendo del símbolo.

Alfabetos latinos (inglés, español, portugués) - 1 byte; caracteres especiales e idiomas asiáticos: 2-4 bytes.

Además, UTF-8 es la codificación más utilizada hoy en día, en la web, en bases de datos y en aplicaciones modernas.

1.3 El SBCS no funciona para idiomas de doble byte. ¿Por qué?

SBCS (Single-Byte Character Set) es un sistema que tiene un máximo de 256 caracteres (1 byte = 8 bits = 2⁸ = 256 posibilidades). Está bien para idiomas con alfabetos más pequeños, inglés por ejemplo, español o francés, que pueden representarse dentro de este límite.

Con idiomas que usan mil caracteres, ¡SBCS carece de espacio para idiomas de doble byte!

‍
El chino tiene más de 50,000 caracteres, aunque 3,000-5,000 de estos se usan diariamente;

el japonés combina kanji (logogramas chinos) con hiragana y katakana y requiere muchos más caracteres de los que un SBCS puede contener.

Por eso las lenguas de doble byte necesitan sistemas apropiados.

2. Idiomas de doble byte en Traducción automática

Hay algunas funciones destacadas que estos idiomas tienen, que las máquinas tienen que superar:

2.1) Soporte para Codificación

La gran mayoría de las Herramientas de lenguaje de máquina disponibles actualmente pueden funcionar eficientemente con UTF-8 y UTF-16, ya que son versátiles y representan caracteres altamente complejos.

UTF-8 es más aceptado que el resto de los formatos de codificación porque permite tanto a los angloparlantes (que usan 1 byte) como a los hablantes de japonés y chino (que requieren varios bytes).

Esto es óptimo cuando se considera el competitivo negocio mundial que está dominado por países de habla inglesa y hablantes de mandarín.

2.2) Segmentación del texto

En español o portugués, los espacios se utilizan para segmentar cada palabra, lo que hace que aislar palabras en una oración sea muy fácil.

En alemán o japonés, la delimitación de palabras, o segmentación de texto, donde se demarcan unidades léxicas, se lleva a cabo por máquinas antes de que se realice cualquier traducción, porque los espacios como delimitadores están ausentes.

2.3) Ambigüedad y contexto

Un carácter en numerosas lenguas asiáticas puede tener varias definiciones contextuales a la situación.

Tomemos, por ejemplo, "银行", en chino, más específicamente "yínháng", que se traduce como "banco", podría significar una institución financiera o la orilla de un río.

Los sistemas actuales como DeepL, Google Translator, Microsoft Translator y Papago (Naver) utilizan redes neuronales* para predecir el contexto y luego decidir la mejor oración entre las opciones existentes.

*Las redes neuronales artificiales son modelos computacionales que imitan el cerebro humano. Los datos masivos se procesan a través de capas de neuronas artificiales, buscando patrones y aprendiendo a tomar decisiones con o sin reglas predeterminadas.

En la Traducción automática, las redes neuronales consideran el contexto a nivel de oración en lugar de la traducción palabra por palabra, lo que se alinea con nuestro objetivo de hacer traducciones más naturales y mejores.

2.4) Orden de las palabras

Las diferencias en las estructuras gramaticales entre los idiomas son enormes...

Ejemplo:

Me como una manzana.

Japonés:「I apple eat」 (「リンゴ　を　食む)

La Traducción automática tiene que reorganizar las palabras correctamente para que no se pierda el significado de la oración.

2.5) Traducción de expresiones fraseológicas de modismos nativos

Los modismos pueden ser difíciles de traducir directamente.

Eg: "Incluso los monos caen de los árboles" se traduce naturalmente al modismo japonés: 猿も木から落ちる ("Incluso los expertos cometen errores").

3. ¿DBCS y MBCS son lo mismo?

Double-Byte (DBCS) y Multi-Byte (MBCS) deben diferenciarse entre sí.

Conjunto de Caracteres de Doble Byte (DBCS) → Al principio, los sistemas de codificación que gestionan doble byte o 16 bits para un carácter es el Conjunto de Caracteres de Doble Byte (DBCS).

Ejemplo: Big5 (Traditional Chinese), Shift JIS (Japanese), EUC-JP(Korean)

Estos tenían que ser sistemas que explotaban paradigmas pre-unicode.

Juego de caracteres multibyte (MBCS) → (cualquier codificación con desde dos bytes por carácter)

Ej: (UTF-8, puede usar hasta 1, 2, 3 o 4 bytes por carácter)

Antes de Unicode, DBCS (conjunto de caracteres de doble byte) se usaba normalmente para las muchas D como CJK (chino, japonés, coreano) con una restricción de dos bytes por carácter.

Algunos idiomas además del tailandés, vietnamita, hindi y árabe (conjunto de caracteres multibyte) normalmente se codificarán en este sistema Unicode.

Debido a UTF-8 y UTF-16, DBCS se está extinguiendo y muchos idiomas están o pronto serán representados como 'Multi-byte' o más bien bajo sus respectivos nombres (por ejemplo, chino, japonés, coreano, suajili y otros).

Conclusión: Para la Traducción automática de idiomas de doble byte, las similitudes son más fuertes que nunca. Hoy en día, los sistemas pueden manejar datos para la mayoría de los idiomas (dos o más bytes).

Los lenguajes de doble byte siguen siendo un término en uso y es bastante popular, pero ahora sabes que el rango es mayor.

4. Idiomas de doble byte (DBCS) y multibyte en todo el mundo

Hemos hablado sobre el chino y el japonés, pero también hay muchos más idiomas de doble byte para incluir. Así que vamos a hacer un recorrido por el mundo para aprender todos estos idiomas...

4.1 Idiomas históricamente antiguos de doble byte (DBCS)

DBCS es utilizado en su mayor parte por los idiomas CJK (chino, japonés, coreano) en el este de Asia.

Chino simplificado (China, Singapur) – Codificación antigua: GB2312, GBK
Chino tradicional (Taiwán, Hong Kong, Macao) — Codificación antigua: Big5
japonés – Codificación antigua: Shift JIS, EUC-JP
Korean – Codificación antigua: EUC-KR

Estos idiomas tienen una gran cantidad de caracteres, lo que requiere codificación de doble byte en los sistemas anteriores a Unicode.

Teclado coreanoImagen de Wikimedia Commons

4.2 Cumplimiento de estándares – Idiomas que usan multi-byte (MBCS)

En la actualidad, los sistemas de codificación en estos idiomas pueden requerir dos, tres o incluso cuatro bytes por carácter. Por lo general, se simbolizan como UTF-8 o UTF-16 en la actualidad.

Idiomas del sudeste asiático:

→ vietnamita: utiliza el alfabeto latino con muchos signos diacríticos que pueden ocupar más de un byte en codificaciones más antiguas.

→ tailandés: algunas combinaciones de caracteres necesitan más de 1 byte para representarlas correctamente.

→ Lao — (al igual que el tailandés) Un byte, más apropiado para caracteres de 1 byte en el contexto relevante.

→ Khmer (Camboya): tiene un gran conjunto de caracteres que necesita varios bytes.

→ Myanmar (birmano): contiene caracteres complejos que requieren codificación multibyte.

Idiomas del sur de Asia:

→ hindi y otros devanagari como hindi (marathi), nepalí / sánscrito, tamil, telugu, kannada, bengalí, gurmukhi (punjabi), gujarati, malayalam, cingalés.

Los scripts son muy complejos y deben representarse en un formato llamado codificación multibyte con sus diversas combinaciones.

Lenguas de Oriente Medio: Varios bytes

→ árabe, persa: estos idiomas a menudo se codifican mediante codificación de caracteres contextualizada, lo que significa que el mismo carácter puede estar representado por más de un byte, según el contexto, ya que tienen alfabetos relativamente pequeños.

→ hebreo: Al igual que el árabe, dependiendo de lo que se utilice para codificarlo, tiene una longitud de más de un byte.

Tibetano, georgiano y armenio: Es posible que necesite muchos bytes para obtenerlos en ciertas codificaciones.

La mayoría de los alfabetos originales de las lenguas africanas y americanas lenguas indígenas (varios bytes, la mayoría de ellos).

5. ¿Por qué es importante que la Traducción automática maneje idiomas de doble byte y multi-byte?

5.1) Accesibilidad global

Es una gran oportunidad para muchos idiomas asiáticos como el chino, el japonés y el coreano, así como para algunos idiomas del sudeste asiático, lo que significa que el requisito de codificación es de varios bytes.

Si los sistemas de traducción no pueden manejar adecuadamente la codificación de Doble Byte y Multi-Byte en palabras, resulta en errores de codificación, fallos del sistema y traducción incorrecta.

‍
A medida que el comercio y la comunicación internacionales se desarrollan cada vez más, proporcionar traducciones para esos idiomas es un aspecto crítico de la expansión del mercado y una mejor comunicación global.

Shenzhen Airport, Shenzhen, ChinaImage by Andy Beales in Unsplash

5.2) Competitividad en el Mercado Mundial

El soporte de idiomas que han sido tradicionalmente difíciles de traducir en servicios de traducción automática de alta calidad también puede abrir una base para usuarios adicionales.

Esto no solo mejora la experiencia del usuario, sino que también permite a muchos más recibir y usar contenido en sus idiomas.

Los clientes en mercados vitales como Asia necesitan ser protegidos de perder sus ventas si los sistemas de Traducción automática tienen dificultades con los idiomas de múltiples bytes.

5.3) Interoperabilidad y Flujos de Datos

La Traducción automática debe funcionar bien con idiomas de muchos bytes; de lo contrario, la información correcta no se puede transferir a dispositivos y plataformas que tienen idiomas basados en múltiples bytes.

Esta habilidad permite que la información se maneje correctamente, ya sea su ubicación original así como el formato de la codificación, ayudando así en el uso de datos multilingües dentro de sistemas globales como aplicaciones, sitios web y bases de datos. En resumen, la interoperabilidad y los flujos de datos aseguran que diferentes sistemas con diferentes formatos de codificación puedan intercambiar información de manera efectiva, especialmente en contextos multilingües.

6. Puntos Clave para Concluir

Hay muchos desafíos en la Traducción automática para idiomas de doble byte, como la segmentación, la gramática y los significados contextuales.

Para los sistemas más antiguos como Shift JIS para japonés, Big5 para chino tradicional, EUC-KR para coreano, los términos de conjuntos de caracteres de doble byte (DBCS) eran como una tarea difícil.

Con el advenimiento de las redes neuronales, el aprendizaje profundo y el procesamiento del lenguaje natural (NLP) haciendo avances contagiosos, los sistemas de almacenamiento de caracteres van a ser más precisos en las traducciones: mejores, más rápidos. UTF-8 es una marca y cambió el escenario para tratar con estos lenguajes de múltiples caracteres.

‍

El soporte de doble byte y multibyte es imprescindible para la Traducción automática; y esencial para garantizar precisión, contexto e interoperabilidad.

La ausencia de esta capacidad deja un mal sabor en la mayoría de los sistemas de traducción y distorsiona la experiencia del usuario, disminuyendo así el rendimiento de los sistemas de traducción.

‍
Entonces, la manera más eficiente sería optimizar la Traducción automática de idiomas de doble byte utilizando los sistemas modernos existentes.

La buena noticia es que ya tenemos soporte para eso, solo debemos seguir mejorando estos modelos.

‍