التكنولوجيا

كيف تتكيف الترجمة الآلية مع اللغات ذات البايت المزدوج

UTF-8 جنبًا إلى جنب مع الشبكات العصبية يعزز أداء الترجمة الآلية عند التعامل مع اللغات ذات البايت المزدوج والبايت المتعدد.

Thalita Lima

8 minutes, 48 seconds

تنتمي كل لغة في العالم إلى عائلة تشرح أصلها وانتشارها، ولكن هل تعلم أنه وفقًا لمعلمات نظام البيانات، يمكن فصل جميع اللغات المنطوقة إلى مجموعتين: لغات أحادية البايت ومزدوجة البايت؟

تشير اللغات ذات البايت المزدوج إلى أنظمة ترميز الأحرف حيث يتم تمثيل الحرف بواسطة 2 بايت (16 بت) لتمثيل حرف.

يحدث هذا لأن هذه اللغات تحتوي على مجموعة كبيرة من الأحرف، مما يتطلب مساحة أكبر لتخزينها مقارنة بأنظمة الترميز ذات البايت الواحد (8 بت).

تشمل اللغات مزدوجة البايت الصينية (المبسطة والتقليدية) واليابانية والكورية والفيتنامية (في بعض الترميزات القديمة) وغيرها الكثير في جميع أنحاء العالم.

أنظمة الدعم مثل UTF-16 وUTF-8 التي يمكنها التبديل بين بايت واحد أو اثنين أو حتى أكثر ضرورية للغات ذات البايت المزدوج والبايت المتعدد.

مهم: غالبًا ما يتم التعرف على لغات البايت المزدوج (DBCS) عن طريق الخطأ على أنها مجموعة أحرف متعددة البايت (MBCS) لأن لديها مفاهيم متشابهة.

دعونا نلقي نظرة على التفاصيل في هذه المقالة، مع التركيز على العلاقة بين هذا الاختلاف في الترميز في الترجمة الآلية!

1. أنظمة ترميز الأحرف للغات ذات البايت المزدوج

أصبح عملية الترميز أسهل بعد اختراع UTF (تنسيق تحويل يونيكود).

1.1) الأنظمة التي ظهرت قبل أن يصبح يونيكود شائعًا – DBCS (مجموعة الأحرف ذات البايت المزدوج)

تم إنشاء DBCS للغات التي تحتاج إلى العديد من الأحرف، وخاصة الصينية واليابانية والكورية (CJK).

أمثلة: Shift JIS (اليابانية), Big5 (الصينية التقليدية), EUC-KR (الكورية).

مع 2 بايت (16 بت), يمكنه تمثيل ما يصل إلى 65,536 حرفًا (2¹⁶).

‍

1.2) الأنظمة المتقدمة: UTF-16 و UTF-8

UTF هو مخطط ترميز يحول أحرف Unicode إلى تنسيقات ثنائية؛ وبالتالي، يمكن لأجهزة الكمبيوتر و الأنظمة البرمجية تقديم النصوص ومشاركتها بفعالية من العديد من اللغات والكتابات.

إنه معيار دولي يتم بموجبه تخصيص رقم فريد (نقطة رمز) لكل حرف، بغض النظر عن انتمائه لأي لغة أو نظام كتابة.

يصف UTF عملية تحويل أرقام نقاط التعليمات البرمجية هذه إلى دفق بايت يمكن فهمه بواسطة الكمبيوتر.

‍

أمثلة على UTF:

UTF-16: 2 أو 4 بايت لكل حرف.

لا يزال قيد الاستخدام في الأنظمة المحددة التي تتعامل مع الأحرف الآسيوية.

على سبيل المثال، تستخدم بعض إصدارات Windows UTF-16 داخليًا.

UTF-8: كل حرف يساوي 1-4 بايت، اعتمادًا على الرمز.

الحروف الهجائية اللاتينية (الإنجليزية، الإسبانية، البرتغالية) - 1 بايت؛ الأحرف الخاصة واللغات الآسيوية - 2-4 بايت.

أيضًا، UTF-8 هو الترميز الأكثر استخدامًا في الوقت الحاضر، على الويب، في قواعد البيانات، وفي التطبيقات الحديثة.

1.3 لا يعمل SBCS مع اللغات مزدوجة البايت. لماذا؟

SBCS (مجموعة الأحرف أحادية البايت) هو نظام يحتوي على 256 حرفًا كحد أقصى (1 بايت = 8 بت = 2⁸ = 256 إمكانية). لا بأس باللغات ذات الحروف الهجائية الأصغر، الإنجليزية على سبيل المثال، الإسبانية أو الفرنسية، التي يمكن تمثيلها ضمن هذا الحد.

مع اللغات التي تستخدم ألف حرف، تفتقر SBCS إلى مساحة للغات مزدوجة البايت!

‍
اللغة الصينية تحتوي على أكثر من 50,000 حرف، على الرغم من أن 3,000-5,000 من هذه الأحرف تُستخدم في الحياة اليومية؛

اللغة اليابانية تجمع بين الكانجي (الرموز الصينية) والهيراغانا والكاتاكانا وتتطلب عددًا أكبر من الأحرف مما يمكن أن تحتويه SBCS.

لذلك، هذا هو السبب في أن اللغات ذات البايت المزدوج تحتاج إلى الأنظمة المناسبة.

2. اللغات ذات البايت المزدوج في الترجمة الآلية

هناك بعض الميزات البارزة التي تتمتع بها هذه اللغات، والتي يجب على الآلات التعامل معها:

2.1) الدعم لترميز

تستطيع الغالبية العظمى من الأدوات اللغوية الآلية المتاحة حاليًا العمل بكفاءة مع UTF-8 وUTF-16، حيث إنها متعددة الاستخدامات وتمثل أحرفًا معقدة للغاية.

UTF-8 مقبول أكثر من بقية تنسيقات الترميز لأنه يسمح للمتحدثين باللغة الإنجليزية (الذين يستخدمون 1 بايت) وكذلك المتحدثين باليابانية والصينية (الذين يحتاجون إلى بايتات متعددة).

هذا هو الأمثل عند النظر في الأعمال العالمية التنافسية التي تهيمن عليها دول اللغة الإنجليزية والمتحدثون بالماندرين.

2.2) تجزئة النص

في الإسبانية أو البرتغالية، يتم استخدام المسافات لتقسيم كل كلمة، مما يجعل عزل الكلمات في الجملة أمراً سهلاً للغاية.

في اللغة الألمانية أو اليابانية، يتم تحديد الكلمات أو تجزئة النص، حيث يتم ترسيم الوحدات المعجمية، بواسطة الآلات قبل إجراء أي ترجمة، لأن المسافات كمحددات غائبة.

2.3) الغموض والسياق

يمكن أن يكون للحرف في العديد من اللغات الآسيوية تعريفات مختلفة تعتمد على سياق الموقف.

خذ على سبيل المثال "银行"، باللغة الصينية، وبشكل أكثر تحديدًا "yínháng"، والتي تترجم إلى "البنك"، يمكن أن تعني مؤسسة مالية أو ضفة نهر.

الأنظمة اليوم مثل DeepL وGoogle Translator وMicrosoft Translator وPapago (Naver) تستخدم الشبكات العصبية* للتنبؤ بالسياق ثم تقرر أفضل جملة من الخيارات المتاحة.

*الشبكات العصبية الاصطناعية هي نماذج حسابية تحاكي الدماغ البشري. تتم معالجة البيانات الضخمة عبر طبقات الخلايا العصبية الاصطناعية، حيث يتم البحث عن الأنماط وتعلم اتخاذ القرارات مع أو بدون أي قواعد محددة مسبقًا.

في الترجمة الآلية، تأخذ الشبكات العصبية في الاعتبار السياق على مستوى الجملة بدلاً من الترجمة كلمة بكلمة، وهو ما يتماشى مع هدفنا في تقديم ترجمات أكثر طبيعية وأفضل.

2.4) ترتيب الكلمات

الاختلافات في التراكيب النحوية بين اللغات هائلة ...

مثل:

أنا آكل تفاحة.

Japanese:「I apple eat」 (「リンゴ　を　食む)

الترجمة الآلية يجب أن تعيد ترتيب الكلمات بشكل صحيح حتى لا يضيع معنى الجملة.

2.5) ترجمة التعبيرات الجملية للتعابير الأصلية

يمكن أن تكون التعابير صعبة الترجمة مباشرة.

مثل: "حتى القرود تسقط من الأشجار" تترجم بشكل طبيعي إلى المصطلح الياباني: 猿も木から落ちる ("حتى الخبراء يرتكبون أخطاء").

3. هل DBCS وMBCS نفس الشيء؟

يجب التمييز بين البايت المزدوج (DBCS) والمتعدد البايت (MBCS) عن بعضهما البعض.

مجموعة الأحرف ذات البايت المزدوج (DBCS) → في البداية، الأنظمة الترميزية التي تدير بايت مزدوج أو 16 بت للحرف هي مجموعة الأحرف ذات البايت المزدوج (DBCS).

مثال: Big5 (الصينية التقليدية)، Shift JIS (اليابانية)، EUC-JP(الكورية)

كان يجب أن تكون هذه الأنظمة التي استغلت النماذج السابقة لليونيكود.

مجموعة الأحرف متعددة البايت (MBCS) → (أي ترميز يحتوي على بايتين لكل حرف)

على سبيل المثال: (UTF-8 ، قد يستخدم ما يصل إلى 1 أو 2 أو 3 أو 4 بايت لكل حرف)

قبل Unicode، كان يتم استخدام DBCS (مجموعة الأحرف مزدوجة البايت) عادةً للعديد من D مثل CJK (الصينية واليابانية والكورية) مع تقييد بايتين لكل حرف.

عادةً ما يتم ترميز بعض اللغات بخلاف التايلاندية والفيتنامية والهندية والعربية (مجموعة الأحرف متعددة البايت) في نظام Unicode هذا.

بسبب UTF-8 و UTF-16، يتلاشى DBCS ويتم تمثيل العديد من اللغات أو سيتم تمثيلها قريبًا على أنها "متعددة البايتات" أو بالأحرى تحت أسمائها (مثل الصينية واليابانية والكورية والسواحيلية وغيرها).

استنتاج: بالنسبة للترجمة الآلية للغات ذات البايت المزدوج، فإن التشابهات أقوى من أي وقت مضى. اليوم، يمكن للأنظمة التعامل مع البيانات لمعظم اللغات (بايتان أو أكثر).

لا تزال اللغات مزدوجة البايت مصطلحًا قيد الاستخدام وهي شائعة جدًا، لكنك تعلم الآن أن النطاق أكبر.

4. اللغات مزدوجة البايت (DBCS) ومتعددة البايت في جميع أنحاء العالم

لقد تحدثنا عن الصينية واليابانية ولكن هناك الكثير من اللغات مزدوجة البايت التي يجب تضمينها أيضا. لذلك دعونا نقوم بجولة حول العالم لتعلم كل هذه اللغات ...

4.1 اللغات القديمة ذات البايت المزدوج (DBCS) تاريخياً

DBCS تُستخدم في الغالب من قبل لغات CJK (الصينية واليابانية والكورية) في شرق آسيا.

الصينية المبسطة (الصين وسنغافورة) - الترميز القديم: GB2312 ، GBK
الصينية التقليدية (تايوان ، هونغ كونغ ، ماكاو) - الترميز القديم: Big5
اليابانية - الترميز القديم: Shift JIS ، EUC-JP
الكوري - الترميز القديم: EUC-KR

هذه اللغات تحتوي على عدد كبير من الأحرف، مما يستلزم ترميز بايت مزدوج في الأنظمة قبل Unicode.

لوحة مفاتيح كوريةصورة بواسطة Wikimedia Commons

4.2 متوافق مع المعايير – اللغات التي تستخدم متعدد البايت (MBCS)

في الوقت الحاضر، قد تتطلب أنظمة الترميز في هذه اللغات بايتين أو ثلاثة أو حتى أربعة بايتات لكل حرف. عادةً ما يتم ترميزها كـ UTF-8 أو UTF-16 اليوم.

لغات جنوب شرق آسيا:

→ الفيتنامية — تستخدم الأبجدية اللاتينية مع العديد من علامات التشكيل التي قد تستغرق أكثر من بايت واحد في الترميزات القديمة.

→ التايلاندية - تحتاج بعض مجموعات الأحرف إلى أكثر من 1 بايت لتمثيلها بشكل صحيح.

→ اللاوية — (تمامًا مثل التايلاندية) بايت واحد، أكثر ملاءمة لأحرف 1 بايت في السياق ذي الصلة.

→ الخمير (كمبوديا) - لديه مجموعة أحرف كبيرة تحتاج إلى متعدد البايتات.

→ ميانمار (البورمية) - تحتوي على أحرف صعبة تحتاج إلى ترميز متعدد البايتات.

لغات جنوب آسيا:

→ الهندية وغيرها من الديفاناغاري مثل الهندية (الماراثية) والنيبالية / السنسكريتية والتاميلية والتيلجو والكانادا والبنغالية والغورموخي (البنجابية) والغوجاراتية والمالايالامية والسنهالية.

البرامج النصية معقدة للغاية وتحتاج إلى تمثيلها بتنسيق يسمى ترميز متعدد البايت مع مجموعاتها المختلفة.

لغات الشرق الأوسط: بايت متعددة

→ العربية والفارسية - غالبًا ما يتم ترميز هذه اللغات باستخدام ترميز الأحرف السياقي، مما يعني أن نفس الحرف قد يتم تمثيله بأكثر من بايت واحد، اعتمادًا على السياق، نظرًا لأن لديهم أبجديات صغيرة نسبيًا.

→ العبرية: مثل اللغة العربية، اعتمادًا على ما تستخدمه لتشفيرها، فإنها تحتاج إلى أكثر من بايت واحد.

التبتية والجورجية والأرمنية: قد تحتاج إلى العديد من وحدات البايت للحصول عليها في ترميزات معينة.

معظم النصوص الأصلية لللغات السكان الأصليين الأفريقية والأمريكية (بايت متعددة معظمها).

5. لماذا من المهم أن تتعامل الترجمة الآلية مع اللغات ذات البايت المزدوج والمتعدد؟

5.1) إمكانية الوصول العالمية

إنها فرصة كبيرة للعديد من اللغات الآسيوية مثل الصينية واليابانية والكورية، بالإضافة إلى بعض لغات جنوب شرق آسيا - مما يعني أن متطلبات الترميز هي بايتات متعددة.

إذا كانت الأنظمة الخاصة بالترجمة غير قادرة على التعامل بشكل صحيح مع الترميز ثنائي البايت ومتعدد البايت في الكلمات، فإن ذلك يؤدي إلى أخطاء في الترميز، وفشل الأنظمة، وترجمة خاطئة.

‍
مع تطور التجارة الدولية والاتصالات باستمرار، يعد توفير الترجمات لتلك اللغات جانبًا حاسمًا لتوسيع السوق وتحسين التواصل العالمي.

Shenzhen Airport, Shenzhen, ChinaImage by Andy Beales in Unsplash

5.2) التنافسية في السوق العالمية

دعم اللغات التي كانت تقليديًا صعبة الترجمة على خدمات الترجمة الآلية عالية الجودة يمكن أن يفتح قاعدة لمستخدمين إضافيين أيضًا.

هذا لا يحسن تجربة المستخدم فحسب، بل يمكّن أيضًا الكثيرين من تلقي واستخدام المحتوى بلغاتهم.

يجب حماية العملاء في الأسواق الحيوية مثل آسيا من فقدان مبيعاتهم إذا كانت الترجمة الآلية الأنظمة تواجه صعوبة مع اللغات متعددة البايتات.

5.3) التوافقية وتدفقات البيانات

يجب أن تعمل الترجمة الآلية بشكل جيد مع اللغات التي تحتوي على العديد من البايتات وإلا فلن يتمكن نقل المعلومات الصحيح إلى الأجهزة والمنصات التي تعتمد على لغات متعددة البايتات.

تسمح هذه القدرة بالتعامل مع المعلومات بشكل صحيح، سواء كان موقعها الأصلي وكذلك تنسيق الترميز، مما يساعد في استخدام البيانات متعددة اللغات داخل الأنظمة العالمية مثل التطبيقات، والمواقع الإلكترونية، وقواعد البيانات. باختصار، يضمن التشغيل البيني وتدفقات البيانات أن الأنظمة المختلفة ذات تنسيقات الترميز المختلفة يمكنها تبادل المعلومات بشكل فعال، خاصة في السياقات متعددة اللغات.

6. نقاط رئيسية للاستنتاج

هناك العديد من التحديات في الترجمة الآلية للغات ذات البايت المزدوج، مثل التقسيم، القواعد، والمعاني السياقية.

بالنسبة للأنظمة القديمة مثل Shift JIS لليابانية، وBig5 للصينية التقليدية، وEUC-KR للكورية، كانت مصطلحات مجموعات الأحرف ذات البايت المزدوج (DBCS) بمثابة مهمة صعبة.

مع ظهور الشبكات العصبية، التعلم العميق، ومعالجة اللغة الطبيعية (NLP) التي تحقق تقدمًا سريعًا، ستصبح أنظمة تخزين الحروف أكثر دقة في الترجمات — أفضل وأسرع. UTF-8 هي علامة وغيرت السيناريو للتعامل مع هذه اللغات متعددة الأحرف.