أفضل الممارسات

ما هو وضع العلامات على البيانات؟

لم يتحرك أي شيء تقريبًا في تاريخ البشرية بهذه الوتيرة المحمومة. الذكاء الاصطناعي وجميع المجالات ذات الصلة والأدوات والحلي. إنه أمر مذهل للغاية. إذا كان من المخيف سرعة مشاهدة تقدمها من الولايات المتحدة، فتخيل ما أشعر به أثناء رؤيتها تتكشف من البعد التكنولوجي في الأرجنتين، أمريكا الجنوبية.
Romina C. Cinquemani
8 min
Table of Contents

لم يتحرك أي شيء تقريبًا في تاريخ البشرية بهذه الوتيرة المحمومة. الذكاء الاصطناعي وجميع المجالات ذات الصلة والأدوات والحلي. إنه أمر مذهل للغاية. إذا كان من المخيف سرعة مشاهدة تقدمها من الولايات المتحدة، فتخيل ما أشعر به أثناء رؤيتها تتكشف من البعد التكنولوجي في الأرجنتين، أمريكا الجنوبية. اسمعني. يبدو أن الخيال العلمي قد استولى على الكوكب. لعنة حظي، هذه الثورة الصناعية لا تأتي مع مكون Steampunk الفيكتوري. على الأقل كنت سأحصل على لمحة من الحلوى الجمالية لعيني وعقلي.

ثم مرة أخرى، لا يمكن للمرء أن يختار كيف تتكشف ثوراتنا الصناعية (أم أنها كذلك؟). يمكننا اتباع أي من هذين المسارين: الجلوس على الرصيف والتحديق فيه، كما لو كان إعصارًا في صباح أحد أيام كانساس. أو يمكننا أن نستعد ونتدفق مع موجات المد والجزر الجديدة الوحشية هذه. لذا ، أعتقد ، "هيا بنا!"

__wf_reserved_inherit

طفل جديد في عالم التكنولوجيا: تمتلئ نماذج التعلم الآلي، قلب وروح الذكاء الاصطناعي، بمجموعات بيانات عملاقة بفضل التعليقات التوضيحية للبيانات

. لكي تكون مجموعات البيانات هذه مفيدة وقابلة للتطبيق، فإنها تحتاج إلى الفرز والتنظيم ووضع العلامات وربما القليل من التكيف. تحتاج الخوارزميات إلى مجموعات بيانات مصقولة حتى تتمكن بدورها من تلقي هذه المعلومات المنظمة الآن من أجل التعلم منها، وبالتالي إنتاج تنبؤات أكثر دقة.

ومن ثم، فإن العملية الفعلية لتوضيح البيانات تتضمن وضع تسميات للبيانات، بحيث لا تكون مربكة أو مضللة. يستخدم نموذج التعلم الآلي البيانات المشروحة للتعلم منها، بغض النظر عن تنسيق البيانات أو نوعها. نقوم "بالتعليق" على البيانات عن طريق إضافة علامات أو تسميات أو بيانات وصفية إلى البيانات الخام. على سبيل المثال، فيما يلي بعض العناصر التي يمكن وتحتاج إلى التعليق التوضيحي: النصوص، والصور، والصوت، والفيديو.بدون بيانات مشروحة بشكل صحيح، لن يكون من الممكن لنماذج التعلم الآلي المتقدمة تفسير وفهم أي سيناريوهات في العالم الحقيقي. تعتمد خوارزمياتهم على كميات هائلة من البيانات المصنفة لتحديد الأنماط بشكل صحيح، ثم اتخاذ قرارات "مستنيرة إلى حد ما".

__wf_reserved_inherit

أنواع التعليقات التوضيحية للبيانات

هناك عدة أنواع من التعليقات التوضيحية للبيانات ويستجيب كل منها لنوع معين من البيانات والتطبيقات. يلعب كل نوع من أنواع التعليقات التوضيحية دورًا حاسمًا في تدريب نماذج التعلم الآلي على أداء مهام مثل ترجمة اللغة، واكتشاف الكائنات، والتعرف على الصوت. ملاحظة جانبية: لقد رأيت روبوتًا حقيقيًا يعمل بالذكاء الاصطناعي يطوي الغسيل في مكان ما في آسيا، لكنني لا أشعر بأنني هناك بعد.

على سبيل المثال، عند تدريب نموذج للتعرف على الكائنات في الصور، يجب على المعلقين توفير آلاف الصور مع تسميات تشير إلى ماهية كل كائن. هذا يسمح للنموذج بتعلم الميزات التي تميز الكائنات المختلفة. وبالتالي، سيساعد هذا التدريب النموذج على التعرف على الكائنات في سيناريوهات مستقرأة.

وبالمثل تماما، بالنسبة للنماذج المستندة إلى النص، يقوم المعلقون بتمييز الجمل بتسميات المشاعر، بحيث يكون النموذج قادرا بعد ذلك على فهم هذه المشاعر والتنبؤ بها في البيانات الجديدة. يمكن أن تكون بعض هذه التسميات: إيجابية أو سلبية أو محايدة أو غيرها.

يعد وضع العلامات الصوتية أمرًا حيويًا لأنظمة التعرف على الصوت. يتضمن نسخ الكلام تحويل الكلمات المنطوقة إلى نص مكتوب، ويمكن تطبيق ذلك في المساعدين الافتراضيين وخدمات النسخ، على سبيل المثال لا الحصر. في نفس المنطقة، يمكن إضافة تسميات تعريف المتحدث إلى أجزاء مختلفة من الصوت وفقًا لمن يتحدث، وهو أمر مفيد إلى حد ما في سيناريوهات مثل نسخ الاجتماعات.

يمكن لنماذج معالجة اللغة الطبيعية (NLP) أن تتعلم من توضيح الميزات اللغوية مثل النحو والقواعد. على سبيل المثال، يساعد وضع علامات على الكلمات بأجزاء الكلام المقابلة لها (الأسماء، الأفعال، الصفات، إلخ) النموذج في فهم بنية الجملة. خاصة في لغة مثل الإنجليزية. قد يكون الأمر بالتأكيد أكثر صعوبة بعض الشيء في اللغة الإسبانية، بسبب جميع التراخيص الأدبية المستخدمة عند كتابة الشعر، على سبيل المثال. 

يشمل مجال التعرف على الكيانات المسماة (NER) تحديد الأسماء الصحيحة داخل النص، مثل الأشخاص، المواقع، و المنظمات. هذه ميزة أساسية لتطبيقات مثل روبوتات المحادثة ومحركات البحث.يتطلب التعليق التوضيحي للفيديو بلا شك نهجًا متعدد الأوجه يشمل جميع التقنيات المذكورة أعلاه. على سبيل المثال، قد يتضمن التعليق التوضيحي على فيديو لمركبة ذاتية القيادة تحديد أنماط الحركة، ووضع تسميات على الكائنات في كل إطار، ونسخ الكلام أو الأصوات. يحتاج النموذج إلى فهم السياق والتفاعلات داخل الفيديو، حتى يتمكن من إجراء تنبؤات أكثر أمانًا في سيناريوهات الوقت الفعلي.

__wf_reserved_inherit

معلقو البيانات البشرية = الأبطال الخارقون الصامتون

اعتبارًا من اليوم، فإن معلقي البيانات البشرية هم الأفراد الذين يقومون بتسمية البيانات بعناية. عملهم الدقيق أساسي لضمان الجودة العالية والدقة في التعليقات التوضيحية. يمكن للتعليق التوضيحي الخاطئ أو غير الصحيح بالتأكيد أن يطيح بالنموذج مثل "بيت من ورق". نموذج الذكاء الاصطناعي يتمتع بصحة وقوة مثل هيكله، ولكن أيضًا مثل جودة تدريبه.

بحلول الآن، هناك العديد من الأدوات والبرامج المتخصصة المصممة لتبسيط عملية التعليق بشكل مثالي. هذه هي الأدوات التي يستخدمها المعلقون في مهامهم اليومية. الجانب الرئيسي الذي يجب أن يفهمه المعلقون هو السياق المحدد والغرض من البيانات التي يعملون عليها. السبب بسيط: لا بد أن تكون تسمياتهم دقيقة وذات مغزى. لا يمكن اعتبار أي تسمية أمراً مفروغاً منه. لا توجد مهام صغيرة. كل التفاصيل مهمة. كما قد تكون قد خمنت الآن، فإن هذا السباق المستمر يجعل هذا النوع من العمل مستهلكًا للوقت ومكثفًا إلى حد ما. ومجموعات البيانات هي 99.9٪ "مجموعات بيانات كبيرة". لا شيء سهل أو صغير أو بطيء في هذه اللعبة. دقة المعلقين لها تأثير مباشر على موثوقية الخوارزميات القائمة على هذه البيانات.

تنتظر جلسات تدريب لا حصر لها لمحللي البيانات من حيث الأدوات المحدثة، إرشادات أساس المشروع والممارسة مع بيانات الأمثلة. من حيث المتطلبات، أولاً وقبل كل شيء، فإن امتلاك عين جراحية تقريباً للتفاصيل أمر بالغ الأهمية في هذا الدور. الفهم الكامل تقريبا للموضوع المطروح أمر لا بد منه أيضا.

على الرغم من التقدم اليومي في أدوات التعليق، حتى اليوم (لا توجد ضمانات هنا)، يبدو أن دور المعلق البشري لا يزال لا يمكن الاستغناء عنه. هناك بعض الصفات البشرية التي هي بطبيعتها قوية ولا يمكن تكرارها بواسطة نموذج ذكاء اصطناعي. كبشر يمكننا فهم السياق، والنجاح في إزالة الغموض عن السيناريوهات المربكة، وتطبيق الحكم الشخصي والمشترك بطرق لا يستطيع الذكاء الاصطناعي حاليًا ذلك. مثال جميل على قوتنا العظمى: يمكن للمعلق البشري التعرف على السخرية أو التهكم أو المراجع الثقافية في النص، بينما يشكل ذلك تحديًا كبيرًا لنموذج الذكاء الاصطناعي لتحديده بدقة.

كلنا نرتكب أخطاء، حتى النماذج الذكاء الاصطناعي

تواجه أحد التحديات الرئيسية في التعليقات التوضيحية للبيانات: الحفاظ على الاتساق والدقة عبر مجموعات البيانات الكبيرة. كما هو الحال في كل مجال آخر في الحياة، يمكن أن يتسبب الخطأ البشري والحكم الذاتي في عدم اتساق المصطلحات، مما قد يؤدي بدوره إلى إرباك نماذج التعلم الآلي. نظرًا لعدم امتلاكهم قدرات خاصة لبناء المعايير.

كما يحدث، يمكن أن تتضمن نماذج الذكاء الاصطناعي، التي تساعد حتى في عملية التعليقات التوضيحية، أخطاء أيضًا. اذهب واستنتج! قد تفشل هذه النماذج في التقاط الفروق الدقيقة وتسمية البيانات بشكل خاطئ. هذا يؤدي إلى عدم الدقة التي تحتاج إلى تصحيح بتدخل بشري. بعض الأدوات شبه الآلية يمكنها الآن وضع تسميات مسبقة للبيانات، مما يسمح للمُعَلِّقين البشريين بالتركيز على المراجعة، والتحقق، والتنقيح. يبدو أن الكأس المقدسة لنماذج الذكاء الاصطناعي والقدرات البشرية هي الجمع بين أفضل ما في كلا الجانبين. هذا يعني ابحث عن حلول أكثر تطورًا تمزج بين الخبرة البشرية وكفاءة الآلة، من أجل جعل توصيف البيانات أسرع وأكثر موثوقية.

يعد التعليق التوضيحي للبيانات، في الواقع، عملية تأسيسية تجعل من الممكن تطوير نماذج تعلم آلي فعالة بشكل محسن. على الرغم من أن الذكاء الاصطناعي يمكن أن يساعد في هذه العملية في الوقت الحالي، إلا أن الخبرة البشرية والرقابة أمران حاسمان للمساعدة في ضمان الدقة والموثوقية.

Unlock the power of glocalization with our Translation Management System.

Unlock the power of

with our Translation Management System.

Sign up today
Romina C. Cinquemani
Passionate about bridging linguistic and cultural gaps through both human skill and cutting-edge translation and localization platforms. Spanish translator, and writer. A constant life apprentice.
Translate twice as fast impeccably
Get Started
Our online Events!
Join our community

Try Bureau Works Free for 14 days

The future is just a few clicks away
Get started now
The first 14 days are on us
World-class Support