ベストプラクティス

翻訳者の道:AI注釈に向けて

まったく新しい世界へのポータル。 今年の2月、私は週末にあらゆるものや人々から離れて、ウルグアイのモンテビデオに行きました。 とても素敵な週末ですね、追加するかもしれません。 もちろん、私はまだストレスから解放される時間と、選んだ夢のような場所での適切な休日を切望しています。 したがって、私はその週末を小さな前菜と考えました。
Romina C. Cinquemani
11 min
目次

不思議の国のアリスのウサギの穴だったらよかったのに

まったく新しい世界へのポータル。 今年の2月、私は週末にあらゆるものや人々から離れて、ウルグアイのモンテビデオに行きました。 とても素敵な週末ですね、追加するかもしれません。 もちろん、私はまだストレスから解放される時間と、選んだ夢のような場所での適切な休日を切望しています。 したがって、私はその週末を小さな前菜と考えました。 ここ数年は健康面で厳しい時期を過ごし、その結果、世界的な業界の進歩を把握することができませんでした。 それが理由で、AIの光速の台頭には全く驚きました。 もっとよく知るべきだった。 しかし、私は別のことで忙しく、体の2つの部分を完全に取り除いていました。 詳細は必要ありません。

そして、私はそこにいました。 モンテビデオの美しいカラスコ地区から友人たちと戻り、美しいビーチ、ヤシの木、英国風のカントリーハウス...それはまさに、凍った水で溢れた深淵に、恐ろしく果てしない崖から突き落とされたと感じた瞬間でした。 警告はありません。 事前の通知はありません。 何もない。 地球のこちら側にいると、長い間机から離れているために情報が不足していると予想する人もいるかもしれません。

そして、これが私の翻訳者としての20年以上の経験と仕事への愛がAI主導の流れにどのように消えていったかです。 そんな感じで。 私は、怒りから絶望、新しいパラダイム全体とその周りのすべてに対する純粋な憎しみ、希望の閃光、そして完全な沈黙へと移行した、ひどい15日間を過ごしました。 私は自分自身のプロフェッショナルな灰から立ち上がり始めました。 私は49歳で、まだ請求書を支払い、家族へのサポートを分担し、人生を少し楽しみ、もし少しクレイジーになったら、時々少しお金を貯めることさえも考えています。

まさか、ホセ。 AIでさえも、AIの熱狂的なファンは、もう終わったと言い続けていました。 彼らは私にそれがもっと早く終わるべきだったと言い続けました! その神経。 彼らは今でもそうしています。 私はほとんど毎日、新しいアイデアとともに再び立ち上がりました。 そして、この状況について同僚と話し始めました。

__wf_reserved_inherit

私たちは自分のビーコンを見つけたり、作ったりします

それから、AI、その用途、アプリケーション、主要企業、関連する役割などについて、半分賢そうに聞こえるものをすべて見つけて読み始めました。 新しいことを学ぶ準備はできていて、意欲もありますが、正直に言うと、新しい大学でのキャリアまでは考えていません。 それは今の段階では、私の目標でも優先事項でもありません。 それでも、私はツールベルトに新しいスキルを追加することに前向きです。 私はいつもそうです。

私は、科学文学の翻訳者としての役割を脇に置かなければならないとしたら、おそらくこの新しい状況で言葉を扱う別の方法を見つけることができるかもしれないと考えました。 適応することもできるし、いろんなことができるし、やり直すこともできるけど、好きなことを100%諦めるわけにはいかない。 曲がることはできますが、壊れることはありません。 まるで竹のように。 長年にわたり、私は進んで被害者でしたが、それでもなお、社会規範に合わせるために自分を他の誰かにすることを強制する被害者でした。 それはもうたくさんです。 どのレベルでもありません。

A Different Journey for Everyone - My Field Notes

だから、私はそこに行きました。 まず、私の履歴書を更新して、現在の多面的なプロフェッショナルプロフィールを反映させました。 私は、自分のスケジュール、目標、予算に合った専門的なトレーニングの現在の提案を確認することができました。 そして、選ばれた者に登録しました。 もちろん、私はその未知の海域を航海しています。 でも、私はその一瞬一瞬を楽しんでいます。

私は現在最も関連性の高いAI企業がどれであるかを分析しました。 もちろん、これもすぐに変わる可能性があります。 私たちは、絶えず動いているビジネスについて話しています。

今日のAI業界の主なアクターは、ChatGPTのOpenAI、GeminiのGoogle、ClaudeのAnthropic、Nvidia、MetaのLlamaです。 おそらくすでにご存知かと思いますが、ここでのアイデアは、私が「AI AI Land」への旅に一緒に来ることです。 

私の意図を理解するための基本用語

AIデータアノテーターとは何か - AIデータアノテーターは、生の非構造化データを機械が読み取れる情報に変換する重要な架け橋として機能し、機能的なAIモデルの生命線となります。

テキスト注釈は、機能、ラベルの意味、構成、文脈、目的、感情、その他のデータタグを示し、機械が人間の意図や感情を認識して正確な言語理解を助けます。

サードパーティ企業とは - サードパーティ企業は、メイン企業のタスクを実行するためにサブレンタルされます。 このシナリオでは、多くの元翻訳会社やリモートワーク会社が、AIに関連するさまざまな役割を果たすためにスタッフを採用し、オンボードするために下請けされています。

LLMとは何ですか - LLMは人間の言語をモデル化し処理するために使用されるAIシステムです。 これらのタイプのモデルは通常、モデルの動作を定義する数億または数十億のパラメーターで構成され、大量のテキストデータのコーパスを使用して事前にトレーニングされているため、「ラージ」と呼ばれます。

ハイローラーズ・オール・ザ・ウェイ

AI企業は、データアノテーター自身を採用していません。 彼らはこのタスクをデータ収集、注釈、およびその他の分野を専門とする企業にアウトソーシングします。 明らかに、彼らは毎日毎秒新しいものを開発するのに忙しいです。

彼ら自身の内部情報によって確認されたように、これらはAI企業とそのリソースサプライヤー(別名、サードパーティ企業)との間の現在のつながりであると言えます。

私を支えている会社であるOpenAI(ChatGPT)は、モデルのトレーニングと微調整のために人間のアノテーターを雇っています。 これらのアノテーターは、通常、社内スタッフとサードパーティの契約会社の組み合わせを通じて雇用されます。 彼らの日常業務には、データにラベルを付け、出力をレビューし、モデルの精度、一貫性、安全性を向上させるためのフィードバックを提供することが含まれます。 主な会社はScale AIです。

Google は、サードパーティ企業と協力して、Gemini などの AI モデルをトレーニングするアノテーターを雇用しています。 このプロセスに関与していることが知られている企業の1つはAppenです。 Appenはデータアノテーションやその他のAIトレーニングサービスを提供しており、GeminiのようなAIモデルの性能と精度を、品質の高いラベル付きデータを提供することで向上させます。

2024年、Scale AIは、AnthropicのAIアノテーターの採用を担当しています。 Scale AIは、AIモデルのトレーニングと検証に不可欠なデータラベリングおよびアノテーションサービスの提供を専門としています。

今年、NvidiaのAIアノテーターを採用した企業には、TELUS InternationalAppenが含まれます。 TELUS International は、Nvidia や他の技術企業が使用するAIモデルのトレーニングに不可欠なデータアノテーション、トランスクリプション、コンテンツモデレーションを提供しています。 Appen、データアノテーションサービスの有名なリーダーであり、機械学習とAIアプリケーションに不可欠な高品質なトレーニングデータを提供しています。

Metaは、モデルのアノテーションと微調整のために、内部リソースと外部パートナーシップを組み合わせて使用しています。

__wf_reserved_inherit

本物のインクでペンを浸す

これらの点をすべてつなげて、彼らのウェブサイトを確認しながら、私は上記のデータアノテーション会社に問い合わせ先しました。 もちろん、それらすべてが同じHHを共有しているわけではありません。 RRです。または、そのことに関するその他のポリシー。

予想通り、この革命が数年前に本格的に始まって以来、ほとんどのデータアノテーション会社はすでに何千ものアノテーターのチームを持っています。 明らかに、私はこのゲームにおいて遅咲き以上の存在です。

それにもかかわらず、好奇心と練習のために、私はこれらの企業すべてに問い合わせ先をしました。これらの企業は最もパワフルなAIの巨人たちにサービスを提供しています。 私が想像した通り、彼らの誰もわざわざ拒否の自動メッセージで返信することさえしませんでした。 そして、私は理解しています。 本当に。

ご想像のとおり、同じ業界には、人気が低いか、他の業界からAI企業にサービスを提供するようになった変異企業がたくさんあります。 最初のグループでは外れ値を見つけました。 そして2つ目は、ローカライゼーション/翻訳ビジネスから来たe2fです。

もちろん、多くの場合、この種の企業は、彼らが働いているAIクライアントを明らかにしません。 そして、それは彼らの守秘義務ポリシーと相互の契約の一部として完全に理解できます。 これが、彼らがどのAI企業で働いているかを推測することも推測することもできない理由です。

キラキラと輝くものすべて...

他のすべての人間の取引と同様に、企業は1つの業界内で旅を始め、数え切れないほどの理由で別の市場セグメントに変身することがあります。 1つ目は生存、2つ目は進歩する意志の力です。

両社に履歴書を送信し、過去にe2fで翻訳者として実際に働いた後、オンボーディングプロセスを進めるために両社からメールを受け取りました。

NDA契約を履行して署名し、協力者ポータルのWebサイトでプロファイルを完成させ、いくつかのテストを受け、それらすべてに合格し、その後、多数のトレーニングセッションに参加する必要がありました。 実際、これらの企業の1つでは、数え切れないほどのトレーニングセッションがあります。 その理由は、アノテーターが新しいプロジェクトごとにトレーニングコースを完了する必要があるためです。 もちろん、私は過去に多くの翻訳顧客のために追加のトレーニングセッションを常に受けてきました。 ここでの問題は、トレーニングセッションが多すぎて長すぎることです。 プロジェクトのタスクに取り組み始めると、それらの多くは時給の半分未満しか支払われず、これは初心者にとってはかなり低いです。 主な理由は、会社があなたが常にトレーニングを受けていると見なしていることです。 わかる?

アノテーション内の実際のさまざまなタスクは、反復的な場合もあれば、単調な場合もあり、非常に複雑な場合もあります。 いくつかの特定のタスクが私にはもう少し魅力的に感じられました。例えば、いくつかの制約を持つAIモデルのために想像力豊かなプロンプトを作成し、その後AIの応答をレビューし、最後にフィードバックを提供することです。

ご存知のように、人間は途中でさまざまな種類の間違いを犯す可能性があります。 ここで問題となるのは、アノテーション会社にはミスの余地がほとんどないということです。 そして、たとえ小さなミスでも一度でもすると、アノテーションチームから外されるかもしれません。

この種の仕事のもう一つの欠点は、AIの世界のすべてが圧倒的な速度で絶えず動いているため、毎日フィードバックセッションに参加する必要があることです。 週末でも。

この種のサービスには、特定の要件が適用されます。 上記で述べた主な採用企業、例えばAppenには、キャリアセクションがあります。 問題は、注釈プロセスには、たとえリモートで作業していても、彼らの人間のチームが特定の地域内に配置されている必要があるということです。 これは、文化的な理由、背景、一般的な知識などによるものです  

部屋の中の非常に安い象

そして最後に、私たちはあらゆるサービス業界で敏感な問題に行き着きます:料金。 正直に言うと、この市場をデータアノテーションの見通しだけで調査した結果、ほとんどの企業が同じレートを共有しています。 彼らは、多かれ少なかれ特定の主題の観点から、求めるアノテーターのプロファイルを分割するかもしれません。 その経歴により、非常に特定の知識分野に注釈を付ける資格がある人は、より良いレートを得る可能性があります。

そうでなければ、私の非常に個人的な視点からすると、彼らがアノテーション分野への新規参入者に提供している料金は途方もなく低いです。 ほとんど存在しない。 そして、これらのタスクには、トレーニングとフィードバックセッションの要件を満たすために、細部への多くの注意、読解力、そして多くの余分な時間が必要です。

その上、ほとんどの場合、これらの企業は組織の観点からも最善ではありません。 あなたはSlackチャンネルに放り込まれ、誰も返信しない何百もの暗号めいたメッセージで受信トレイが侵略されます。 これはさらに時間がかかり、まったく役に立ちません。 まったく逆です。

他の視点を確認するために、私が短期間働いたデータアノテーション会社について、問い合わせ先として2人の同僚に彼ら自身の経験を尋ねました。 彼らはどちらも、組織の欠如、注釈者のチームとの不十分なコミュニケーション、テストが多すぎること、そして時間がかかりすぎて締め切りを危うくするフィードバック会議に関して、私に同意しました。 もちろん、私たちは皆、レートが低すぎると考えていますが、そのうちの1人は、これらのタスクに専念する時間があれば、努力する価値があると考えています。

テイクアウェイ

これだけ読み、研究し、プロセスし、試行錯誤し、書いた後、私は最初の質問に対する答えを見つけました。 プロの翻訳者がキャリアコースを調整し、データアノテーションの新しい道を始めることは可能で生産的ですか?

それはすべて各翻訳者に依存します。 それと同じくらい明確です。 ここには、人生のほとんどの事柄のように、絶対的なものはありません。 私は今、データ注釈が私がたどる新しい道ではないことを知っています。 しかし、これを見つける過程を本当に楽しみました。

それにもかかわらず、このオプションは異なる個人プロファイルを持つ翻訳者にとってうまく機能するでしょう。 新卒の翻訳者、経済的/家族的責任がほとんどない若手のプロの翻訳者、またはすでにより便利な収入源がある場合の補足的な収入として。

データアノテーターとしてのタスクで最も重要な特徴は、AIモデルの応答の品質に小さな貢献をする機会です。 しかし、私の特定のプロファイルでは、コストが高すぎ、給与が低すぎます。 いずれにせよ、私はトレーニングの経験を高く評価しており、これから取り入れたいと思っているすべての知識を大切にしています

 

Unlock the power of glocalization with our Translation Management System.

Unlock the power of

with our Translation Management System.

Sign up today
Romina C. Cinquemani
Passionate about bridging linguistic and cultural gaps through both human skill and cutting-edge translation and localization platforms. Spanish translator, and writer. A constant life apprentice.
2倍の速さで申し分のない翻訳を実現
始めよう
私たちのオンラインイベント!
コミュニティにご参加ください

Bureau Worksを14日間無料でお試しください

未来はほんの数回のクリックで手に入ります。
今すぐ始める
最初の14日間は無料です。
世界クラスのサポート