ベストプラクティス

大規模言語モデルによるコンテキストアウェア翻訳

従来の機械翻訳は、ニューラル機械翻訳や大規模なトレーニングデータセットの導入があっても、長い間問題がありました。予測可能でわかりやすい言語を使用して特定のドメインに対して微調整およびトレーニングすると、興味深い結果が得られますが、さまざまなドメイン、言語、および状況に適用すると、一般的に信頼性が低く、不安定になります。

Gabriel Fairman

3 min

従来の機械翻訳は、ニューラル機械翻訳や大規模なトレーニングデータセットの導入にもかかわらず、長い間問題がありました。予測可能でわかりやすい言語を使用して特定のドメインに対して微調整およびトレーニングすると、興味深い結果が得られることがありますが、さまざまなドメイン、言語、および状況に適用すると、一般的に信頼性が低く、不安定になります。

多くの評判の良い翻訳者は依然として機械翻訳を嫌い、最初の草稿として使用したり、フィードを全体的に書き直したりすることを拒否します。これは、近年の機械翻訳の大きな進化にもかかわらず、機械と人間の間の隔たりを浮き彫りにしています。私たちの調査によると、翻訳者のごく一部のみが機械翻訳を貴重な味方と考えています。

‍従来の機械翻訳は、一般的すぎて不安定であるか、または特定の状況でのみ効果的であり、大量のコンテンツで単純な言語構造を持つ場合や、技術的なマニュアル、製品知識ベース、サポート文書のようなドメイン分離が必要です。訓練されたエンジンでさえ、用語ベース、翻訳メモリ、および言語コーパスのトレーニング間の不一致や矛盾を処理するのに苦労します。

これには、トレーニングプロセス後に会社のレビュアーや翻訳者によって更新された用語集、用語集とトレーニングコーパスの違い、最大の品質を確保するための特定のエンジンを作成し維持する必要性、翻訳メモリトレーニングされたコーパスからの逸脱、エンティティやその他の固有名詞を翻訳するなどの愚かな間違い、文化的または言語的感受性の欠如が含まれます。

これらの例は信頼性の低いフィードを生み出し、翻訳者にとって困難なレビュー過程をもたらします。さらに、調整および訓練された機械翻訳モデルの管理には、通常、これらの作業に専念する1人以上のローカリゼーションエンジニアが必要です。これは、ほとんどの中小規模の翻訳会社やローカリゼーションプログラムには対応できないことです。

‍コンテキスト対応翻訳大規模言語モデルを使用すると、これが変わります。コンテキストとは、テキスト自体ではないすべての情報を指しますが、エンジンがテキストを理解し、どのように処理するかを助けるものです。コンテキストの例としては、用語集、翻訳メモリ、過去のフィードバック、直帰率などがありますが、コンテキストには任意の情報が含まれます。設計上、数十億のパラメーターを考慮できる大規模言語モデルを使用すると、どれだけのコンテキストを使用するかに制限はありません。

ここでは、コンテキストを考慮する例を示します:

89%の翻訳メモリフィードと機械翻訳フィードがあることに注意してください。 TMフィードはポルトガル語で私たちの「エンジン」を「モーター」と呼び、MTはポルトガル語でエンジンを「メカニズム」と呼びます。ただし、用語集では「engine」は「engine」のままにすることが指定されています。 Bureau Works Translateを通じて処理されるとき、私たちのモデルはこの好み（他のものと共に）を考慮に入れます。

‍

Bureau Works Translate は、最新の用語集バージョンに従って正しい用語を挿入するだけでなく、ターゲット言語で自然に読めるようにテキストに必要な変更を加え、さらに翻訳メモリが提供する言語的な文脈も考慮します。

Bureau Works Translateを使用すると、ChatGPTのような大規模言語モデルが、自身のトレーニングデータセット、特定の翻訳メモリ、用語集、その他の関連する文脈を考慮に入れて、翻訳者に対してプロジェクト内で微妙で文脈に即した、配慮の行き届いた翻訳フィードを提供できます。最新の用語集と翻訳メモリの更新をリアルタイムで考慮することができるため、訓練され調整された機械翻訳サーバーに更新された用語集や翻訳を繰り返し送信する必要はありません。これにより、言語的な好みが考慮されることを期待できます。

Bureau Works Translateを使用すると、その場でトレーニングと翻訳が可能で、どんな翻訳プロジェクトでも、どんなサイズの翻訳メモリやどんなサイズの用語集でも、そのテキストマージと言語的確率能力の恩恵を受けることができます。セットアップ時間も、事前のトレーニングも必要ありません。

私たちの初期調査に基づくと、そのようなエンジンは、機械出力の活用に対する長年の抵抗を打破するフィードを翻訳者に提供できます。私たちのエンジンは、翻訳者とエンジンの間の会話の扉も開きます。用語集をすぐに活用できるなら、それを充実させることはより理にかなっています。また、少なくとも批判的かつ適応的な思考に似た何かがあると経験から知っていれば、機械を信頼することも容易です。

文脈に応じた翻訳に加えて、翻訳者が言語モデルと対話できるようにし、選択肢の確認、代替案の提案、さらには必要に応じて会話を始めることができるようにしました。

‍大規模言語モデルを使用したコンテキストアウェア翻訳は、改善された事前翻訳プロセス以上のものです。それは、人間が機械と協力して、より少ない労力と時間でより良いコンテンツを生み出すための確固たる一歩です。

今後、コンテキストはこれまでにない方法で拡大し続け、ユーザーの行動、ウェブ分析、その他多数の情報を考慮に入れた多言語テキストを作成できるようになります。これらの情報は、大規模な言語モデルによって消費され、理解されることが可能です。これはほんの始まりに過ぎず、すでにすべてを変えています。

‍

Unlock the power of glocalization with our Translation Management System.

Unlock the power of

with our Translation Management System.

Gabriel Fairman

Founder and CEO of Bureau Works, Gabriel Fairman is the father of three and a technologist at heart. Raised in a family that spoke three languages and having picked up another three over the course of his life, he has always been fascinated with the role language plays in identity and the creation of meaning. Gabriel loves to cook, play the guitar, tennis, soccer, and ski. As far as work goes, he enjoys being at the forefront of innovation and mobilizing people and teams together toward a mission. In recognition of his outstanding contributions, Gabriel was honored with the 2023 Innovator of the Year Award at LocWorld Silicon Valley.