自動化されたプロセスとして、機械翻訳はその品質を確保するために定期的に評価される必要があります。
そして、どうすればそれが可能になりますか? 企業には2つの選択肢があります。 その一つが、翻訳をレビューするために専門家を利用することです。
もちろん、これはMTプロセス全体とほとんど矛盾します。なぜなら、それは人間が関与しない翻訳プロセスだからです。 この問題を解決するために、BLEUスコアが作成されました。 BLEUスコアは、MTに詳しい方にはお馴染みの概念です。
BLEUは、Bilingual Evaluation Understudyの略語で、ある言語から別の言語に機械翻訳されたテキストを評価するアルゴリズムです。
BLEUスコアはどのようにして品質を評価しますか?
テキストの品質を評価するために、BLEUスコアは参照翻訳と比較します。 言い換えれば、BLEUスコアは、自動翻訳とプロの翻訳との間の類似性を測定します。 理想的には、自動化されたバージョンが人間が翻訳したコンテンツに近いほど良いです。 BLEUスコアは、そのアルゴリズムのおかげでテキストが参照されたコンテンツにどれだけ「近い」かを理解します。
このアルゴリズムは、MTテキストの連続する文を参照翻訳で見つかった連続する文と比較し、文法や理解可能性を考慮せずに、それらがどれほど似ているかを評価します。 次に、BLEU は、この情報に基づいて 0 から 1 までのスコアを提供します。 理想的には、1がここでの最良のシナリオです。
ただし、このスコアを達成するテキストはほとんどないことを指摘することが重要です。これは、MTテキストが参照されたコーパスの少なくとも1つのテキストと同一であることを意味するためです。
お気づきかもしれませんが、BLEUスコアシステムは機械翻訳されたテキストを評価するために参照されたコンテンツを必要とします。 実際、参照された翻訳の品質を確保するためには、少なくとも1,000の文を集めることが一般的に推奨されています。
このテクノロジーにはいくつかの欠点があります。 たとえば、参照される文の量が多い場合、翻訳されたコンテンツの性質によっては問題になることがあります。 それでも、この方法はMTユーザーの間で非常に人気があり、自動翻訳されたテキストを測定する最もコスト効率の良い方法の一つです。