자동화된 과정으로, 기계 번역은 그들의 품질을 보장하기 위해 정기적으로 평가되어야 합니다.
그렇다면 어떻게 평가할 수 있을까요? 회사에는 두 가지 옵션이 있습니다. 그 중 하나는 전문가들을 사용하여 번역을 검토하는 것입니다. 회사들은 두 가지 옵션을 가지고 있습니다. 그 중 하나는 전문가들을 사용하여 번역을 검토하는 것입니다. 물론, 이는 인간을 포함하지 않는 번역 과정인 기계 번역과 거의 모순되는 것입니다. 이 문제를 해결하기 위해 BLEU 점수가 만들어졌습니다. 이 문제를 해결하기 위해 BLEU 점수가 만들어졌습니다. BLEU 점수는 MT에 익숙한 사람들에게 잘 알려진 개념입니다.
BLEU는 Bilingual Evaluation Understudy의 약자로, 한 언어에서 다른 언어로 기계 번역된 텍스트를 평가하는 알고리즘입니다.
BLEU 점수는 어떻게 품질을 평가하나요?
텍스트의 품질을 평가하기 위해 BLEU 점수는 참조 번역과 비교합니다. 다시 말해, BLEU 점수는 자동 번역과 전문 번역 사이의 유사성을 측정합니다. 이상적으로는, 자동 버전이 인간 번역 내용에 가까울수록 더 좋습니다. BLEU 점수는 알고리즘을 통해 텍스트가 참조 콘텐츠에 얼마나 "가까운지" 이해합니다.
이 알고리즘은 기계 번역 텍스트의 연속 문장을 참조 번역에서 찾은 연속 문장과 비교하여 얼마나 유사한지를 평가하며, 문법이나 이해 가능성은 고려하지 않습니다. 그런 다음, BLEU는 이 정보를 기반으로 0에서 1까지의 점수를 제공합니다. 1은 이곳에서 이상적으로 가장 좋은 시나리오입니다.
그러나 중요한 점은 많은 텍스트가 이 점수를 달성하지 못한다는 것입니다. 왜냐하면 이는 기계 번역된 텍스트가 참조된 말뭉치의 적어도 하나의 텍스트와 동일하다는 것을 의미하기 때문입니다.
알아차릴 수 있듯이, BLEU 점수 시스템은 기계 번역된 텍스트를 평가하기 위해 참조 콘텐츠가 필요합니다. 사실, 참조 번역물의 품질을 보장하기 위해 최소한 1,000개의 문장이 수집되는 것이 일반적으로 권장됩니다.
이 기술에는 몇 가지 단점이 있습니다. 예를 들어, 번역된 콘텐츠의 성격에 따라 참조 문장의 상당한 양이 필요할 수 있습니다. 하지만, 이 방법은 여전히 기계 번역 사용자들 사이에서 매우 인기가 있으며, 자동 번역된 텍스트를 측정하는 가장 비용 효율적인 방법 중 하나입니다.