Como un proceso automatizado, las traducciones automáticas deben ser evaluadas regularmente para garantizar su calidad.
¿Y cómo puedes hacer eso? Las empresas tienen dos opciones. Una de ellas es utilizar profesionales para revisar las traducciones.
Por supuesto, esto sería casi contradictorio con todo el proceso de MT, ya que es un proceso de traducción que no involucra a humanos. Para resolver este problema, se creó el puntaje BLEU. El puntaje BLEU es un concepto bien conocido para aquellos que están familiarizados con MT.
BLEU es el término abreviado para Bilingual Evaluation Understudy, o un algoritmo que evalúa textos traducidos por máquinas de un idioma a otro.
¿Cómo evalúa el puntaje BLEU la calidad?
Para evaluar la calidad de un texto, las puntuaciones BLEU lo comparan con traducciones de referencia. En otras palabras, la puntuación BLEU mide la similitud entre una traducción automatizada y una profesional. Idealmente, cuanto más cercana sea la versión automatizada al contenido traducido por humanos, mejor será. El puntaje BLEU comprende qué tan "cercano" es un texto al contenido de referencia gracias a su algoritmo.
Este algoritmo compara las oraciones consecutivas del texto de traducción automática con las oraciones consecutivas encontradas en la traducción de referencia, procediendo a evaluar cuán similares son entre sí, sin tener en cuenta la gramática o la inteligibilidad. Luego, BLEU proporciona un puntaje que va de 0 a 1 basado en esta información. 1 es, idealmente, el mejor escenario aquí.
Sin embargo, es importante señalar que pocos textos alcanzarán alguna vez esta puntuación, ya que implicaría que el texto de MT es idéntico al menos a un texto del corpus de referencia.
Como habrás notado, el sistema de puntuación BLEU necesita tener contenido de referencia para evaluar los textos traducidos por máquina. De hecho, generalmente se recomienda tener al menos 1,000 oraciones recopiladas en las traducciones de referencia para asegurar su calidad.
Sin embargo, esta tecnología tiene algunas desventajas. Por ejemplo, es necesario contar con una cantidad significativa de oraciones de referencia, lo cual puede ser un problema dependiendo de la naturaleza del contenido traducido. Sin embargo, este método sigue siendo muy popular entre los usuarios de MT y es una de las formas más rentables de medir textos traducidos automáticamente.