Traduzione sensibile al contesto con i modelli linguistici di grandi dimensioni
La traduzione automatica tradizionale è stata problematica per molto tempo, anche con l'introduzione della traduzione automatica neurale e di grandi set di dati di addestramento. Sebbene possa produrre risultati interessanti se ottimizzato e addestrato per un dominio specifico con un linguaggio prevedibile e semplice, è generalmente inaffidabile e irregolare se applicato a una varietà di domini, lingue e circostanze.
Molti traduttori rispettabili ancora non amano la traduzione automatica e si rifiutano di usarla come prima bozza o riscrivere i feed interamente. Questo evidenzia la divisione tra macchine e umani, anche con l'immensa evoluzione della traduzione automatica negli ultimi anni. In base al nostro sondaggio, solo una piccola percentuale di traduttori considera la traduzione automatica un alleato prezioso.
La traduzione automatica tradizionale è o troppo generica e irregolare o troppo specifica, richiedendo circostanze specifiche per essere efficace, come grandi volumi di contenuto con una struttura linguistica semplice o la segregazione del dominio come manuali tecnici, knowledge-base di prodotto e letteratura di assistenza. Anche i motori addestrati faticano a gestire le Incoerenze e le discrepanze tra le basi terminologiche, le memorie di traduzione e l'addestramento del corpus linguistico.
Questi includono glossari aggiornati da revisori aziendali o traduttori dopo il processo di formazione, differenze tra glossari e corpus di formazione, la necessità di creare e mantenere motori specifici per la massima qualità, memoria di traduzione deviazioni dal corpus addestrato, e errori banali come tradurre entità o altri nomi propri, e mancanza di sensibilità culturale o linguistica.
Questi esempi risultano in feed inaffidabili e in un processo di revisione impegnativo per i traduttori. Inoltre, gestire modelli di traduzione automatica ottimizzati e addestrati richiede tipicamente uno o più ingegneri di localizzazione dedicati a questi sforzi, qualcosa per cui la maggior parte delle agenzie di traduzione di piccole e medie dimensioni e dei programmi di localizzazione non ha la capacità.
La traduzione sensibile al contesto con i modelli linguistici di grandi dimensioni, tuttavia, cambia questa situazione. Il contesto si riferisce a tutte le informazioni che non sono il testo stesso, ma aiutano il motore a dare un senso al testo e a come elaborarlo. Esempi di contesto sono i glossari, le memorie di traduzione, i feedback passati e la frequenza di rimbalzo, ma il contesto potrebbe essere qualsiasi informazione. Con i modelli di linguaggio di grandi dimensioni che possono tenere in considerazione miliardi di parametri per progettazione, non c'è davvero alcun limite alla quantità di contesto con cui decidi di lavorare.
Ecco un esempio di come tenere conto del contesto:

Nota come c'è un 89% Memoria di traduzione feed e un traduzione automatica feed. Il feed TM chiama il nostro "engine" un "motor" in portoghese mentre il MT chiama l'engine un "mechanism" in portoghese. Il glossario tuttavia specifica che "engine" dovrebbe essere mantenuto come "engine". Quando viene elaborato tramite Bureau Works Translate, il nostro modello tiene conto di questa preferenza (insieme ad altre):

Bureau Works Translate non solo inserisce il termine corretto secondo l'ultima versione del glossario, ma apporta anche le modifiche necessarie al testo affinché sia ben leggibile nella lingua di destinazione, tenendo conto del contesto linguistico offerto dalla Memoria di traduzione.
Con Bureau Works Translate, modelli di linguaggio di grandi dimensioni come ChatGPT possono considerare il proprio set di dati di addestramento, specifiche memorie di traduzione, glossari e altri contesti rilevanti per offrire ai traduttori un feed di traduzione sfumato, contestualizzato e consapevole in un determinato progetto. Possiamo tenere in considerazione gli ultimi aggiornamenti ai glossari e memorie di traduzione in tempo reale, il che significa che non è necessario inviare ripetutamente glossari e traduzioni aggiornati ai server di traduzione automatica addestrati e ottimizzati nella speranza che tengano conto delle preferenze linguistiche.

Con Bureau Works Translate, puoi addestrare e tradurre al volo, e qualsiasi progetto di traduzione, memoria di traduzione di qualsiasi dimensione, e glossario di qualsiasi dimensione può beneficiare delle sue capacità di fusione testuale e probabilistiche linguistiche. Non c'è tempo di configurazione e non c'è bisogno di allenarsi in anticipo.
Sulla base della nostra ricerca iniziale, un motore del genere può fornire ai traduttori feed che superano la resistenza di lunga data verso l'utilizzo dei risultati delle macchine. Il nostro motore apre anche la porta a una conversazione tra il Traduttore e il motore. Ha più senso arricchire un glossario se ne trai beneficio immediatamente, ed è più facile fidarsi di una macchina se sai per esperienza che c'è almeno qualcosa che assomiglia a un pensiero critico e adattivo.
Oltre alla traduzione contestuale, abbiamo anche aperto la porta ai traduttori per interagire con i modelli linguistici in modo che possano ottenere un secondo parere sulle loro scelte, suggerimenti alternativi e persino avviare una conversazione quando necessario.
La traduzione sensibile al contesto con i modelli linguistici di grandi dimensioni è più di un processo di pre-traduzione migliorato. È un passo deciso verso la collaborazione tra esseri umani e macchine per produrre un Contenuto migliore con meno sforzo e in meno tempo.
Andando avanti, il contesto continuerà ad espandersi in modi senza precedenti e saremo in grado di creare testi multilingue tenendo conto del comportamento degli utenti, delle analisi web e di una pletora di altre fonti di informazioni che possono essere consumate e comprese da modelli di linguaggio di grandi dimensioni. Questo è solo l'inizio e ha già cambiato tutto.