
ChatGPT 改变了全球对人工智能能力的看法。 从广义上讲,它从笨拙和机器人化变成了以一种不可思议的方式变得像人类。
这对翻译领域的可能性有何影响?
人类不再需要了吗?
我可以通过 ChatGPT 处理所有内容,而不在我的翻译上再花一分钱吗?
本文将探讨大型语言模型提供的翻译的潜力和局限性。
想和 ChatGPT 聊聊吗?

与 GPT3/4 等生成式预训练转换器或其他具有类似能力的 AI 聊天机器人交谈既有启发性,又令人恐惧。 对提示的回答可能会导致意外和用户沮丧。 GPT 4 能够在第 90 个百分位通过 BAR 考试,也可能犯下巨大的错误,例如捏造不正确的事实或接受不合逻辑的论点。
这完全取决于参数和训练数据,但在英语中,GPT 3 和 4 明显展示了改变我们如何进行工作和专业工作的潜力。
但是它在其他语言中的表现如何呢?
它如何在更多上下文或更少上下文中工作?
GPT 3 与 GPT 4 有显著区别吗?
机器翻译但没有机器翻译系统

机器翻译的历史清楚地表明了技术在我们这个世界上的局限性。 当这些想法在 80 年代首次被提出时,有些人非常看好不再需要人工生成准确的翻译。
这只是一个发展不同的统计和基于规则的模型的问题,以便创建听起来像人类自然说话方式的翻译。
但显然情况并非如此。 模型得到了改进,知识的获取也得到了改善,但事实证明,语言过于微妙,充满了例外,以至于工程师无法向机器解释它。 模型不是基于提示和响应对话,而是基于以英语文本或引擎包含的任何其他语言输入的单个输出。
选择模型并估算翻译成本
例如,虽然选择模型似乎是使用 gpt 3 进行翻译的第一步,但它很可能应该是翻译旅程的最后一步。
您可以例如使用纯文本并将其简单地插入到gpt 3中,或者使用openai的api来导入和导出您的内容,但这将忽略一些关于翻译的关键挑战。
例如,第一个明显的问题是格式的丢失。 随着您更深入地研究大型语言模型和其他人工智能系统,知识管理的重要性也变得更加关键。
您将如何管理过去的翻译?
您将如何微调您的引擎,使其考虑到您的术语或 SEO?
AI 聊天机器人无论多么强大,最初都不是作为翻译引擎设计的。 GPT 3 翻译在很多情况下都很棒。 它通常可以向用户提供看似人性化的翻译,听起来甚至比英文文本或任何其他原始语言更好,但就其本身而言,它几乎不可能大规模或重复运行。
一个与人工智能深度集成的翻译管理系统是必要的,以确保您提取由gpt 3或4提供的关键好处。
想与 Google LaMDA 创建者推出的最新 AI Character.ai 交谈吗?
由 Google 的 LaMDA 提供支持的 Character.ai 等聊天机器人对话清楚地表明,如何在没有任何特定上下文的情况下进行类似人类的对话。 可以与您构建或预先选择的角色交谈,有时看起来确实像人类。
谈论 LaMDA 很重要,因为人们通常对有多少系统的看法有限。 以下是其他一些示例:
伯特: 来自 Transformers 的双向编码器表示,由 Google AI
- XLNet 开发: 用于语言理解的广义自回归预训练,由卡内基梅隆大学和 Google AI
- XLM-RoBERTa 开发: 由 Facebook AI
- Cohere 开发的稳健优化的 BERT 预训练方法: 可以针对特定领域和任务进行微调的 LLM,由 Cohere AI
- GLM-130B 开发: 具有 1300 亿个参数的生成式 LLM,由 Huawei
- Meta LLaMA AI 开发: 1.6 万亿参数的 Meta LLM 架构,由 Meta AI
- Chinchilla 开发: 由 LG AI Research
- LaMDA 开发的一个大型语言模型,可以生成多种语言的自然发音文本: 由 Google Research 开发的对话应用程序语言模型 PaLM: 用于上下文条件生成的预训练自动编码和自回归语言模型由 DeepMind 开发
,GPT 3 是第一个成功打破公众认为人工智能只是工程师专属的观念的模型。 Gpt 3 是第一个向世界展示科幻小说毕竟不完全是虚构的语言模型。
GPT-4 和 GPT-3 中的输入类型
在翻译方面,用户可以在聊天 GPT-3 或 GPT-4 界面(它们使用相同的用户界面)中输入文本,并在前面有翻译提示时获取翻译后的文本。 但是,用户仅限于纯文本。
任何格式都会丢失,唯一的保留方法是使用像 Bureau Works 这样的翻译管理系统,它可以本地解析文件,以便信息可以与 GPT 3 和 4 交换,而不会丢失格式或其他元文本信息。
OpenAI 模型的微调
翻译的输出质量主要取决于语言模型的复杂程度,这主要基于参数和训练数据的规模。 但它也基于提示的质量以及人员(人类用户)提供的其他上下文。
语言模型得到的指导越多,gpt 3 或 4 就越能为读者提供有意义的词汇。
例如,如果你在提示中描述你希望翻译听起来非正式且朗朗上口,gpt 3 将以相应的方式“对话”,并自由地以与你的提示产生共鸣的方式编写其响应。
这就是为什么在 Bureau Works,我们的机器学习工程师从零样本和少样本学习中汲取精华。在没有过多详细地了解机器学习类型的机制及其以对用户有意义的方式解释消息和响应的能力的情况下,在 Bureau Works,我们专注于从头开始构建响应。
AI 必须能够编写符合用户想法和目的的信息。
例如,如果用户希望翻译听起来自然,即使它在语义上偏离了所谓的原始英文文本,那么响应可能看起来很奇怪,但它可能非常适合互联网上的人在阅读 AI 生成的输出时应该如何反应。
Bureau Works 本身能够与 gpt 3 或 4 以及其他 ai 模型进行交互,这些模型将考虑:
- 存储在您的翻译记忆库中的过去翻译
- 术语
- 领域
- 格式/标记
通过这种微调,我们能够创建一个环境,使系统能够处理数据并在该交互的上下文中提供更符合预期的答案。
对 gpt 3 或 4 的微调消息将生成描述类似概念的单词,但转折使一切变得不同。 请看以下示例:
原始摘要:
Bureau Works 是一个基于云的翻译管理系统,将复杂的翻译和本地化管理转变为简单且可预测的活动。
现在有了 Apple Twist:
Bureau Works 是一个强大翻译管理系统,让您可以轻松自信地处理任何翻译和本地化项目。 它是基于云的,因此您可以随时随地访问它。
现在带有 Kurt Vonnegut 的转折:
Bureau Works 非常重视翻译和本地化。 我们认为你也应该这样做。 要将您的信息传达给全球受众并不容易。 但我们可以帮助您比以往任何时候都更好、更快地做到这一点。
现在有了 Gen Z Twist:
Bureau Works 很棒。 这是一个帮助您在线翻译和本地化您的内容的系统。 您可以将其用于任何内容:网站、应用程序、电子邮件、文档等。 您可以免费开始,也可以选择适合您氛围的计划。
正是通过这些回应,gpt 3 能够以许多不同的方式谈论同一件事情。 这就是写作的本质。 同一个概念可以用无数种不同的方式表达,每种方式都有能力唤起不同的人类情感,无论它们是否是由 AI 构思的。
GPT-4 对比 GPT-3 模型的能力
GPT4 是 GPT 3 的自然演变。 GPT 4 的参数大约是 GPT 3 的 570 倍 - 1750 亿对比。 100 万亿。 这样可以在比较不同的 AI 模型时实现更一致的对话并减少错误。 GPT 4 还可以分析视觉输入。 这两个模型都没有接受过翻译训练,但它们都可以逐字写出听起来非常自然的文本。
定义 GPT-4 与 GPT-3 conversation
Context 是指通知文本的所有信息,但不是文本本身。 在意义网络中,上下文是指支持整个网络的所有线程,而文本是网络的中心部分。
当谈到 AI 以及一般意义时,上下文会改变一切。 例如,如果我告诉 AI 上是下,下是上作为上下文,然后告诉 AI 我在七楼,想去八楼,AI 会向我解释我必须下去。
AI 会这么说,因为我已经为它提供了指导它如何处理文本的上下文。 这是一个极端的上下文示例,但在与像 gpt 3 这样的 AI 模型进行翻译对话时,我可以将上下文定义为应该使用或避免的某些词语、应该遵循的某些语气(例如正式或非正式),或者有关 gpt 3 应该考虑的文本总体目标的信息。
设置 API

当通过 Bureau Works 使用 gpt 3 或 4 时,无需担心设置 API。 Bureau Works 有一个可以访问 gpt 3 端点的本地 API 和一个专有框架,允许以最有效的方式与 gpt 3 或 4 交换此过程中的信息。
美妙的是,我们的 API 还利用了除了 gpt 3 之外的其他 AI 模型,例如 LaMDA 和 LLaMA。 我们的 API 使用机器学习模型的组合,以最大限度地提高 gpt 3 和 4 写作的相关性,而不管使用何种提示。

想使用 GPT-3 吗?
在 Bureau Works 中使用 gpt 3 或 4 非常简单。 我们的 Web 集成在我们的 Web 应用程序中作为默认设置启用。 本文仅探讨我们的 gpt 3 网络集成的基本概述和功能,但您可以在 support.bureauworks.com 查找更多信息,以防您对我们的网络支持库感兴趣
您可以注册免费试用,当然您可以在试用期结束前随时取消,并且不会被收费。
GPT-3 对比 GPT-4 – 关键 takeaways
As far as GPT 3 vs. GPT 4 应用于翻译时,我们没有注意到编写示例时的巨大偏差。 每个模型都能够产生相关的对话。
我们有一份 55 页的报告,其中包含 gpt 3 的示例,如果您感兴趣,可以在此处下载。我们正在编写一份新报告,将详细比较每个模型的性能。一旦该研究预览可用,如果您感兴趣,我们将通过我们的时事通讯通知您。 每个模型,无论是通过少量样本、零样本还是其他类型的机器学习方法训练的,都能够生成动态,这些动态有时会因其惊人的人性化特征而让互联网用户感到惊讶。
根据 OpenAI 的说法,GPT 4 在某些情况下的性能明显优于 GPT 3,但就写作而言,水平相对相似。 当我们发布比较每种模型的详细报告时,将会有更多内容。
想要使用 Jurassic-1,这是迄今为止发布给开发人员用于一般用途的最大和最复杂的语言模型吗?
根据 Bing 的说法,“侏罗纪-1”是由以色列的 AI21 Labs 开发的几个自回归自然语言处理(NLP)模型的名称1。 Jurassic-1 模型用途广泛,既能生成类似人类的文本,又能解决复杂的任务,如问答、文本分类等23。
Jurassic-1 模型有两种尺寸,其中 Jumbo 版本拥有 1780 亿个参数,是有史以来发布供开发人员23使用的最大和最复杂的语言模型。
GPT 4 是一个 AI 模型,其参数几乎是 Jurassic-1 JUMBO 的 3 倍。 侏罗纪 1 号曾经大于 gpt 3,但被 gpt 4 超越。 大于 gpt 3 并不意味着它一定能够产生更好的结果。
毕竟,正是训练有素的 gpt 3 模型让世界对 AI 模型的真实网络和现实世界应用大开眼界。 就集成而言,我们目前的状态和预测表明 Bureau Works 将与多个模型集成,以提取每个模型提供的最佳效果。
使用 GPT-4 的成本与 GPT-3
有关 Open AI API 成本的信息,请访问:https://openai.com/pricing
就 Bureau Works 而言,使用 GPT 3 与使用 GPT 3 没有区别。 GPT 4. 我们的API自然会从成本效益的角度通过最有效的模型路由内容。
本文没有详细介绍我们与 GPT-3 的集成如何工作,但可以在我们的支持库中找到:http://support.bureauworks.com
GPT-4 目前比 GPT-3 更昂贵,因为该模型使用了更多的计算能力来生成其响应。
GPT-3.5 Turbo 目前的成本为 0.002 美元 / 1K 代币,而 32k GPT 4 提示模型的成本为 0.06 美元 / 1K 代币 0.12 美元 / 1K 代币,大约是 30 倍。
但是,Bureau Works 翻译计划将 GPT 集成作为基本价格的一部分,起价为每位用户 9 美元,每位用户每月最多处理 200,000 个单词。
零次翻译
根据我们迄今为止的研究,零次翻译不会产生一致且可靠的结果。 尽管 gpt 3 作为预先训练的语言模型可能令人惊叹,但在没有额外上下文的情况下进行翻译会产生好坏参半的结果。
我们在高度训练的环境或由少量学习驱动的环境中查找更好的结果。
使用零样本翻译 gpt 3 或 4 都可能产生不一致的结果。 正如本文所示,它们都通过网络内容进行训练,并且有时会根据设计对相同的输入和提示产生不同的输出。
翻译就是利用和构建知识库,以促进品牌一致性、搜索引擎优化、可理解性和其他用户接受度的要求。
想要自己动手构建吗?
构建与 GPT 3 的集成相对简单。 API 文档齐全,端点性能良好。 围绕 API 架构的速率限制、文本大小和其他约束存在挑战。 但最重要的是,构建与 GPT 3 或 4 的集成是容易的部分。
在适当的上下文中,GPT 3 或 4 在理论上都能够自己创建集成。 具有挑战性的部分是,集成可以让您输入文本和输出文本,但在保持格式、维护术语一致性、引用过去翻译的材料作为参考、从用户输入中学习以及其他对大规模生成高质量翻译至关重要的场景方面,它会有明显的限制。 那么你能自己做吗?当然。
它是否有效且可扩展?可疑。 到目前为止,从GPT-3和4中获得的一个关键学习是,尽管它们非常强大,听起来像人类,但它们需要指导、结构和正确的元素才能提供一致的最佳性能。 这就是为什么我们建议您免费试用 Bureau Works 14 天,亲自体验在一个从头开始设计的环境中,与 GPT 深度集成所能带来的魔力,以最少的人工干预大规模生成高质量的翻译。
