我希望它是《爱丽丝梦游仙境》中的兔子洞
通往全新世界的门户。 今年 2 月,我休息了一个周末,去了乌拉圭的蒙得维的亚。 相当愉快的周末,我可以补充一点。 当然,我仍然渴望真正远离压力,并在选定的梦幻地点度过一个合适的假期。 因此,我认为那个周末只是一个小小的开胃菜。 过去几年对我来说在健康方面很艰难,因此,我未能跟上全球行业进步的步伐。 因此,AI 的光速崛起让我完全感到惊讶。 我本该知道得更好。 但我却在其他方面忙碌,已经切除了我身体的两整部分。 无需任何详细信息。
我就在那里。 从蒙得维的亚可爱的卡拉斯科地区和朋友们一起回来,那里有美丽的海滩、棕榈树和英式乡村别墅……就在那一刻,我感到自己被推下了一座可怕而无尽的悬崖,掉入了一个被冰冷的水淹没的深渊。 无警告。 没有提前通知。 无。 身处世界的这一端,由于离开办公桌太久,人们可能会预料到这种信息的缺乏。
这就是我 20 多年的经验和对翻译工作的热爱如何被 AI 驱动的潮流所吞噬。 就那样。 我度过了一段可怕的 15 天,我经历了从愤怒、绝望、对整个新范式及其周围的一切的纯粹仇恨,到希望的曙光,然后是彻底的沉默。 我开始从自己的职业灰烬中崛起。 我已经 49 岁了,我仍然需要支付账单,分担对家人的支持,在某种程度上享受生活,如果我们有点疯狂,也许甚至可以时不时地存下几块钱。
不可能,何塞。 甚至不是 AI,但 AI 铁杆爱好者一直告诉我它已经结束了。 他们一直告诉我,事情应该早点结束!胆子真大。 他们仍然这样做。 大多数时候,我仍然带着新的想法起床。 我开始与同事讨论这种情况。
.jpeg)
我们查找并甚至制作我们自己的信标
然后我开始阅读所有我能查找的、听起来有点智能的关于人工智能、其用途、应用、主要公司、相关角色等的资料。 虽然我已经准备好并渴望学习新事物,但我必须承认,我不会走到重新开始大学生涯的地步。 这既不是我的目标,也不是我现阶段的优先事项。 尽管如此,我仍然愿意为我的工具箱添加新的技能。 一如既往。
我想,如果我不得不放下我作为科学文学翻译的角色,也许我可以在这种新事物的安排中查找另一种与文字打交道的方式。 我可以适应,我可以做很多事情,我甚至可以重新开始,但我不会 100% 放弃我喜欢做的事情。 我可以弯曲,但我不会折断。 就像竹子一样。 多年来,我一直是一个心甘情愿的受害者,但仍然是一个受害者,为了适应社会规范而强迫自己成为别人。 不想再过那样的日子。 在任何层面上都没有。
适合每个人的不同旅程 - 我的田野笔记
所以,我去了。 首先,我更新了我的简历,使其能够反映我现在多方面的专业形象。 我设法检查了当前适合我的日程安排、目标和预算的专业培训提案。 我报名参加了被选中的人。 当然,我正在那些未知的水域中航行。 但我很享受它的每一分钟。
我分析了哪些是目前最相关的AI公司。 当然,即使这种情况也会很快改变。 我们谈论的是一个不断变动的企业。当今人工智能行业的主要参与者是带有 ChatGPT 的 OpenAI、带有 Gemini 的 Google、带有 Claude 的 Anthropic、Nvidia 和带有 Meta 的 Llama。 我相信你可能已经知道这一点,但这里的想法是和我一起去 “AI AI Land” 旅行。
基本术语
什么是 AI 数据注释器 - AI 数据注释器充当重要的桥梁,将原始、非结构化数据转换为机器可读的信息,这是功能性 AI 模型的命脉。
文本注释标记特征、标签语义、构图、上下文、目的、情感和其他数据标签,帮助机器识别人类意图或情感,从而准确理解语言。
什么是第三方公司 - 第三方公司被分雇来完成主公司的任务。 在这种情况下,许多以前的翻译机构甚至远程工作公司被转包来招聘和入职员工,以履行与AI相关的不同角色。
什么是 LLM - LLM 是用于建模和处理人类语言的 AI 系统。 它们被称为“大型”,因为这些类型的模型通常由数亿甚至数十亿个定义模型行为的参数组成,这些参数是使用大量文本数据语料库进行预训练的。
High Rollers All The Way
AI 公司自己不招募数据注释员。 他们将这项任务外包给专门从事数据收集、注释和其他领域的公司。 显然,他们每时每刻都在忙于开发新的东西。
通过他们自己的内部信息证实,我可以提到这些是目前 AI 公司与其资源供应商(也就是第三方公司)之间的联系。
我背后的公司 OpenAI (ChatGPT)聘请人类注释员来训练和微调模型。 这些标注者通常通过内部员工和第三方承包公司的组合来雇用。 他们的日常工作包括标记数据、审查输出和提供反馈,以提高模型的准确性、连贯性和安全性。 他们的主要公司是 Scale AI。
Google 与第三方公司合作,聘请注释员来训练他们的 AI 模型,包括 Gemini。 参与此过程的已知公司之一是 Appen。 Appen 提供数据注释和其他 AI 训练服务,通过提供高质量的标记数据来帮助提高 Gemini 等 AI 模型的性能和准确性。
2024 年,Scale AI 公司负责为 Anthropic 招聘 AI 注释员。 Scale AI 专门提供对训练和验证 AI 模型至关重要的数据标记和注释服务。
今年,为 Nvidia 招聘 AI 注释员的公司包括 TELUS International 和 Appen。 TELUS International 提供数据标注、转录和内容审核,这对于训练由 Nvidia 和其他科技公司使用的 AI 模型至关重要。 Appen 是数据标注服务领域的知名领导者,提供机器学习和 AI 应用所必需的高质量训练数据。
Meta 结合使用内部资源和外部合作伙伴关系来注释和微调其模型。
.jpeg)
用真正的墨水蘸我的笔
在连接所有这些点并查看他们的网站时,我联系了上述数据标注公司。 当然,并非所有人都拥有相同的 HH。 RR.或任何其他政策。
正如预期的那样,自从这场革命在几年前真正开始以来,大多数数据标注公司已经拥有成千上万的标注团队。 显然,我不仅仅是这个游戏的大器晚成者。
尽管如此,出于好奇和锻炼的目的,我确实联系了所有这些为最强大AI巨头提供服务的公司。 正如我想象的那样,他们甚至都懒得回复自动拒绝的消息。 我确实理解。 真的。
正如您可能已经猜到的那样,同一行业中还有更多公司可能不太受欢迎,或者是从其他行业转型而来的公司,开始为 AI 公司提供服务。 在第一组中,我找到了Outlier。 在第二个版本中,来自本地化/翻译业务,我们有 e2f。
当然,在很多情况下,这类公司不会透露他们为之工作的 AI 客户。 作为他们保密政策和彼此协议的一部分,这是完全可以理解的。 这就是为什么我既不能假设也不能推断他们为哪家 AI 公司工作的原因。
闪闪发光……
与所有其他行业一样,有时公司从一个行业开始他们的旅程,然后由于无数的原因而转变为另一个市场细分。 第一个是生存,第二个是他们进步的意志力。
在向两家公司发送了我的简历并实际上过去曾在 e2f 担任翻译后,我收到了他们两家的电子邮件,以便继续进行入职流程。
我必须履行并签署 NDA 协议,在他们的合作者门户网站中填写我的个人资料,参加多项测试,通过所有测试,然后参加许多培训课程。 事实上,在其中一家公司中,有无数的培训课程。 原因是他们要求注释者为每个新项目完成培训课程。 当然,我过去一直为许多翻译客户参加额外的培训课程。 这里的问题是培训课程太多、太漫长。 当您开始为某个项目执行任务时,其中许多任务的报酬不到全额小时费率的一半,这对于初学者来说是相当低的。 主要原因是公司认为您一直在接受培训。 明白吗?
注释中的实际不同任务在某些情况下可能是重复的,在其他情况下可能是单调的,而在其他情况下则相当复杂。 有一些特定的任务更吸引我,例如,为 AI 模型编写具有多个约束条件的富有想象力的提示,然后审查 AI 的响应,最后提供反馈。
众所周知,人类在此过程中可能会犯下不同类型的错误。 这里的问题是标注公司几乎没有出错的余地。 每当你犯错时,即使是一个小错误,你可能会被移出标注团队。
这种工作的另一个缺点是,由于 AI 世界中的一切都在以压倒性的速度不断变化,因此您需要在一周中的每一天都参加反馈会议。 即使在周末。
此类服务有特定要求。 我上面提到的主要招聘公司,例如 Appen,确实有一个 Careers 部分。 问题在于,标注过程需要他们的人类团队位于特定区域,即使他们是远程工作。 这是由于文化原因、背景、常识等。
房间里的极其便宜的大象
最后,我们来到了任何服务行业的一个敏感话题:费率。 老实说,在专门研究了 Data Annotation 前景的这个市场之后,大多数公司都提供相同的费率。 他们可能会根据或多或少的具体主题来划分他们所寻找的注释者的个人资料。 那些由于背景而有资格注释非常具体的知识领域的人可能会获得更好的报酬。否则,从我个人的角度来看,他们为进入注释领域的新人提供的费率低得离谱。 几乎不存在。 这些任务确实需要大量关注细节、阅读理解和大量额外时间,以满足培训和反馈会议的要求。
最重要的是,大多数时候,这些公司在组织方面也不是最好的。 您被扔进了一个 Slack 频道,该频道以数百条没有人回复的神秘消息侵入您的收件箱。 这会占用您更多的时间,而且根本没有用。 恰恰相反。
为了查看其他观点,我联系了两位同事,了解他们在我曾短暂工作过的数据标注公司中的经验。 他们都同意我的看法,认为缺乏组织,与标注者团队的沟通不畅,测试过多,以及耗时过长且影响截止日期的反馈会议。 当然,我们都认为费率太低,但其中一位认为,如果你有时间投入到这些任务中,那么付出努力是值得的。
要点
经过所有这些阅读、研究、过程、反复试验和写作,我找到了我最初问题的答案。 专业翻译是否有可能且富有成效地重新调整她/他的职业路线,并开始数据标注的新道路?
这一切都取决于每个翻译。 就这么清楚。 这里没有绝对的东西,就像生活中的大多数事情一样。 我现在知道 Data Annotation 不是我将要遵循的新道路。 但我真的很享受查找这个过程。
尽管如此,此选项适用于具有不同个人资料的翻译人员。 新毕业的翻译人员,年轻的专业译员几乎没有或没有需要履行的经济/家庭责任,或者作为补充收入,以防他们已经有一个更方便的收入来源。
作为数据注释器,该任务最重要的特点是有机会为 AI 模型响应的质量做出一点贡献。 但对于我的特定个人资料来说,成本太高,薪水太低。 无论如何,我非常重视培训经验,以及我渴望从现在开始吸收的所有知识。