모범 사례

AI 어노테이션을 향한 번역가의 길

완전히 새로운 세계로 들어가는 포털. 지난 2월에 저는 모든 일과 사람들로부터 벗어나 주말을 보내기 위해 우루과이의 몬테비데오에 갔습니다. 꽤 멋진 주말이라고 덧붙일 수 있습니다. 물론, 나는 여전히 스트레스에서 벗어나 선택한 꿈같은 장소에서 제대로 된 휴가를 보내고 싶어합니다. 그래서 나는 그 주말을 작은 애피타이저로 생각했다.
Romina C. Cinquemani
11 min
목차

이상한 나라의 앨리스에 나오는 토끼굴이었으면 좋았을 텐데

완전히 새로운 세계로 들어가는 포털. 지난 2월에 저는 모든 일과 사람들로부터 벗어나 주말을 보내기 위해 우루과이의 몬테비데오에 갔습니다. 꽤 멋진 주말이라고 덧붙일 수 있습니다. 물론, 나는 여전히 스트레스에서 벗어나 선택한 꿈같은 장소에서 제대로 된 휴가를 보내고 싶어합니다. 그래서 나는 그 주말을 작은 애피타이저로 생각했다. 지난 몇 년 동안 건강 문제로 힘든 시간을 보냈고, 그 결과 전 세계 산업 발전의 선두에 서지 못했습니다. 그래서 AI의 빛의 속도 상승이 나를 완전히 놀라게 한 이유다. 내가 더 잘 알았어야 했는데. 하지만 나는 내 몸의 두 부분을 통째로 제거하느라 다른 일에 몰두하고 있었다. 세부 정보가 필요하지 않습니다.

그리고 나는 거기에 있었다. 몬테비데오의 아름다운 카라스코 지역에서 친구들과 함께 돌아왔습니다. 아름다운 해변, 야자수, 영국식 시골집... 바로 그 순간, 나는 무섭고 끝없는 절벽 아래로 얼어붙은 물로 가득 찬 심연으로 밀려난 것 같았습니다. 경고가 없습니다. 미리 알림이 없습니다. 아무것도. 세상의 이쪽에 있기 때문에 너무 오랫동안 내 책상에서 떨어져 있어서 이러한 정보 부족을 예상할 수 있습니다.

이것이 바로 20년 이상의 경험과 번역가로서의 제 일에 대한 애정이 AI에 의해 물거품이 된 방법입니다. 그냥 그렇게. 나는 분노에서 절망, 새로운 패러다임과 그 주변의 모든 것에 대한 순수한 증오, 희망의 섬광, 그리고 완전하고 완전한 침묵으로 변하는 끔찍한 15일의 시간을 보냈다. 나는 내 직업의 잿더미를 딛고 일어서기 시작했다. 나는 49세이고, 여전히 청구서를 내야 하고, 가족을 부양해야 하고, 인생을 어느 정도 즐겨야 하고, 우리가 조금 미쳐버린다면, 어쩌면 때때로 몇 달러를 저축해야 할 수도 있습니다.

말도 안 돼, 호세. AI조차도 아니었지만 AI 하드코어 매니아들은 끝났다고 계속 말했습니다. 진작에 끝났어야 했다고 계속 말하더라고요! 신경. 그들은 여전히 그렇게 한다. 나는 여전히 대부분의 날에 새로운 아이디어를 떠올렸다. 그리고 저는 이 상황에 대해 동료들과 이야기하기 시작했습니다.

우리는 우리 자신의 비콘을 찾고 만들기도 합니다

그런 다음 나는 AI, 그 용도, 응용 프로그램, 주요 회사, 관련 역할 등에 대해 반쯤 지능적으로 들리는 모든 것을 읽기 시작했습니다. 저는 새로운 것을 배울 준비가 되어 있고 열망이 있지만, 솔직히 말해서 새로운 대학 생활을 시작할 정도로 멀리 가지는 않을 것입니다. 그것은 이 단계에서 저의 목표도 아니고 우선순위도 아닙니다. 그럼에도 불구하고 저는 새로운 기술을 제 도구 벨트에 추가하는 데 열려 있습니다. 나는 항상 그랬다.

나는 과학-문학 번역가로서의 역할을 내려놓아야 한다면, 어쩌면 이 새로운 사물의 도식에서 단어를 다루는 다른 방법을 찾을 수 있을지도 모른다고 생각했다. 나는 적응할 수 있고, 많은 일을 할 수 있으며, 심지어 다시 시작할 수도 있지만, 내가 좋아하는 일을 100% 포기하지는 않을 것이다. 구부릴 수는 있지만 부러지지는 않아요. 마치 대나무처럼. 오랜 세월 동안 나는 자발적인 희생자였지만, 그럼에도 불구하고 사회적 규범에 맞추기 위해 나 자신을 다른 사람이 되라고 강요하는 희생자였다. 그런 날이 또 오지 않을 것입니다. 어떤 수준에서도 그렇지 않습니다.

모두를 위한 다른 여정 - 나의 필드 노트

그래서, 나는 거기에 갔다. 첫째, 이제 다면적인 직업적 프로필을 반영할 수 있도록 이력서를 업데이트했습니다. 나는 내 일정, 목표, 그리고 예산에 맞는 전문 교육에 대한 현재 제안을 확인할 수 있었습니다. 그리고 나는 선택된 자들에 등록했다. 물론 나는 그 미지의 바다를 항해하고 있다. 하지만 저는 그 모든 순간을 사랑하고 있습니다.

현재 가장 관련성이 높은 AI 기업을 분석했습니다. 물론 이것조차도 정말 빠르게 바뀔 수 있습니다. 우리는 끊임없이 움직이는 사업에 대해 이야기하고 있습니다.

오늘날 AI 산업의 주요 행위자는 ChatGPT의 OpenAI, Gemini의 Google, Claude의 Anthropic, Nvidia, Meta의 Llama입니다. 아마 여러분도 이미 알고 계시겠지만, 제가 "AI AI Land"로 떠난 여행에 저와 함께 가자는 생각입니다.

내 의도를 이해하기 위한 기본 용어

AI 데이터 주석자란 무엇인가 - AI 데이터 어노테이터(AI Data Annotator)는 비정형 원시 데이터를 기능적 AI 모델의 생명선인 기계가 읽을 수 있는 정보로 변환하는 중요한 다리 역할을 합니다.

텍스트 주석은 기능, 의미, 구성, 컨텍스트, 목적, 감정 및 기타 데이터 태그를 표시하여 기계가 인간의 의도나 감정을 인식하여 정확한 언어 이해를 할 수 있도록 도와줍니다.

What are third-party companies - 제3자 회사란 무엇인가 - 제3자 회사는 주요 회사의 작업을 수행하기 위해 하위 고용됩니다. 이 시나리오에서는 많은 이전 번역 에이전시나 원격 근무 회사가 AI와 관련된 다양한 역할을 수행하기 위해 직원을 모집하고 온보딩하기 위해 하청을 받습니다.

What are LLMs - LLM은 인간의 언어를 모델링하고 처리하는 데 사용되는 AI 시스템입니다. 이러한 유형의 모델은 일반적으로 모델의 동작을 정의하는 수억 또는 수십억 개의 매개변수로 구성되며, 이는 방대한 텍스트 데이터 코퍼스를 사용하여 사전 훈련되기 때문에 "대형"이라고 합니다.

하이 롤러스 올 더 웨이

AI 기업은 데이터 어노테이터를 직접 채용하지 않습니다. 그들은 이 작업을 데이터 수집, 주석 및 기타 영역을 전문으로 하는 회사에 아웃소싱합니다. 분명히, 그들은 매일 매 순간 새로운 것을 개발하느라 더 바쁘다.

그들의 내부 정보에 의해 확인된 바에 따르면, 이것이 AI 회사와 자원 공급자(일명 제3자 회사) 간의 현재 연결이라고 언급할 수 있습니다.

OpenAI, 제 뒤에 있는 회사 (ChatGPT),는 모델을 훈련하고 미세 조정하기 위해 인간 주석가를 고용합니다. 이러한 어노테이터는 일반적으로 사내 직원과 제3자 계약 회사의 조합을 통해 고용됩니다. 그들의 일상 업무에는 데이터 레이블 지정, 출력 검토, 모델의 정확성, 일관성 및 안전성을 개선하기 위한 피드백 제공이 포함됩니다. 주요 회사는 Scale AI입니다.

Google은(는) Gemini를 포함하여 AI 모델을 훈련시킬 주석가를 고용하기 위해 서드파티 회사와 협력합니다. 이 프로세스에 관련된 알려진 회사 중 하나는 Appen입니다. Appen은 데이터 주석 및 기타 AI 교육 서비스를 제공하며, 이는 고품질 레이블이 지정된 데이터를 제공하여 Gemini과 같은 AI 모델의 성능과 정확도를 개선하는 데 도움이 됩니다.

2024년에 Scale AI 회사는 Anthropic에 대한 AI 주석자를 고용할 책임이 있습니다. Scale AI은 AI 모델을 훈련하고 검증하는 데 중요한 데이터 라벨링 및 주석 서비스를 제공하는 데 특화되어 있습니다.

올해 Nvidia에 대한 AI 어노테이터를 고용하는 기업은 TELUS InternationalAppen입니다. TELUS InternationalNvidia 및 기타 기술 회사에서 사용하는 AI 모델을 훈련하는 데 중요한 데이터 주석, 전사 및 콘텐츠 조정을 제공합니다. Appen은 데이터 주석 서비스의 잘 알려진 리더로, 기계 학습 및 AI 애플리케이션에 필수적인 고품질 학습 데이터를 제공합니다.

Meta는 모델의 주석 및 미세 조정을 위해 내부 리소스와 외부 파트너십의 조합을 사용합니다.

실제 잉크에 펜을 담그기

이 모든 점을 연결하고 웹사이트를 확인하면서 위에서 언급한 데이터 주석 회사에 연락했습니다. 물론 그들 모두가 동일한 HH를 공유하는 것은 아닙니다. RR입니다. 또는 그 문제에 대한 다른 정책들.

예상대로, 이 모든 혁명이 실제로 몇 년 전에 시작된 이래로 대부분의 데이터 주석 회사는 이미 수천 명의 주석 팀을 보유하고 있습니다. 분명히, 나는 이 게임에 늦게 발을 들인 사람 그 이상이다.

그럼에도 불구하고, 호기심과 연습을 위해, 나는 가장 강력한 AI 거대 기업들에게 서비스를 제공하는 이 모든 회사들에 연락을 취했다. 내가 상상했던 것처럼, 그들 중 누구도 자동 거절 메시지로 답장하는 것조차 귀찮아하지 않았습니다. 그리고 저는 이해합니다. 정말로.

짐작하셨겠지만, 같은 사업에 종사하는 회사들이 훨씬 더 많은데, 아마도 인기가 덜하거나 다른 산업에서 AI 기업에 서비스를 제공하기 위해 변형된 회사들이 있을 것입니다. 첫 번째 그룹에서 Outlier을 찾았습니다. 두 번째는 로컬라이제이션/번역 비즈니스에서 온 e2f입니다.

물론 많은 경우에 이러한 종류의 회사는 작업 중인 AI 클라이언트를 공개하지 않습니다. 그리고 그것은 기밀 유지 정책 및 서로에 대한 계약의 일부로 완전히 이해할 수 있습니다. 이것이 내가 그들이 어떤 AI 회사에서 일하는지 가정하거나 추론할 수 없는 이유입니다.

반짝이는 모든 것...

다른 모든 인간 무역과 마찬가지로 기업은 수많은 이유로 인해 한 산업 내에서 여정을 시작한 다음 다른 시장 부문으로 변형되는 경우가 있습니다. 첫 번째는 생존이고, 두 번째는 진보하려는 의지의 힘입니다.

두 회사에 이력서를 보내고 실제로 과거에 e2f에서 번역가로 일한 적이 있기 때문에 온보딩 프로세스를 진행하기 위해 두 회사 모두로부터 이메일을 받았습니다.

NDA 계약을 이행하고 서명한 후, 협력자 포털 내 웹사이트에서 프로필을 작성하고, 여러 테스트를 치르고 모두 통과한 다음, 수많은 교육 세션에 참석해야 했습니다. 사실, 이러한 회사 중 하나에는 수많은 교육 세션이 있습니다. 그 이유는 어노테이터가 모든 새로운 프로젝트에 대한 교육 과정을 이수해야 하기 때문입니다. 물론, 저는 과거에 많은 번역 고객을 위해 항상 추가 교육 세션을 수강했습니다. 여기서 문제는 교육 세션이 너무 많고 너무 길다는 것입니다. 프로젝트 작업을 시작하면 많은 작업이 전체 시간당 요금의 절반 이하로만 지불되는데, 이는 초보자에게는 다소 낮은 편입니다. 주된 이유는 회사가 귀하가 항상 교육 중이라고 간주하기 때문입니다. 이해했어?

주석 내의 실제 다양한 작업은 경우에 따라 반복적일 수 있고, 다른 경우에는 단조로울 수 있으며, 또 다른 경우에는 매우 복잡할 수 있습니다. 몇 가지 특정 작업이 저에게 좀 더 매력적으로 다가왔습니다. 예를 들어, 여러 제약 조건이 있는 AI 모델에 대한 상상력 넘치는 프롬프트를 작성하고, AI 응답을 검토한 후, 마지막으로 피드백을 제공하는 작업입니다.

우리 모두 알다시피, 인간은 그 과정에서 다양한 종류의 실수를 저지를 수 있습니다. 여기서 문제는 주석 회사들이 오류의 여지가 거의 없다는 것입니다. 그리고 아주 작은 실수를 할 때마다 주석 팀에서 제외될 수 있습니다.

이러한 종류의 작업의 또 다른 부정적인 측면은 AI 세계의 모든 것이 압도적인 속도로 끊임없이 움직이기 때문에 매일 피드백 세션에 참석해야 한다는 것입니다. 주말에도.

이러한 종류의 서비스에는 특정 요구 사항이 적용됩니다. 위에서 언급한 주요 채용 회사인 Appen과 같은 회사에는 채용 섹션이 있습니다. 문제는 주석 프로세스에서는 인간 팀이 원격으로 작업하더라도 특정 지역 내에 있어야 한다는 것입니다. 이것은 문화적 이유, 배경, 일반 지식 등에 기인합니다.

방 안의 매우 싸구려 코끼리

마지막으로, 모든 서비스 산업에서 민감한 주제인 요금에 대해 말씀드리겠습니다. 솔직히 말하자면, 이 시장을 데이터 주석 전망에 대해서만 조사한 결과, 대부분의 회사가 동일한 요금을 적용하고 있습니다. 그들은 그들이 찾는 주석자의 프로필을 다소 구체적인 주제와 관련하여 나눌 수 있습니다. 그들의 배경으로 인해 매우 구체적인 지식 분야에 주석을 달 자격이 있는 사람들은 더 나은 요금을 받을 수 있습니다.

그렇지 않으면, 내 개인적인 견해로는, 그들이 주석 분야에 새로 온 사람들에게 제공하는 요금이 엄청나게 낮습니다. 거의 존재하지 않습니다. 그리고 이러한 작업에는 세부 사항에 대한 많은 주의, 독해력, 교육 및 피드백 세션 요구 사항을 충족하기 위해 많은 추가 시간이 필요합니다.

게다가 대부분의 경우 이러한 회사들은 조직 측면에서도 최고가 아닙니다. 당신은 아무도 응답하지 않는 수백 개의 암호 같은 메시지로 받은 편지함을 침범하는 Slack 채널에 던져집니다. 이것은 훨씬 더 많은 시간을 소비하고 전혀 유용하지 않습니다. 오히려 그 반대입니다.

다른 관점을 확인하기 위해, 내가 잠시 일했던 데이터 어노테이션 회사에 대한 자신의 경험을 묻기 위해 두 명의 동료에게 연락했다. 둘 다 정리 부족, 어노테이터 팀과의 잘못된 커뮤니케이션, 너무 많은 테스트, 그리고 너무 많은 시간을 소비하고 마감일을 위태롭게 하는 피드백 미팅에 대해 저와 동의했습니다. 물론 우리 모두는 요금이 너무 낮다고 생각하지만 그 중 한 사람은 이러한 작업에 할애할 시간이 있다면 노력할 가치가 있다고 생각합니다.

주요 내용

이 모든 읽기, 연구, 과정, 시행 착오, 글쓰기 끝에 나는 원래 질문에 대한 답을 찾았습니다. 전문 번역가가 자신의 경력 방향을 재조정하여 데이터 주석 작업에서 새로운 길을 시작하는 것이 가능하고 생산적일까요?

그것은 모두 각 번역가에 달려 있습니다. 그만큼 명확합니다. 인생의 대부분의 일들이 그렇듯이 여기에는 절대적인 것이 없습니다. 이제 데이터 주석이 내가 따를 새로운 길이 아니라는 것을 알고 있습니다. 그러나 나는 이것을 알아내는 과정을 정말로 즐겼다.

그럼에도 불구하고 이 옵션은 개인 프로필이 다른 번역가에게 적합합니다. 갓 졸업한 번역가, 재정적/가족적 책임이 거의 없거나 전혀 없는 젊은 전문 언어학자, 또는 이미 더 편리한 수입원이 있는 경우 추가 수입으로.

데이터 어노테이터로서 이 작업의 가장 중요한 특징은 AI 모델 응답의 품질에 조금이나마 기여할 수 있는 기회입니다. 그러나 내 특정 프로필의 경우 비용이 너무 높고 급여가 너무 낮습니다. 어쨌든 저는 교육 경험과 앞으로 통합하고 싶은 모든 지식을 매우 소중하게 생각합니다.

우리의 번역 관리 시스템으로 Glocalization 의 힘을 활용하세요.

우리의 번역 관리 시스템으로

의 힘을 활용하세요.

시작하기
Romina C. Cinquemani
흠잡을 데 없이 두 배 빠른 번역
시작하기
온라인 이벤트!
웨비나

14일 간 무료로 Bureau Works 이용

ChatGPT 통합
지금 시작하기
첫 14일은 무료
기본 지원도 무료 제공