Meilleures Pratiques

Le chemin du traducteur vers l’annotation par IA

Un portail vers un tout nouveau monde. En février dernier, j’ai pris un week-end de congé de tout et de tout le monde, et je suis allé à Montevideo, en Uruguay. Plutôt un week-end charmant, je pourrais ajouter. Bien sûr, j’ai toujours envie de passer du temps loin du stress et de prendre de vraies vacances dans un endroit de rêve choisi. Par conséquent, j’ai considéré ce week-end comme un petit amuse-bouche.
Romina C. Cinquemani
11 min
Table des matières

J’aurais aimé que ce soit un terrier de lapin d’Alice au pays des merveilles

Un portail vers un tout nouveau monde. En février dernier, j’ai pris un week-end de congé de tout et de tout le monde, et je suis allé à Montevideo, en Uruguay. Plutôt un week-end charmant, je pourrais ajouter. Bien sûr, j’ai toujours envie de passer du temps loin du stress et de prendre de vraies vacances dans un endroit de rêve choisi. Par conséquent, j’ai considéré ce week-end comme un petit amuse-bouche. Les deux dernières années ont été difficiles pour moi sur le plan de la santé et, par conséquent, je n’ai pas réussi à suivre les avancées mondiales de l’industrie. D’où la raison pour laquelle l’ascension fulgurante de l’IA m’a complètement pris par surprise. J'aurais dû mieux savoir. Mais j’étais autrement occupé, ayant enlevé deux parties entières de mon corps. Aucun détail n’est requis.

Et là, j'étais. De retour de la charmante région de Carrasco à Montevideo avec des amis, de belles plages, des palmiers et des maisons de campagne de style anglais... C’était le moment précis où je me suis senti poussé en bas d’une falaise effrayante et sans fin dans un abîme inondé d’eaux gelées. Pas d’avertissements. Pas de préavis. Rien. Étant de ce côté-ci du monde, on pourrait s’attendre à ce manque d’informations en raison de mon absence prolongée de mon bureau.

Et c’est ainsi que mes plus de 20 ans d’expérience et mon amour pour mon travail de traducteur ont été mis à l’eau par l’IA. Tout comme ça. J'ai eu une période terrible de 15 jours où je suis passé de la colère au désespoir, à la haine pure et simple pour le tout nouveau paradigme et tout ce qui l'entourait, des éclairs d'espoir, et ensuite, un silence total et complet. J'ai commencé à renaître de mes propres cendres professionnelles. J’ai 49 ans, et j’ai encore besoin de payer mes factures, de partager le soutien de ma famille, de profiter un peu de la vie et, si nous devenons un peu fous, peut-être même d’économiser quelques euros de temps en temps.

Pas moyen, José. Pas même l’IA, mais les passionnés d’IA n’arrêtaient pas de me dire que c’était fini. Ils n'arrêtaient pas de me dire que ça aurait dû se terminer plus tôt ! Le nerf. Ils le font encore. Je me levais encore avec de nouvelles idées la plupart des jours. Et j’ai commencé à parler de cette situation à des collègues.

Nous trouvons et fabriquons même nos propres balises

Puis j’ai commencé à lire tout ce que je pouvais trouver, qui semblait à moitié intelligent, sur l’IA, ses utilisations, ses applications, les principales entreprises, les rôles pertinents, etc. Bien que je sois prêt et désireux d'apprendre de nouvelles choses, je dois avouer que je n'irais pas jusqu'à entreprendre une nouvelle carrière universitaire. Ce n’est ni mon objectif ni une priorité pour moi à ce stade. Néanmoins, je reste ouvert à l’idée d’ajouter de nouvelles compétences à ma ceinture d’outils. Comme j'ai toujours été.

Je me suis dit que, si je devais mettre de côté mon rôle de traducteur scientifique-littéraire, je pourrais peut-être trouver une autre façon de travailler avec les mots dans ce nouvel ordre des choses. Je peux m’adapter, je peux faire beaucoup de choses, je peux même recommencer, mais je ne renoncerai pas à 100% des choses que j’aime faire. Je peux fléchir, mais je ne vais pas casser. Tout comme le bambou. Pendant de nombreuses années, j’ai été une victime consentante, mais une victime néanmoins, de me forcer à être quelqu’un d’autre afin de correspondre aux normes sociétales. Pas un autre jour de ça. Pas à n’importe quel niveau.

Un voyage différent pour chacun - Mes notes de terrain

Alors, j’y suis allé. Tout d’abord, j’ai mis à jour mon CV afin qu’il reflète mon profil professionnel désormais multiforme. J’ai réussi à vérifier la proposition actuelle de formation spécialisée qui correspondrait à mon emploi du temps, à mes objectifs et à mon budget. Et je me suis inscrit parmi les élus. Je navigue, bien sûr, dans ces eaux inexplorées. Mais j'adore chaque minute.

J’ai analysé quelles étaient les entreprises d’IA les plus pertinentes à l’heure actuelle. Bien sûr, même cela peut changer très rapidement. Nous parlons d'une entreprise en mouvement constant.

Les principaux acteurs de l’industrie de l’IA d’aujourd’hui sont OpenAI avec ChatGPT, Google avec Gemini, Anthropic avec Claude, Nvidia et Llama avec Meta. Je suis sûr que vous le savez probablement déjà, mais l’idée ici est de venir avec moi dans le voyage que j’ai fait à « AI AI Land ».

Terminologie de base pour comprendre mon point de vue

Qu’est-ce qu’un annotateur de données IA - Les annotateurs de données IA servent de pont essentiel, transformant les données brutes et non structurées en informations lisibles par machine, qui sont l’élément vital des modèles d’IA fonctionnels.

L'annotation de texte marque les caractéristiques, la sémantique des étiquettes, la composition, le contexte, le but, l'émotion et d'autres balises de données, aidant les machines à reconnaître les intentions ou les émotions humaines pour une compréhension précise du langage.

Que sont les sociétés tierces - Les entreprises tierces sont sous-embauchées pour accomplir une tâche pour l’entreprise principale. Dans ce scénario, de nombreuses anciennes agences de traduction ou même des entreprises de travail à distance sont sous-embauchées pour recruter et intégrer du personnel afin de remplir différents rôles liés à l'IA.

Que sont les LLM - Les LLM sont des systèmes d’IA utilisés pour modéliser et traiter le langage humain. Ils sont appelés « grands » parce que ces types de modèles sont normalement constitués de centaines de millions, voire de milliards de paramètres qui définissent le comportement du modèle, et qui sont pré-entraînés à l’aide d’un corpus massif de données textuelles.

High Rollers jusqu’au bout

Les entreprises d’IA ne recrutent pas elles-mêmes des annotateurs de données. Ils sous-traitent cette tâche à des entreprises spécialisées dans la collecte de données, l’annotation et d’autres domaines. De toute évidence, ils sont plus occupés à développer de nouvelles choses à chaque seconde de chaque jour.

Confirmé par leurs propres informations internes, je peux mentionner qu'il s'agit des liens actuels entre les entreprises d'IA et leurs fournisseurs de ressources (c'est-à-dire les entreprises tierces).

OpenAI, la société derrière moi (ChatGPT), embauche des annotateurs humains pour former et affiner le modèle. Ces annotateurs sont généralement employés par une combinaison de personnel interne et d'entreprises contractantes tierces. Leur travail quotidien consiste à étiqueter les données, à examiner les résultats et à fournir des commentaires pour améliorer la précision, la cohérence et la sécurité du modèle. Leur entreprise principale est Scale AI.

Google collabore avec des entreprises tierces pour embaucher des annotateurs afin d’entraîner leurs modèles d’IA, y compris Gemini. L’une des entreprises connues impliquées dans ce processus est Appen. Appen fournit des annotations de données et d’autres services d’entraînement d’IA, qui contribuent à améliorer les performances et la précision des modèles d’IA tels que Gemini en fournissant des données étiquetées de haute qualité.

En 2024, la société Scale AI est chargée d’embaucher des annotateurs IA pour Anthropic. Scale AI est spécialisée dans la fourniture de services d’étiquetage et d’annotation de données qui sont essentiels pour l’entraînement et la validation des modèles d’IA.

Cette année, les entreprises qui embauchent des annotateurs IA pour Nvidia comprennent TELUS International et Appen. TELUS International propose l’annotation de données, la transcription et la modération de contenu, ce qui est essentiel pour l’entraînement des modèles d’IA utilisés par Nvidia et d’autres entreprises technologiques. Appen, un leader bien connu des services d’annotation de données, fournit des données d’entraînement de haute qualité essentielles pour les applications d’apprentissage automatique et d’IA.

Meta utilise une combinaison de ressources internes et de partenariats externes pour l’annotation et la mise au point de leurs modèles.

Tremper ma plume dans la vraie encre

En reliant tous ces points et en vérifiant leurs sites Web, j'ai contacté les sociétés d'annotation de données mentionnées ci-dessus. Bien sûr, tous ne partagent pas le même HH. RR. ou toute autre politique, d'ailleurs.

Comme on pouvait s’y attendre, puisque toute cette révolution a vraiment commencé il y a quelques années, la plupart des sociétés d’annotation de données ont déjà des équipes d’annotateurs comptant des milliers de personnes. De toute évidence, je suis bien plus qu'un retardataire dans ce jeu.

Néanmoins, par souci de curiosité et d’exercice, j’ai contacté toutes ces entreprises qui fournissent des services aux géants de l’IA les plus puissants. Comme je l’imaginais, aucun d’entre eux n’a même pris la peine de répondre par un message automatique de refus. Et je comprends. Vraiment.

Comme vous l'avez peut-être deviné, il y a beaucoup plus d'entreprises dans le même secteur avec peut-être moins de popularité ou des entreprises en mutation qui sont venues au service des entreprises d'IA depuis un autre secteur. Dans le premier groupe, j’ai trouvé Outlier. Et dans le second, venant du secteur de la localisation/traduction, nous avons e2f.

Bien sûr, à de nombreuses reprises, ce genre d’entreprises ne révèlent pas le client de l’IA pour lequel elles travaillent. Et c’est tout à fait compréhensible dans le cadre de leurs politiques de confidentialité et des accords entre eux. C’est la raison pour laquelle je ne peux ni supposer ni déduire pour quelle entreprise d’IA ils travaillent.

Tout ce qui brille...

Comme dans tous les autres métiers humains, il arrive que les entreprises commencent leur parcours au sein d’un secteur et se transforment ensuite en un autre segment de marché, pour d’innombrables raisons. La première est la survie et la seconde, la puissance de leur volonté de progresser.

Après avoir envoyé mon CV aux deux entreprises et avoir travaillé dans le passé pour e2f en tant que traducteur, j’ai reçu un e-mail de la part des deux afin de poursuivre le processus d’intégration.

J’ai dû remplir et signer des accords de confidentialité, compléter mon profil sur leurs sites Web dans le portail des collaborateurs, passer plusieurs tests, les réussir tous, puis assister à de nombreuses sessions de formation. En fait, dans l’une de ces entreprises, il y a d’innombrables sessions de formation. La raison en est qu'ils exigent des annotateurs qu'ils suivent des cours de formation pour chaque nouveau projet. Bien sûr, j'ai toujours suivi des formations supplémentaires pour de nombreux clients de traduction dans le passé. Le problème ici est que les sessions de formation sont trop nombreuses et trop longues. Lorsque vous commencez à travailler sur les tâches d’un projet, beaucoup d’entre elles ne sont payées que moins de la moitié du taux horaire complet, ce qui est plutôt bas pour les débutants. La raison principale est que l’entreprise considère que vous êtes en formation tout le temps. Vous avez compris ?

Les différentes tâches réelles de l’annotation peuvent être répétitives dans certains cas, monotones dans d’autres et assez compliquées dans d’autres. Il y a quelques tâches spécifiques qui m'ont un peu plus séduit, par exemple, écrire des invites imaginatives pour le modèle d'IA avec plusieurs contraintes, puis examiner la réponse de l'IA et enfin offrir des commentaires.

Comme nous le savons tous, les humains peuvent commettre différents types d’erreurs en cours de route. Le problème ici est que les entreprises d'annotation n'ont presque pas de marge d'erreur. Et chaque fois que vous en faites une, même une petite erreur, vous pourriez être exclu de l’équipe d’annotation.

Un autre aspect négatif de ce type de travail est que, puisque tout dans le monde de l’IA est en mouvement constant à une vitesse écrasante, vous devez assister à des sessions de feedback tous les jours de la semaine. Même le week-end.

Une exigence spécifique s’applique à ce type de service. Les principales entreprises d'embauche que j'ai mentionnées ci-dessus, Appen, par exemple, ont une section Carrières. Le fait est que le processus d’annotation nécessite que leurs équipes humaines soient situées dans une région spécifique, même si elles travaillent à distance. Cela est dû à des raisons culturelles, à l'origine, aux connaissances générales, etc.

L’éléphant extrêmement bon marché dans la pièce

Et enfin, nous arrivons à un sujet sensible dans toute industrie de services : les tarifs. Pour être honnête, après avoir étudié ce marché exclusivement sur les perspectives d'annotation de données, la plupart des entreprises partagent les mêmes tarifs. Ils pourraient diviser le profil de l'annotateur qu'ils recherchent en termes de sujets plus ou moins spécifiques. Ceux qui, en raison de leur parcours, sont qualifiés pour annoter des domaines de connaissances très spécifiques, pourraient obtenir de meilleurs tarifs.

Sinon, de mon point de vue très personnel, les tarifs qu’ils offrent aux nouveaux venus dans le domaine de l’annotation sont monstrueusement bas. Presque inexistant. Et ces tâches nécessitent beaucoup d’attention aux détails, de compréhension écrite et beaucoup de votre temps supplémentaire afin de répondre aux exigences de la formation et de la séance de rétroaction.

En plus de cela, la plupart du temps, ces entreprises ne sont pas non plus les meilleures en termes d’organisation. Vous êtes plongé dans un canal Slack qui envahit votre boîte de réception avec des centaines de messages cryptiques auxquels personne ne répond. Cela prend encore plus de votre temps, et ce n’est pas utile du tout. Bien au contraire.

Afin de vérifier d’autres points de vue, j’ai contacté deux collègues au sujet de leur propre expérience avec les sociétés d’annotation de données pour lesquelles j’ai brièvement travaillé. Ils étaient tous les deux d'accord avec moi sur le manque d'organisation, la communication défectueuse avec les équipes d'annotateurs, le trop grand nombre de tests et les réunions de retour d'expérience qui prennent trop de temps et compromettent les délais. Bien sûr, nous pensons tous que les tarifs sont trop bas, mais l’un d’entre eux considère que cela en vaut la peine, si vous avez le temps de vous consacrer à ces tâches.

Ce qu’il faut retenir

Après toutes ces lectures, recherches, processus, essais et erreurs, et écriture, j’ai trouvé la réponse à ma question initiale. Est-il possible et productif pour un traducteur professionnel de réajuster son parcours de carrière et d’entamer une nouvelle voie dans l’annotation de données ?

Tout dépend de chaque traducteur. Aussi clair que cela. Il n’y a pas d’absolus ici, comme dans la plupart des choses de la vie. Je sais maintenant que l'annotation de données n'est pas la nouvelle voie que je vais suivre. Mais j’ai vraiment apprécié le processus pour découvrir cela.

Néanmoins, cette option fonctionnerait bien pour les traducteurs ayant un profil personnel différent. Traducteurs nouvellement diplômés, jeunes linguistes professionnels ayant peu ou pas de responsabilités financières/familiales à assumer, ou comme revenu supplémentaire, au cas où ils disposeraient déjà d’une source de revenus plus pratique.

La caractéristique la plus importante de la tâche en tant qu'annotateur de données est la possibilité d'apporter une petite contribution à la qualité des réponses des modèles d'IA. Mais pour mon profil particulier, le coût est trop élevé et le salaire trop bas. Dans tous les cas, j’apprécie beaucoup l’expérience de la formation et toutes les connaissances que j’ai hâte d’intégrer à partir de maintenant.

Libérez la puissance de la glocalisation avec notre système de gestion de traduction.

Libérez la puissance de la

stème de gestion de traduction.

Commencer
Romina C. Cinquemani
Traduisez deux fois plus vite et impeccablement
Commencez
Nos événements en ligne !
Webinaires

Essayez Bureau Works gratuitement pendant 14 jours

Intégration de ChatGPT
Commencer maintenant
Les 14 premiers jours sont gratuits
Assistance de base gratuite