Stagiaires sous la grande folie des mannequins : 985 par habitant ? Mais "l'étiquetage" dans une grande usine

Source : Jiazi Guangnian

Auteur : Zhu Yue

Le premier jour du stage officiel, Chen Xi a senti qu'elle avait peut-être été « trompée ».

Chen Xi, une future étudiante diplômée qui venait de terminer sa thèse de fin d'études, était prête à trouver quelque chose à faire pour elle-même. Après avoir soumis plusieurs curriculum vitae, elle a rapidement été invitée au poste d'éditrice d'intelligence artificielle (direction de traduction) d'une grande société Internet nationale.

La description de poste se lit comme suit :

  1. Fournir un corpus de haute qualité pour l'apprentissage automatique de l'intelligence artificielle et reproduire les itérations de formation des modèles ;

  2. Communiquer avec l'équipe technique sur les exigences, fournir des données qualifiées et de haute qualité dans les délais et être responsable de la qualité des résultats d'édition.

Pour Chen Xi, qui ne connaissait pas grand-chose à la formation de mannequins, cela semblait être un très bon stage.

L'interview de Chenxi portait sur le domaine de la traduction, ce qui est très cohérent avec sa spécialisation en anglais. Au début de l'année, ChatGPT est devenu populaire en Chine, et Chenxi a l'habitude d'utiliser des produits d'IA tous les jours, ce qui correspond à ses intérêts. De plus, elle aura l'opportunité de participer aux technologies émergentes. Le développement industriel est rare pour les étudiants en arts libéraux et bien sûr, le plus grand attrait vient de cette grande entreprise Internet. Au cours des dernières années, l’entreprise a réussi à attirer d’innombrables jeunes étudiants. D'un certain point de vue, le nom d'une grande entreprise sur un CV suffit à devenir un symbole de ses propres capacités.

Cependant, à part la simple description de poste sur la page de recrutement, Chen Xi n'a obtenu aucune autre information sur ce stage de la part de l'intervieweur.

" La raison pour laquelle je me suis senti trompé à l'époque était que les RH se concentraient essentiellement sur les questions liées à la traduction pendant l'entretien. " Après avoir répondu à plusieurs questions de traduction pendant l'entretien, Chen Xi a obtenu l'offre. Jusqu'à ce qu'elle commence à travailler, elle pensait que c'était un travail de traductrice.

Chen Xi n'est pas le seul à se sentir « trompé ».

Yang Xiaoyun, l'un des premiers stagiaires en rédaction d'intelligence artificielle, est également venu dans cette grande usine fin février. L'intervieweur a déclaré qu'il s'agit d'un travail qui nécessite des capacités élevées telles que la saisie d'informations, la synthèse linguistique et l'édition de textes.

Après avoir commencé, elle s'est rendu compte : « Le travail décrit par les RH et le travail réel sont deux choses complètement différentes. Aussi glamour soit-il, il s'agit en fait d'un travail de « marquage ».

De nos jours, l’engouement pour l’intelligence artificielle a donné naissance à des chatbots qui ressemblent à de vraies personnes et à des logiciels de dessin capables de générer des images avec des invites simples. L'émergence de grands modèles au niveau des phénomènes a attiré beaucoup d'attention en tant que base pour la formation de grands modèles. Les données, les algorithmes et la puissance de calcul ont attiré beaucoup d'attention. L'annotation des données est un élément indispensable de la liaison de données.

En 2007, Li Feifei, alors professeur adjoint au département d'informatique de l'université de Princeton, a lancé un projet appelé ImageNet, dans l'espoir d'élargir les données pouvant être utilisées pour entraîner des algorithmes d'IA.

Afin de fournir autant d'exemples visuels que possible pour chaque mot, près de 50 000 travailleurs de la plateforme de crowdsourcing d'Amazon, Mechanical Turk, ont passé deux ans et demi à étiqueter des objets dans les images, tels que des ballons, des fraises, etc., pour un total de 3,2 millions d'images. . Ces travailleurs viennent de 167 pays à travers le monde et sont pour la plupart situés dans des zones à faibles coûts de main-d'œuvre.

Une enquête du magazine Time a révélé que pour réduire la violence, le sexisme et le racisme dans l'ensemble de données ChatGPT, OpenAI avait recours à des travailleurs kenyans qui gagnaient moins de 2 dollars de l'heure. "Bloomberg" a rapporté que le chatbot IA de Google, Bard, avait été formé par des milliers de travailleurs contractuels, qui n'avaient que 3 minutes pour examiner et annoter les réponses de Bard.

Il y a longtemps, l’annotation de données ne nécessitait pas d’exigences cognitives élevées en matière de reconnaissance du langage et des images. À l’ère des grands modèles, l’annotation des données est passée des images au langage, plus exigeant et vertical, nécessitant des connaissances professionnelles dans des domaines spécifiques et des compétences linguistiques courantes.

Mais pour les annotateurs de données ordinaires, il s’agit encore d’un travail low-tech qui se répète constamment.

Tout comme ces étudiants « trompés » issus d'écoles prestigieuses qui entrent en stage dans de grandes usines, ils ne peuvent pas expliquer clairement à quoi sert leur travail et quelle est sa valeur. Ils n’en ont souvent qu’une vague compréhension pour « former de grands modèles ».

Les stagiaires en édition d'intelligence artificielle représentés par Chen Xi et Yang Xiaoyun sont nés de la nécessité de former de grands modèles. Ces modèles populaires à grande échelle permettent aux stagiaires d'entrer avec curiosité et envie, tout en ressentant le véritable chaos et le manque de valeur derrière eux.

1. Quand les étudiants affluent vers les annotations de données Big Model

**Les gens pensent généralement que les annotateurs de données sont un groupe de personnes âgées et peu instruites vivant dans des villes de troisième et quatrième rang. En fait, c’était effectivement la situation actuelle des annotateurs de données nationaux auparavant. **

Selon les « Normes nationales de compétences professionnelles pour les formateurs en intelligence artificielle » publiées par le ministère des Ressources humaines et de la Sécurité sociale en 2021, le niveau de formation commun des formateurs en intelligence artificielle est l'obtention d'un diplôme d'études secondaires (ou une formation équivalente). Ils peuvent être dispersés dans des zones où se trouvent des entreprises traditionnelles à forte intensité de main-d’œuvre, comme le Hebei, le Henan, le Shandong et le Shanxi, ou même dans des zones montagneuses plus reculées où l’annotation des données est un projet pilote de réduction de la pauvreté.

**Mais des changements sont déjà intervenus avec l'émergence des grands modèles. **

Ce qui ennuie Yang Xiaoyun, c'est en fait le travail d'annotation de données effectué pour former de grands modèles.

Après une simple formation et évaluation, Yang Xiaoyun a été affecté à l'équipe de révision. **Son travail quotidien consiste à répondre aux questions de la banque de questions.Le but est d'optimiser le processus de formation des grands modèles en écrivant manuellement les réponses par les annotateurs. **

**Les étapes pour répondre à une question sont strictement contrôlées. **Prenons l'exemple du jeu « Genshin Impact ». Si vous recevez la question « Quelle est la relique sacrée de Yelan ? », Yang Xiaoyun doit diviser la réponse en plusieurs paragraphes : Tout d'abord, qu'est-ce que Yelan ? Deuxièmement, que sont les saintes reliques ? À quoi correspond la relique sacrée de Yelan au final ?

Collectez des informations sur le moteur de recherche désigné, terminez l'édition de la réponse et enfin soumettez-la sous forme de Markdown.

En plus de questions simples et faciles à répondre, Yang Xiaoyun a passé la plupart de son temps dans des domaines professionnels qui lui étaient totalement inconnus, comme la zone économique, la zone juridique, etc.

Évidemment, cela est complètement différent des travaux précédents d’annotation de données. **

Avant l'émergence des grands modèles, les scénarios d'annotation de données étaient généralement des usines avec des centaines de personnes, chaque personne disposait d'un ordinateur et il n'y avait que le son d'une souris et d'un clavier. Et durant leur journée de travail de 8 heures, ils ne font qu'une chose simple et répétitive : cadrer les véhicules motorisés, les véhicules non motorisés, les piétons et les feux tricolores (détection de cible) dans différentes images ; ou souligner le sujet d'un paragraphe, Prédicat, objet (segmentation sémantique).

Ces boîtes à dessin pour images et vidéos et la segmentation sémantique du texte sont toutes des traitements de données existantes, et les annotateurs de données eux-mêmes n'ont pas besoin de donner des « conclusions créatives ». Mais ce n’est pas le cas pour l’annotation des données de grands modèles. En plus de traiter les données existantes, les annotateurs de données doivent également répondre aux questions et tirer des conclusions correctes. **

Selon le « Rapport d'analyse approfondie et de recherche sur les tendances d'investissement sur la situation actuelle de l'industrie chinoise de l'annotation de données (2023-2030) » publié par le centre de données Guanyan Tianxia en 2023, avant la sortie de ChatGPT, l'annotation des données de formation de l'IA était principalement basée sur sur la voix et la vision par ordinateur, et le langage naturel, la demande de traitement (NLP) est inférieure à 15 %.

À mesure que le chatbot ChatGPT devient une application phénoménale de l'AIGC, il existe une demande croissante de tâches d'annotation de texte de haute qualité telles que le jugement émotionnel, la capacité de compréhension et même la capacité de raisonnement.

"La complexité des projets (de grands modèles) est devenue plus élevée qu'auparavant et les exigences en matière de personnel sont relativement différentes." Le responsable du département des produits de Stardust Data a déclaré à "Jiazi Light Year", "Reconnaissance et annotation d'informations visuelles partielles pour la conduite autonome, qui est un travail plus physique, nécessite une certaine formation des employés. Après avoir appris à tirer des boîtes, à maîtriser les touches de raccourci et à maîtriser certaines compétences, ils peuvent rapidement devenir compétents. ** Mais ce dont les grands modèles ont besoin, c'est d'une formation complète et structuré , un système de données diversifié et global qui nécessite quatre couches de données pour soutenir la construction et l'amélioration du modèle.Ces données impliquent du pré-entraînement, du SFT (Supervised Fine-Tuning), du RLHF (Reinforcement Learning based on human feedback), Renforcement Learning from Human Feedback), déploiement privatisé, etc. En réponse aux besoins de différentes industries, nous avons lancé la solution de pyramide de données de grand modèle COSMO ; pour les annotateurs de données de grand modèle, l'étiquetage des données COSMO n'est pas une question à choix multiples, ni est-ce simple ? Au lieu de comprendre la lecture et d'éditer du texte, cela vous permet de créer des questions et des réponses et de créer du contenu.** »

Jia Yuhang, directeur général des données de mesure des nuages, divise les données d'entraînement du plus grand modèle en trois étapes : données de base, données de scène et optimisation des données de scène. **Il a comparé ces trois étapes au processus d'apprentissage.

"L'annotation de données de base telles que le dessin de boîtes est relativement simple et vous pouvez maîtriser le fonctionnement de l'ordinateur dès que vous l'apprenez ; les données de scène sont des données dans un domaine spécifique nécessaires à une recherche et un développement ciblés dans des liens spécifiques, et vous devez apprendre des données pertinentes. " Les exigences en matière de compétences et de connaissances du domaine seront plus affinées lors de la troisième étape, basée sur une itération et une optimisation continues lors de la mise en service. ", a déclaré Jia Yuhang.

Face à ce type de demande de travail, de plus en plus de grandes entreprises modèles ont une demande d'annotateurs de données, qui est également passée de peu instruit à très instruit dans le passé, et cette demande augmente.

Sur les principales plateformes nationales de recherche d'emploi, de nombreux postes d'annotation de données pour les grands modèles sont actuellement en cours de recrutement. Ces postes exigent que les annotateurs soient titulaires d'un baccalauréat ou plus. Baidu a précédemment déclaré que sa grande base d'annotation de données de modèles à Haikou compte des centaines d'annotateurs de données et que le taux d'annotation des étudiants de premier cycle a atteint 100 %.

Source de l'image : BOSS Zhipin et Maimai

2. Annotation sévère des données de grands modèles

De manière générale, la formation d'un grand modèle nécessite les trois étapes suivantes :

Source : OpenAI « Présentation de ChatGPT »

Derrière ces tâches répétitives se cache en fait la technologie de "l'apprentissage par renforcement à partir du feedback humain". La plus grande amélioration de GPT-3.5 vient de là. La clé est la participation humaine (Labeler), c'est-à-dire ces annotateurs de données.

Parmi les trois étapes ci-dessus du RLHF, la première et la deuxième étape sont relativement plus importantes, car elles déterminent le niveau de qualité des données nécessaire pour entraîner le modèle de récompense. Les stagiaires en annotation de données dans ces deux étapes sont également répartis en deux groupes principaux : « groupe d'édition » et « groupe de tri ». **

Le travail de l'équipe d'édition est de répondre aux questions de la banque de questions, tandis que le travail de l'équipe de tri est de classer les réponses générées (y compris les réponses modèles et générées artificiellement).

Ding Xiaoyu a rejoint le rédacteur en chef en juillet. Ding Xiaoyu, qui étudie également l'anglais, et Chen Xi attendent avec impatience un travail de traduction qui pourrait améliorer leur niveau professionnel, mais son travail n'est en réalité pas lié à l'anglais.

Par rapport au stage de Yang Xiaoyun en février, l'équipe de rédaction à laquelle est confronté Ding Xiaoyu est devenue plus subdivisée : chaque stagiaire doit choisir une direction verticale, comme le divertissement, la physique, la politique, etc., et les exigences de réponse sont devenues plus détaillé.

Pour une question à choix multiples sur la poésie ancienne, vous ne devez pas simplement expliquer la réponse, mais d'abord introduire le type de question, puis la traduction et le contexte de la poésie, et enfin une analyse pour savoir si chaque option est correcte ou non. la chose est de se comparer au GPT-4 de mars publié par OpenAI le 14.

" Vous devez vous référer à sa réponse, mais elle ne peut pas être la même que sa réponse, et elle doit être meilleure que sa réponse. " Ding Xiaoyu était impuissant.

Chenxi a été affecté au groupe de tri, où plusieurs réponses aux questions étaient triées chaque jour afin de déterminer les avantages et les inconvénients des différentes réponses.

Les résultats du classement doivent être clairement quantifiés. Elle doit évaluer les réponses sous différents angles tels que l’utilité, l’authenticité, la pertinence, la sécurité, etc. et en noter les raisons. Il s’agit de permettre aux machines de se rapprocher infiniment des réponses que les humains attendent.

**Chen Xi se retrouvait parfois obligée de choisir entre plusieurs mauvaises réponses. Et lorsque toutes les réponses étaient mauvaises, on lui demandait d’écrire elle-même une meilleure réponse. **

Ding Xiaoyu, de l'équipe éditoriale, est confronté à des exigences encore plus exigeantes. Chaque réponse fera l'objet de deux cycles d'examen avant d'être qualifiée pour la livraison. Le premier venait du chef d'équipe : « Après avoir répondu à quelques questions, nous aurons une réunion de bilan pour trouver des défauts chez nous jusqu'à ce que le chef d'équipe soit satisfait des changements. » Le deuxième venait du siège, et ce n'est pas le cas. jusqu'à ce que le siège ait passé l'examen.

Une fois, en raison d'erreurs de formatage, la plupart des réponses de Ding Xiaoyu ont été jugées complètement fausses. "Il suffit peut-être d'ajuster l'ordre, mais peu leur importe que le contenu de votre réponse soit erroné ou qu'il y ait un problème avec le format. C'est juste que tout est faux."

Ce qui a rendu Ding Xiaoyu encore plus dévasté, c'est que le chef d'équipe a directement déclaré que si elle commettait à nouveau autant d'erreurs, elle pourrait être licenciée.

**L'annotation des données pour les grands modèles est un travail absolument axé sur les résultats. Peu importe les efforts que vous consacrez au processus, tant que les résultats ne sont pas bons, tous les efforts précédents seront complètement annulés. **

Mais le problème est que qu'il s'agisse de la sortie des réponses du groupe d'édition ou du tri des réponses par le groupe de tri, c'est une tâche très subjective. Il est difficile pour les stagiaires en annotation de données de contrôler si une réponse est bonne ou mauvaise ; différents stagiaires donnent souvent des réponses différentes à la même question.

**Afin de résoudre ce problème, l'une des tâches que l'équipe d'annotation de données de grands modèles doit effectuer chaque jour est d'organiser une « réunion de révision » - connue sous le nom de « Racing Meeting » au sein de l'entreprise. Répondez aux normes et alignez les réponses. Tout le monde comprend et toutes les suggestions sont alignées. **

Cependant, il est assez difficile de parvenir à un véritable alignement. C'est comme pour la notation de l'examen d'entrée à l'université. Différentes personnes se verront attribuer les mêmes questions. Si les scores sont incohérents, ils doivent être continuellement ajustés jusqu'à ce qu'un score unifié soit obtenu.

Selon Chen Xi, deux ou trois heures sont consacrées à des réunions chaque jour. À la fin de la réunion, la solution la plus simple et la plus grossière est souvent finalisée, la minorité obéissant à la majorité, ce qu'elle décrit comme « créer de la valeur sans valeur ».

Cependant, par rapport à tout le monde assis ensemble pour aligner « artificiellement » les normes de réponse, un problème plus gênant est le suivant : les ** normes ne sont pas artificiellement alignées une fois pour toutes, mais doivent être constamment ajustées en fonction des commentaires des résultats du modèle. **

La première chose lorsqu'il se rend au travail chaque jour, Yang Xiaoyun doit confirmer si une nouvelle norme d'annotation a été publiée ce jour-là, allant du cadre de réponse, à la division des paragraphes, à la sélection des moteurs de recherche, des formats tels que espaces et signes de ponctuation. Mais ** les normes changent constamment. **Une fois qu'il s'avère que les données fournies ne fonctionnent pas sur la machine, les normes doivent être reformulées et tous les problèmes seront annulés et réécrits.

"C'est comme le tissage. Devrions-nous tisser des grains horizontaux ou verticaux ? Devrions-nous tisser des boutons de sésame ou des boutons de blé ? Mais quel que soit le bouton dont il s'agit, il ne peut être mis que dans le programme et exécuté. Si vous constatez qu'il ne peut pas fonctionner ", vous devez changer de méthode. ", a expliqué Yang Xiaoyun à" Jiazi Guangnian ". Derrière cette métaphore se cache le fait que si la réponse donnée par l'annotation des données ne peut pas produire l'effet attendu pendant le processus de formation du modèle de récompense, la norme doit être ajustée.

Le changement de normes signifie que les conclusions de la dernière réunion d'alignement sont invalides et que les normes doivent être à nouveau alignées.

"Redondant et efficace, dire des bêtises très efficacement chaque jour", s'est plaint Yang Xiaoyun.

3. Des étudiants très performants exploités par les grandes usines

D'une part, il y a des réunions de rassemblement sans fin qui ont lieu chaque jour, et d'autre part, il y a des normes de données qui peuvent changer à tout moment. De nombreux étudiants de haut niveau, comme Chen Xi, attirés par les enseignes lumineuses et brillantes des grandes usines, ont perdu leur enthousiasme initial à cause de conflits internes et ont finalement choisi de partir.

**La caractéristique commune de ces stagiaires est un haut degré d'éducation. L'exigence de recrutement est d'être titulaire d'un baccalauréat ou plus, mais de nombreux stagiaires sont titulaires d'une maîtrise. **

Beaucoup d’entre eux sont formés dans les meilleures universités de Chine et même du monde. Yang Xiaoyun était entouré d'étudiants de l'Université de Pékin et de l'Imperial College de Londres, et les stagiaires à côté du poste de travail de Chenxi étaient de l'Université de Nankai et de l'Université des sciences et technologies électroniques de Chine ; Ding Xiaoyu a été clairement informé pendant la formation que les qualifications académiques des stagiaires ont été examinés. "Il (l'intervieweur) a dit que les étudiants très instruits comme nous peuvent apprendre des choses rapidement et démarrer facilement."

**Gérer un groupe de personnes intelligentes n'est jamais facile. Parce que ces personnes peuvent facilement découvrir l'essence de leur travail à partir d'actions répétées, et se demander ensuite si ce travail est vraiment précieux pour leur avenir. **

Ding Xiaoyu a décrit son travail comme « de peu de valeur et très épuisant intérieurement ».

Lorsqu'elle arrive à son poste de travail chaque matin, elle ouvre l'écran d'affichage et le cahier, et utilise le cahier pour vérifier les règles tout en écrivant les réponses sur l'écran d'affichage. Ding Xiaoyu peut clairement sentir que les règles et procédures détaillées lui font progressivement perdre de l'espace. penser, et sa Discipline devient une machine. « Si vous n’apprenez pas quelque chose et que vous n’avez pas l’énergie nécessaire pour apprendre d’autres choses, vous perdrez lentement votre motivation à apprendre et votre enthousiasme pour faire d’autres choses. »

Ding Xiaoyu a également travaillé dans l'équipe de désensibilisation, mais le travail lui-même n'a aucun lien fondamental avec le mot « désensibilisation ». Il utilise simplement différents chatbots et les produits bêta internes de l'entreprise pour répondre aux mêmes questions, puis compare et note les réponses. Après seulement quelques jours de travail, elle a été transférée à l'équipe de relecture de textes où elle devait corriger les erreurs survenues lors de la conversion du format PDF au format Word, principalement les fautes de frappe et les signes de ponctuation. Dans un processus qu'elle a décrit comme « proche de la panne », elle a complété chaque jour 25 pages de tâches de correction d'erreurs médicales.

Au cours du processus d'entretien, l'intervieweur a demandé à Ding Xiaoyu s'il pouvait accepter un travail ennuyeux et répétitif. "Ma réponse à l'époque était que c'était acceptable. Je pense que toutes les réponses des candidats devraient être acceptables. " Parce qu'il n'avait qu'une seule expérience de stage au premier cycle, et dans l'espoir d'accumuler plus de stages et de découvrir de grandes entreprises, même avec Des doutes, Ding Xiaoyu a quand même choisi de rejoindre l'entreprise.

En seulement deux mois, Ding Xiaoyu a été considéré comme la personne qui a persisté jusqu'au bout parmi les stagiaires de la même période. Elle a vu de nombreux stagiaires arriver avec de grandes ambitions puis repartir la tête baissée.

L'anthropologue David Graeber définit les emplois à la con comme des emplois qui n'ont aucun sens ni aucun but. Les emplois qui devraient être éliminés par l'automatisation des machines continuent d'exister à cause de la façade, pour plaire aux supérieurs et pour combler les lacunes du système. L’annotation des données est comme une variante de tâches à la con qui sont souvent considérées comme ayant été remplacées par des machines, mais qui nécessitent toujours des humains pour les accomplir.

Lorsque l’engouement pour l’intelligence artificielle arrive, les gens s’attendent souvent à ce que l’IA puisse remplacer les humains dans l’accomplissement de tâches répétitives et ennuyeuses, permettant ainsi aux humains d’avoir plus de temps et d’énergie pour poursuivre un travail plus créatif et plus épanouissant.

Mais il est également possible que l'intelligence artificielle, à l'instar des technologies du passé permettant d'économiser du travail, telles que les téléphones et les machines à écrire, surmonte la douleur liée à la transmission de l'information et à l'écriture manuscrite, mais crée également une grande quantité de communication et de paperasse qui nécessitent une nouvelle intelligence artificielle pour fonctionner. Gestion, comme la réception, l'employé. L’IA ne remplacera peut-être pas les humains, mais elle créera des emplois plus fastidieux, ennuyeux et isolants.

**En plus de ne pas pouvoir faire reconnaître la valeur de leur travail, le salaire qu'ils reçoivent pourrait ne pas permettre à ces meilleurs étudiants d'obtenir une « reconnaissance de prix ». **

Selon « Jiazi Guangnian », ces données montrent que le salaire des stagiaires n'est pas élevé. S'ils sont situés dans une ville de premier rang, le salaire de la plupart des stagiaires en intelligence artificielle est de 150 yuans/jour, avec chambre et cantine gratuite ; s'ils sont situés dans une ville de second rang, il ne leur reste que 100 yuans/jour. et l'allocation de chambre est également réduite d'un tiers. 2. Le supplément repas de 20 yuans remplace le repas gratuit.

Comme le stage de Ding Xiaoyu dans une ville de second rang, parce que le bureau est situé au centre de la ville et que le quartier est prospère, un repas à emporter peut facilement dépasser la norme de subvention pour les repas de 20 yuans et nécessite essentiellement le remboursement du salaire du stage.

Comme la plupart d'entre eux ne sont que des annotateurs de base pour la formation de grands modèles, ils peuvent être affectés de manière uniforme à des postes qui n'ont rien à voir avec leur métier, ils peuvent également être mutés à tout moment dans différents départements et doivent démarrer rapidement après une courte période. entraînement.

**Ding Xiaoyu les a décrits comme des lots de stagiaires exploités par les grandes usines. **

Chen Xi sentait clairement qu'elle n'était pas la seule à ressentir l'écart entre les attentes et le travail réel. "Pour le dire franchement, j'ai l'impression que ce travail ne me convient pas. Parfois, en discutant, je découvre que d'autres stagiaires peuvent avoir 985 diplômes de licence, et certains sont revenus de l'étranger avec une maîtrise. L'écart entre eux est également très , très grand."

Yang Xiaoyun l'a exprimé plus directement : « C'est peut-être une métaphore inappropriée. Ma mère est allée au lycée, donc elle peut faire ce travail.

**4. "Nous sommes en fait des ouvriers à la chaîne de montage" **

En fait, le gouvernement recrute les meilleurs étudiants pour occuper certains emplois à faible technologie et paie des salaires extrêmement bas. C'est également un reflet objectif du chaos du marché dans les premières étapes du développement de l'annotation de données de grands modèles. **Pour les sociétés d'annotation de données, au stade actuel de développement des grands modèles, l'annotation de données n'a pas encore formé une norme unifiée et il n'y a pas d'exigences spécifiques pour les annotateurs.

Le responsable du département produit de Stardust Data a déclaré : « À mesure que les capacités de base du grand modèle sont complétées et que le processus de développement commence à devenir plus vertical et complexe, les tâches changeront progressivement, nécessitant une mise à jour et une itération des outils et du personnel. en conséquence. Cependant, les grands modèles en sont encore aux premiers stades de développement et la demande du marché pour les annotateurs varie en fonction de la tâche. Par rapport aux projets CV (Computer Vision), les annotateurs NLP (Natural Language Processing) ont des exigences plus élevées en matière de capacité de compréhension. les exigences en matière de terminologie professionnelle et de connaissances du domaine sont plus élevées, et un corpus précis et fiable doit être fourni.

Le responsable a déclaré que les problèmes posés par les grands modèles à l'annotation des données se reflètent davantage dans la conception de haut niveau. Pour chaque tâche d'annotation de données, comment comprendre les exigences du scénario d'application du client, concevoir un ensemble de solutions telles que la sélection de données, la conception de distribution de données et la conception de pipeline qui peuvent être mises en œuvre efficacement et à faible coût, et comment améliorer l'efficacité et les capacités. des outils de plateforme sont essentiels. Un défi plus grand.

Cela repose sur la participation d'experts du domaine vertical en tant qu'annotateurs seniors, injectant l'expertise et l'expérience du domaine dans la conception de la solution, et même participant au processus itératif d'inspection de la qualité des données.

Zhang Ziqian, responsable des opérations chez le fournisseur de solutions de données Besai Technology, a déclaré sans détour qu'actuellement, en termes de formation de modèles à grande échelle, il n'y a pas de différence évidente en termes de difficulté de travail et de salaire horaire entre les annotateurs de base et les annotateurs qui étaient auparavant engagés dans la sélection de cadres. . **Lors de la mise au point de grands modèles et de la création de solutions dans des domaines verticaux pour les clients, le plus gros problème est de savoir comment créer des ensembles de données de haute qualité, ce qui nécessite de qualifier des experts dans des domaines professionnels tels que l'informatique, la médecine et la finance. Rareté.

OpenAI a investi des dizaines de doctorants dans l'orientation et l'examen de l'annotation des données, et a externalisé l'annotation des données de base auprès de sociétés d'annotation de données, dispersées dans des zones à faible revenu comme l'Afrique et l'Inde. **Ceux qui font vraiment la différence sont les annotateurs seniors, qui ne représentent qu'une petite proportion. **

En comparant les descriptions de poste des annotateurs recrutés par Baidu au siège de Pékin et la base d'annotation de données de Haikou, on constate qu'ils sont également destinés à la formation de grands modèles : le premier est un annotateur senior chargé de l'orientation, de la formation et de la révision, tandis que le second est un annotateur senior chargé de l'orientation, de la formation et de la révision. un annotateur de données de base. , les deux ont des niveaux de salaire très différents.

Source de l'image : recrutement direct BOSS

**En d'autres termes, ces annotateurs seniors de niveau supérieur sont en fait les talents clés pour la formation de grands modèles. Leur travail est plus technique et plus précieux, et le coût de la main-d'œuvre est également plus élevé. **

**En revanche, même si ces stagiaires d'écoles prestigieuses viennent former de grands modèles, à ce stade, ils sont essentiellement les mêmes que ces annotateurs de données d'autrefois. **

**Les stagiaires plaisantent souvent entre eux en disant qu'ils ne travaillent pas dans une grande usine, mais chez Internet Foxconn, et qu'ils sont des ouvriers sur la chaîne de montage. Ils ne peuvent ni voir où les résultats de leur travail les mèneront finalement, ni créer une chaîne horizontale de sens avec les personnes qui les entourent. **

Cette blague « Internet Foxconn » fait non seulement référence au travail de ces stagiaires, mais aussi à la charge de travail et au modèle de gestion, qui est presque comparable à celui de la chaîne de montage en usine.

La quantité de travail que les stagiaires doivent accomplir chaque jour correspond à une ligne rouge prescrite en matière d’efficacité humaine. Pour Yang Xiaoyun, elle doit répondre à 32 questions par jour et si la ligne rouge n'est pas respectée, elle doit en indiquer les raisons ou faire des heures supplémentaires pour la terminer. La condition préalable à l'achèvement des travaux est l'évolution constante des normes de l'Association Lazi et la collecte continue d'informations.

Afin de terminer la formation du modèle le plus rapidement possible, l'équipe d'annotation est confrontée à une gestion sous haute pression. Le groupe de Yang Xiaoyun n'est pas autorisé à parler pendant les heures de travail. Le prix de quelques bavardages peut s'ajouter à la charge de travail. Si vous ne parvenez pas à terminer le travail, vous serez frénétiquement rappelé dans le groupe. Même si vous êtes malade et demandez pour un congé, vous pourriez être interrompu par un appel urgent de votre employé régulier.

De plus, afin de garantir que les données ne soient pas divulguées, l'échange d'annotations de données entre groupes est expressément interdit. Même si des stagiaires de groupes différents sont placés à proximité les uns des autres, ils ne peuvent pas discuter du contenu du travail. Aucun de ces stagiaires ne sait combien de groupes subdivisés il y a dans l'étiquetage des données de l'entreprise et combien il y a de stagiaires. Un groupe peut compter 10, 40, 50, 60 personnes ou des centaines de personnes à chaque étage.

Sous la ligne rouge à haute pression de l'efficacité humaine, Yang Xiaoyun ne peut être que temporairement « heureux » lorsqu'il est confronté à des questions interdites. Parce que les contenus impliquant de la violence, de la pornographie et du sang doivent être supprimés directement, mais ils peuvent toujours être comptabilisés dans les éléments de travail personnel. "C'est l'équivalent de serrer une mauvaise vis. Vous serez seulement heureux de ne pas avoir à serrer la vis." Lors de la division du travail du matin, les stagiaires se faisaient même concurrence pour obtenir les objets interdits.

Après que Yang Xiaoyun ait quitté son emploi plus tôt, elle a souvent visité les Moments des stagiaires qui se réunissaient encore dans l'entreprise à 22 heures, voire à midi. Il y a aussi des stagiaires qui lui envoient des messages vocaux en pleurant, mais comme ils ont loué une maison et n'ont aucun moyen de partir, s'ils ne peuvent pas persister, cela signifie que tout le loyer sera gaspillé.

5. Il n'y aura jamais de pénurie de monde ici

Mais ce ne sont pas les gens qui n’ont pas persévéré.

Li Zhuxi est l'un des rares stagiaires possédant une expérience en annotation de données. Elle a étudié la linguistique cognitive et a expliqué que la combinaison de la linguistique avec la neurologie, l'observation de l'imagerie cérébrale, y compris la création d'interfaces cerveau-ordinateur, a un certain lien avec l'intelligence artificielle.

Avant de rejoindre cette grande usine, elle avait annoté des données pour de grands modèles de langage dans une autre grande usine, et c'était avant la sortie de ChatGPT. Selon Li Zhuxi, après que ChatGPT soit sorti du cercle, des stages d'annotation de données similaires ont poussé comme des champignons après la pluie.

Elle a réalisé avec succès ce stage de trois mois, même si elle le décrit comme un travail « relativement mécanique et peu difficile ». Li Zhuxi a décrit qu'il accorde plus d'attention à l'expérience : « Je ne m'attends pas à ce que ce travail soit intéressant. C'est quand même agréable d'en faire l'expérience. Non seulement j'acquiers une expérience de stage dans une grande usine, mais je découvre également la culture d'entreprise unique ici. "

Pour Zhao Shuo, étudiant en arts libéraux dans une école de Shuangfei, le poste de stage en édition d'intelligence artificielle dans une grande usine a été son choix de niveau supérieur.

Lorsqu'il cherchait un stage d'été, il préférait en fait un poste opérationnel dans un institut de recherche. L'institut de recherche est une institution publique et dispose d'un personnel, ce qui était très attractif pour Zhao Shuo. "À cette époque, j'attendais particulièrement avec impatience le retour qu'il pourrait me donner." . Mais en fin de compte, l’institut n’a pas choisi Zhao Shuo, qui était un étudiant diplômé de première année, et a recruté un étudiant de niveau supérieur.

Il y a des gens qui sont plus « bouclés ».

Aux yeux de Zhao Shuo, certains stagiaires travailleront particulièrement dur et assumeront davantage de tâches afin de rechercher des opportunités de devenir des employés réguliers. Une attitude sérieuse et diligente gagnera la faveur des employés à temps plein.« Les dirigeants ont souvent certains échanges avec eux et leur donnent également une certaine autorisation de gestion pour gérer les stagiaires ».

L'entreprise sélectionne même chaque semaine des stagiaires aux performances exceptionnelles et affiche leurs photos sur le mur en guise de reconnaissance, mais il n'y a pas nécessairement de bonus, et il n'y en a pas dans le secteur d'activité de Zhao Shuo.

Jia Yuhang, directeur général de Yunmei Data, a déclaré à Jiaziguangnian qu'il existe deux principales voies de promotion pour les annotateurs de données : l'une est la voie des experts. Après avoir maîtrisé les compétences pertinentes dans des domaines verticaux spécifiques, les annotateurs juniors peuvent progressivement devenir des experts seniors en annotation. ; L'autre est la voie de la gestion, en devenant le gestionnaire du projet.

Mais Zhao Shuo ne choisirait pas de rester. Après une année d’études supérieures, Zhao Shuo s’est clairement rendu compte que ses attentes concernant son travail futur avaient diminué. Ressentant les changements croissants dans l'environnement général et observant le mécontentement des étudiants qui ont choisi un emploi après l'obtention de leur diplôme, les emplois « haut de gamme, sophistiqués » et « irremplaçables » attendus par Zhao Shuo ont été progressivement remplacés par un emploi stable. Etudiant en arts libéraux, il craint de ne pas encore maîtriser des compétences irremplaçables et espère trouver un emploi géré au sein de l'établissement.

Lorsqu'ils discutaient, les stagiaires se plaignaient les uns des autres que le travail qu'ils effectuaient pourrait bientôt être remplacé par des machines et que l'alimentation manuelle des données ne serait plus nécessaire.

Pour Jia Yuhang, directeur général de Cloud Measurement Data, de telles préoccupations n'existent pas. Avec la production de masse réelle d'algorithmes et l'amélioration des capacités de données en boucle fermée, la quantité globale de données étiquetées et la quantité d'étiquetage manuel des données continuent d'augmenter d'année en année. Dans le passé, il s'agissait d'annotations manuelles à 100 %, mais il existe désormais une certaine proportion d'annotations manuelles, d'annotations automatiques et de vérification manuelle. À l’avenir, la proportion d’étiquetage automatique pourrait devenir de plus en plus importante. Cependant, bien que la proportion d'annotations manuelles diminue, avec le développement progressif de l'industrie de l'intelligence artificielle et la quantité croissante de données, la quantité d'annotations manuelles continuera d'augmenter.

Après avoir quitté son emploi plus tôt, Yang Xiaoyun a trouvé un stage de planification de jeux qui lui plaisait. L'atmosphère de travail y était détendue et elle se sentait plus gratifiante. L'édition d'intelligence artificielle était pour elle une expérience de stage « malchanceuse ». Pour Ding Xiaoyu, c'était un processus de désenchantement. Même si elle effectuait un stage dans une grande usine qu'elle attendait avec impatience, elle serait toujours confrontée à d'innombrables emplois ennuyeux. Elle pensait que cela pourrait être dû au fait que ses capacités n'étaient pas fortes. assez ou il y avait trop peu d’opportunités d’expérience. .

Mais il n’y aura jamais de pénurie de monde là-bas.

Yang Xiaoyun a appris qu'après son départ, l'équipe était passée de dizaines à des centaines en un mois. Ding Xiaoyu a découvert que tous les 10 jours, un nouveau groupe de stagiaires arrivait, chaque groupe étant composé de vingt ou trente personnes.

"Vous pouvez partir en maudissant et en disant au monde à quel point votre travail est mauvais, mais il y aura un flux constant de nouvelles personnes qui viendront occuper votre place."

*À la demande des personnes interrogées, les personnages Chen Xi, Yang Xiaoyun, Ding Xiaoyu, Li Zhuxi et Zhao Shuo dans l'article sont des pseudonymes.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)