Résumé : Les annotateurs de données classent et étiquettent les données, permettant à l'intelligence artificielle d'apprendre en trouvant des modèles dans de grandes quantités de données, et sont considérés comme du "travail fantôme" caché derrière la machine. Le travail d'annotation est le fondement de l'intelligence artificielle, il a formé toute une chaîne d'approvisionnement, et ce type de travail continuera d'exister pendant longtemps.
Se concentrer
L'intelligence artificielle apprend en recherchant des modèles dans de grandes quantités de données, mais ces données doivent d'abord être classées et étiquetées par des humains, et des annotateurs de données voient le jour. Ils sont considérés comme des "travailleurs fantômes" cachés derrière les machines.
Le travail des annotateurs est ennuyeux et fastidieux. Ils doivent souvent faire un travail répétitif et sont payés à la pièce. Le salaire horaire moyen se situe entre 5 et 10 dollars américains (environ 36 à 72 yuans). Au début de cette année, les salaires horaires de certains commentateurs avaient été réduits à 1 à 3 dollars de l'heure (environ 7 à 22 yuans).
Le travail d'annotation est toujours le fondement de l'intelligence artificielle et il a formé une chaîne d'approvisionnement complète. Ces types d'emplois sont là pour rester longtemps.
Le travail d'annotation est différent des smartphones et de la fabrication automobile en ce qu'il est facilement déformé et fluide, et se déplace souvent vers des endroits où les coûts d'exploitation sont inférieurs.
Quelques mois après avoir obtenu son diplôme de l'Université de Nairobi, Joe, aujourd'hui âgé de 30 ans, a trouvé un emploi d'annotateur, aidant à traiter les informations brutes utilisées pour former l'intelligence artificielle, ce qui était ennuyeux et fastidieux. L'intelligence artificielle apprend en trouvant des modèles dans de grandes quantités de données, mais ces données doivent d'abord être classées et étiquetées par les humains, on peut donc dire que les humains sont des "travailleurs fantômes" cachés derrière les machines.
Prenez le travail de Joe, par exemple, où il étiquette la vidéo pour les voitures autonomes, identifie les voitures, les piétons, les cyclistes et tout ce dont le conducteur doit faire attention, image par image, sous tous les angles de caméra. C'est un travail difficile et répétitif. Une courte vidéo de quelques secondes prend huit heures à annoter, pour laquelle Joe est payé environ 10 $.
Puis, en 2019, une opportunité s'est présentée devant lui et Joe a commencé à former des recrues pour une nouvelle entreprise qui avait désespérément besoin d'annotateurs, gagnant quatre fois plus. Toutes les deux semaines, 50 nouveaux employés font la queue pour entrer dans un immeuble de bureaux à Nairobi pour commencer leur apprentissage. Le besoin d'annotateurs semble sans fin. Il leur sera demandé de catégoriser les vêtements qu'ils voient dans un selfie miroir, de déterminer la pièce dans laquelle ils se trouvent à travers les yeux d'un robot aspirateur, et de dessiner des cartons autour d'une moto scannée par lidar. Plus de la moitié des étudiants de Joe abandonnent généralement avant la fin de la formation. "Certaines personnes ne savent pas rester longtemps au même endroit", expliqua-t-il doucement. De plus, admet-il, "le travail est ennuyeux".
Mais c'est un bon travail dans un endroit où les emplois sont rares, et Joe a produit des centaines de diplômés. Après la formation, les apprentis peuvent rentrer chez eux et travailler seuls dans leurs chambres et cuisines sans dire à personne ce qu'ils font. Ce n'est pas le vrai problème parce qu'ils ne comprennent même pas ce qu'ils font.
Étiqueter des objets pour les voitures autonomes est facile, mais classer des extraits de dialogue déformés et identifier si le locuteur est un robot ou un humain est semé d'embûches. Chaque objet de reconnaissance est une petite partie d'un projet plus vaste, il est donc difficile de dire exactement à quoi ils entraînent l'IA. Les noms de ces objets ne fournissent pas non plus d'indices, Crab Generation, Whale Segment, Woodland Gyro et Pillbox Bratwurst sont tous des codes de travail sans ordre logique.
Quant à l'entreprise qui les a embauchés, la plupart des gens ne le connaissent que sous le nom de Remotasks, un site Web qui offre des opportunités d'emploi à toute personne parlant couramment l'anglais. Comme la plupart des annotateurs, Joe ne savait pas que Remotasks était une entreprise de travail contractuel appartenant à Scale AI. Scale AI est un fournisseur de données de plusieurs milliards de dollars de la Silicon Valley dont les clients incluent la startup d'intelligence artificielle OpenAI et l'armée américaine. Ni Remotasks ni Scale AI ne se mentionnent sur leurs sites Web.
01 Aider les machines aux capacités humaines uniques
Une grande partie de la réaction du public aux grands modèles de langage comme ChatGPT d'OpenAI s'est concentrée sur le travail qu'ils semblent sur le point d'automatiser. Mais même le système d'intelligence artificielle le plus impressionnant ne peut se passer de l'aide des humains, qui l'entraînent en étiquetant les données et interviennent lorsqu'elles se mélangent. Seules les entreprises qui peuvent se permettre d'acheter les données peuvent être compétitives dans l'industrie, et celles qui obtiennent les données feront tout leur possible pour les garder secrètes. Le résultat est que, à l'exception de quelques personnes, nous savons très peu de choses sur les informations qui influencent le comportement de ces systèmes, et encore moins sur les personnes derrière le comportement qui les façonne.
Pour les étudiants de Joe, c'est un travail dépouillé de tout semblant de normalité : on attend d'eux qu'ils respectent un horaire strict et qu'ils n'aient pas besoin de savoir ce qu'ils font ou pour qui ils travaillent. En fait, ils s'appellent rarement travail, juste des «tâches» routinières. Ils se disent travailleurs à la tâche.
L'anthropologue David Graeber a défini ce que l'on appelle les « emplois à la con », des emplois qui n'ont ni sens ni but. Ce sont des emplois qui devraient être automatisés, mais qui ne le sont pas, pour des raisons de bureaucratie, de statut ou d'inertie. Le travail de formation à l'intelligence artificielle est similaire : les tâches que les gens veulent automatiser sont généralement considérées comme automatisées, mais nécessitent toujours la participation des humains. Ces tâches ont des buts particuliers, mais les annotateurs n'en sont pas conscients.
Le boom actuel de l'IA a commencé avec ce travail plutôt fastidieux et répétitif. Dès 2007, Fei-Fei Li, chercheur en intelligence artificielle puis professeur à l'Université de Princeton, soupçonnait que la clé de l'amélioration des réseaux de neurones pour la reconnaissance d'images était de s'entraîner sur plus de données, nécessitant des millions d'images étiquetées plutôt que des dizaines de milliers. Le problème est qu'il aurait fallu à son équipe des décennies et des millions de dollars pour taguer autant de photos.
Fei-Fei Li a trouvé des milliers de travailleurs sur la plate-forme de crowdsourcing d'Amazon, Mechanical Turk, où des personnes du monde entier effectuent de petites tâches pour pas cher. L'ensemble de données étiqueté qui en résulte, connu sous le nom d'ImageNet, a permis une percée majeure dans l'apprentissage automatique, revigorant le domaine et inaugurant les progrès de la dernière décennie.
L'annotation reste un élément essentiel du développement de l'IA, mais les ingénieurs ont souvent l'impression qu'il s'agit d'une condition préalable éphémère et fastidieuse pour le travail de modélisation plus glamour. Vous pourriez rassembler autant de données étiquetées à moindre coût que possible pour former votre propre modèle, et si vous pouviez le faire, du moins en théorie, vous n'auriez plus besoin d'annotateurs. Cependant, le travail d'annotation n'est jamais vraiment fait. Les chercheurs affirment que les systèmes d'apprentissage automatique sont "fragiles" et sujets à l'échec lorsqu'ils rencontrent des éléments dans les données de formation qui ne sont pas bien expliqués. Ces défaillances sont appelées "cas extrêmes" et peuvent avoir de graves conséquences.
En 2018, une voiture d'essai autonome de la société de covoiturage Uber a tué une femme car, bien qu'elle soit programmée pour éviter les cyclistes et les piétons, elle ne savait pas quoi faire avec les cyclistes traversant les gens. Plus les systèmes d'IA fournissent des conseils juridiques et une assistance médicale, plus ils rencontrent de cas extrêmes, ce qui nécessite plus d'humains pour les trier. Cela a donné naissance à une industrie mondiale de personnes comme Joe qui utilisent leurs capacités humaines uniques pour aider les machines.
Au cours des six derniers mois, le journaliste d'investigation technologique Josh Dzieza a parlé à plus de deux douzaines d'annotateurs du monde entier, dont beaucoup forment des chatbots de pointe, mais aussi beaucoup font le travail physique banal nécessaire pour faire fonctionner l'IA . Certains ont catalogué le contenu émotionnel des vidéos TikTok, les nouvelles variantes de spam et la publicité en ligne inappropriée. D'autres examinent les transactions par carte de crédit et déterminent les types d'achats qui y sont associés, ou examinent les recommandations du commerce électronique et décident si vous allez réellement aimer cette chemise après en avoir acheté une autre.
Les humains corrigent les erreurs des chatbots du service client, écoutent les demandes de l'assistant intelligent d'Amazon Alexa et catégorisent les émotions des gens lors d'appels vidéo. Ils étiquettent les aliments afin que les réfrigérateurs intelligents ne soient pas perturbés par de nouveaux emballages, vérifient les caméras de sécurité automatisées avant de déclencher l'alarme et aident les tracteurs autonomes confus à identifier le maïs.
02 Les commentaires sont une grosse affaire, engendrant le "plus jeune milliardaire autodidacte"
"C'est une chaîne d'approvisionnement complète", a déclaré Sonam Jindal, directeur du programme et de la recherche au Partenariat à but non lucratif sur l'IA. "La perception générale dans l'industrie est que ce travail n'est pas un élément essentiel du développement technologique, ce n'est pas un élément essentiel de le développement de la technologie." Prospérera pendant longtemps. Toute l'excitation se répand autour de la construction de l'IA, et une fois que nous l'avons construite, les annotations ne sont plus nécessaires, alors pourquoi s'embêter à y penser ? Mais l'étiquetage des données est le fondement de l'IA, tout comme Autant l'intelligence est le fondement de l'IA, autant nous devons les considérer comme de vrais emplois dans l'économie de l'IA qui sont là pour rester encore longtemps."
Les fournisseurs de données derrière des noms familiers comme OpenAI, Google et Microsoft se présentent sous différentes formes. Il existe également des sociétés d'externalisation privées avec des bureaux de type centre d'appels, comme CloudFactory au Kenya et au Népal, où Joe effectue un travail d'annotation pour 1,20 $ de l'heure avant de passer à Remotasks.
Il existe également des sites de "crowdworker" comme Mechanical Turk et Clickworker, où n'importe qui peut s'inscrire pour effectuer des tâches. Au milieu se trouvent des services comme Scale AI. Tout le monde peut s'inscrire, mais tout le monde doit réussir un examen de qualification, un cours de formation et faire l'objet d'un suivi des performances. Les annotations sont une grosse affaire. Scale AI, fondée en 2016 par Alexander Wang, alors âgé de 19 ans, était évaluée à 7,3 milliards de dollars en 2021, faisant de lui l'un des plus jeunes milliardaires autodidactes de Forbes.
Cette chaîne d'approvisionnement complexe est difficile à comprendre pour les étrangers. Les entreprises qui achètent des données étiquetées exigent une confidentialité stricte, selon des sources du secteur. Les annotations divulguent parfois des informations sur le système d'IA en cours de développement, et l'ajout d'un grand nombre d'annotateurs rend les fuites difficiles à prévenir. Les annotateurs sont toujours avertis de ne parler à personne de leur travail, pas même à leurs amis et collègues. Plus important encore, l'extrême division du travail garantit qu'ils n'ont pas suffisamment d'informations pour parler de leur travail, même s'ils le voulaient.
Compte tenu de cela, il n'y a aucun moyen de donner des estimations détaillées du nombre de personnes travaillant dans l'annotation, mais ce qui est certain, c'est qu'elles sont nombreuses et en croissance rapide. Google Research a récemment publié un article qui donne de vagues estimations du nombre d'annotateurs à "des millions" et peut-être des "milliards" à l'avenir.
L'automatisation se présente souvent de manière inattendue. Erik Duhaime, PDG de Centaur Labs, une société d'annotation de données médicales, rappelle qu'il y a quelques années, plusieurs éminents ingénieurs en apprentissage automatique avaient prédit que l'intelligence artificielle remplacerait les radiologues. Lorsque cela ne se produit pas, la sagesse conventionnelle se tourne vers les radiologues utilisant l'IA comme outil.
Aucune de ces choses ne s'est produite, selon Duheim. L'intelligence artificielle est très douée pour des tâches spécifiques, ce qui incite à décomposer le travail et à l'attribuer à des systèmes algorithmiques spécialisés et à des humains tout aussi spécialisés. Par exemple, a-t-il dit, un système d'IA pourrait être capable de détecter le cancer, mais seulement dans certains types de machines, dans certains types d'images. Donc, vous avez besoin de quelqu'un pour vous aider à vérifier que l'IA reçoit le bon type de données, et peut-être quelqu'un d'autre pour vérifier qu'elle fonctionne avant de la transmettre à une autre IA pour rédiger un rapport et enfin à un humain. "L'IA ne remplacera pas les emplois humains, mais elle change la façon dont les emplois sont organisés", a déclaré Duheim.
Si vous considérez l'intelligence artificielle comme une machine intelligente et pensante, vous ignorez peut-être les humains qui se cachent derrière elle. Du Haimei estime que l'impact de l'intelligence artificielle sur le travail moderne est comme le passage de la fabrication artisanale à la fabrication industrielle : des processus cohérents sont décomposés en petites tâches, disposées le long de la chaîne de montage, certaines étapes sont réalisées par des machines, d'autres par des humains, mais il est différent des précédents. La situation est tout à fait différente.
Les inquiétudes concernant la perturbation de l'IA sont souvent contrées en disant que l'IA automatise certaines tâches, pas des tâches entières. Ces tâches sont souvent fastidieuses et ennuyeuses, laissant les gens se consacrer à un travail humain plus épanouissant. Mais il est également possible que l'essor de l'intelligence artificielle ressemble également aux technologies d'économie de main-d'œuvre du passé, peut-être comme le téléphone ou la machine à écrire, qui éliminent la corvée de la transmission de messages et de l'écriture manuscrite, mais génèrent plus d'informations sur la communication, le commerce et A tel point qu'un nouveau bureau doté de nouveaux types d'ouvriers, commis, comptables, dactylographes, etc., était nécessaire pour les gérer. Vous ne perdrez peut-être pas votre emploi lorsque l'IA rejoindra votre travail, mais cela peut devenir plus étrange, plus isolant et plus fastidieux.
03 Simplifiez la réalité complexe en quelque chose de lisible par machine
Plus tôt cette année, la journaliste Ziyeza s'est inscrite pour un emploi chez Remotasks. Le processus est simple. Il vous suffit de saisir les spécifications de l'ordinateur, la vitesse du réseau et les informations de contact de base pour accéder au "Centre de formation". Pour obtenir des missions rémunérées, Ziyeza devait d'abord suivre les cours d'introduction pertinents, mais non rémunérés. Le centre de formation a présenté une série de cours aux noms incompréhensibles comme Glue Swimsuits et Poster Hawaii. Zieza a cliqué sur quelque chose appelé GFD Chunking, qui demande que les vêtements soient étiquetés sur les photos des réseaux sociaux.
Au-delà de cela, il existe des instructions pour des tâches telles que devoir étiqueter des articles qui sont réels, portables par des humains ou destinés à être portés par de vraies personnes. Confiant dans sa capacité à distinguer les vrais vêtements que les vraies personnes pourraient porter des faux vêtements que les vraies personnes ne pouvaient pas, Ziyeza a entrepris de tester. Cependant, il a été immédiatement frappé à la tête : l'ordinateur a donné une photo de magazine d'une femme en jupe. Les photos de vêtements doivent-elles être considérées comme de vrais vêtements ? Non, pensa Ziyeza, parce que les gens ne peuvent pas porter de photos de vêtements. Le résultat affiche une erreur ! Car aux yeux de l'intelligence artificielle, des photos de vrais vêtements sont équivalentes à de vrais vêtements.
L'image qui suit est celle d'une femme prenant un selfie dans un miroir en pied dans une chambre faiblement éclairée. La chemise et le short qu'elle porte sont de vrais vêtements, et le reflet des vêtements est-il réel ? Ziyeza a également donné une réponse négative, mais le système d'intelligence artificielle estime que le reflet de vrais vêtements devrait également être de vrais vêtements.
Après des essais et des erreurs embarrassants, Ziyeza s'est finalement mis au travail, pour découvrir avec horreur que les instructions qu'il avait eu du mal à suivre avaient été mises à jour à plusieurs reprises et avaient atteint 43 pages, y compris Ne marquez pas une valise ouverte pleine de vêtements ; n'étiquetez pas les chaussures mais étiquetez les palmes ; étiquetez les leggings mais pas les collants ; n'étiquetez pas les serviettes même si quelqu'un les porte ; n'étiquetez pas les vêtements Étiquetez-le, mais n'étiquetez pas l'armure. etc......
Milagros Miceli, un chercheur travaillant sur les données à l'Institut Weizenbaum en Allemagne, a déclaré qu'il y avait une confusion généralisée dans l'industrie. Cela est en partie dû à la façon dont les systèmes d'apprentissage automatique apprennent. Les humains n'ont besoin que de quelques exemples pour comprendre le concept de "chemise", alors que les programmes d'apprentissage automatique ont besoin de milliers d'exemples, et ils doivent le faire avec une cohérence parfaite et une variété suffisante (polos, chemises pour l'extérieur, chemises accrochées à un rack) afin que le système puisse gérer la diversité du monde réel. "Imaginez que nous devions réduire la réalité complexe à quelque chose que des machines maladroites peuvent lire", a déclaré Miselli.
Pour les machines, le fait de simplifier la réalité introduit une énorme complexité. Les rédacteurs d'instructions doivent proposer des règles qui permettent aux humains de classer le monde avec une cohérence parfaite. Pour ce faire, ils créent souvent des catégories que les humains n'utiliseraient pas. Si une personne est invitée à étiqueter toutes les chemises sur une photo, elle ne peut pas étiqueter les chemises dans le miroir car elle sait qu'il s'agit de reflets et non de vêtements réels. Mais pour une IA qui ne comprend pas le monde réel, ce ne sont que des pixels, les deux sont exactement les mêmes. Si certaines chemises du jeu de données sont étiquetées et que d'autres ne le sont pas, le modèle ne fonctionnera pas. L'ingénieur est donc retourné chez le fournisseur avec des informations mises à jour et a demandé d'étiqueter la chemise qui se reflétait dans le miroir. Bientôt, vous aurez un autre guide de 43 pages, toutes en majuscules rouges.
Le travail d'un annotateur consiste généralement à mettre de côté la compréhension humaine et à suivre les instructions très, très strictement. Comme l'a dit un commentateur, pensez comme un robot. C'est un espace mental étrange où vous faites de votre mieux pour suivre des règles ridicules mais strictes, comme passer un test standard tout en prenant des hallucinogènes. Les annotateurs ont toujours des questions confuses comme, est-ce une chemise rouge avec une bande blanche ou est-ce une chemise blanche avec une bande rouge ? Si un bol en osier est rempli de pommes, est-ce un "bol décoratif" ? De quelle couleur est l'imprimé léopard ? Chaque question doit trouver une réponse, et une mauvaise supposition pourrait vous faire bannir et commencer une toute nouvelle mission entièrement différente avec ses propres règles déconcertantes.
04 Payez à la pièce, vérifiez la tâche toutes les trois heures
La plupart des travaux sur Remotasks sont payés à la pièce, avec des gains allant de quelques centimes à quelques dollars pour une tâche. Étant donné que les tâches peuvent prendre des secondes ou des heures, les salaires sont difficiles à prévoir. Lorsque Remotasks est arrivé pour la première fois au Kenya, les commentateurs ont déclaré qu'il payait relativement bien. Cela représente en moyenne environ 5 à 10 dollars de l'heure, selon la tâche. Mais avec le temps, le salaire baisse.
Anna Franko, porte-parole de Scale AI, a déclaré que les économistes de l'entreprise analysent les détails du projet, les compétences requises, le coût de la vie régional et d'autres facteurs "pour garantir une rémunération juste et compétitive". Les anciens employés de Scale AI ont également déclaré que la rémunération est déterminée par un mécanisme similaire à la tarification de l'inflation, qui s'ajuste en fonction du nombre d'annotateurs disponibles et de la vitesse à laquelle les données sont nécessaires. Les statistiques montrent que les annotateurs Remotasks aux États-Unis gagnent généralement entre 10 et 25 dollars de l'heure, mais les experts dans certains domaines d'annotation professionnels sont mieux payés. Au début de cette année, le salaire des commentateurs kenyans était tombé à 1 à 3 dollars américains (environ 7 à 22 yuans) de l'heure.
La plainte la plus courante concernant le travail à distance est sa variabilité. Ce type de travail est suffisamment stable pour être un emploi à temps plein à long terme, mais il est trop imprévisible pour s'y fier entièrement. Les annotateurs passent des heures à lire les instructions et à suivre une formation pro bono juste pour effectuer une douzaine de tâches avant la fin du projet. Il se peut qu'il n'y ait pas de nouvelles tâches pendant quelques jours, puis, à l'improviste, une tâche complètement différente apparaît, peut-être pendant des heures, voire des semaines. Toute mission pourrait être leur dernière, et ils ne savent jamais quand la prochaine mission viendra.
Les ingénieurs et les fournisseurs de données affirment que ce cycle d'expansion et de récession découle du rythme de développement de l'IA. La formation d'un grand modèle nécessite de nombreuses annotations, suivies de mises à jour plus itératives, et les ingénieurs veulent que tout cela se produise le plus rapidement possible afin de pouvoir respecter leur date de sortie cible. Ils peuvent avoir besoin de milliers d'annotateurs au cours de quelques mois, puis tomber à quelques centaines, et finalement à une douzaine d'experts d'un type particulier. Ce processus est parfois répété par cycles. "La question est de savoir qui supporte le coût de ces fluctuations?", A déclaré Jindal de Partnership on AI.
Pour réussir, les annotateurs doivent travailler ensemble. Victor a commencé à travailler pour Remotasks alors qu'il était étudiant à Nairobi, et quand on lui a dit qu'il avait des problèmes avec une tâche de contrôle de la circulation, il a dit que tout le monde savait qu'il fallait éviter cette tâche : trop délicate, mal payée, ça n'en valait pas la peine. Comme de nombreux commentateurs, Victor utilise un groupe WhatsApp non officiel pour passer le mot lorsque de bonnes missions se présentent. Lorsqu'il avait une nouvelle idée, il lançait une réunion Google impromptue pour montrer aux autres comment faire. Tout le monde peut se joindre et travailler ensemble pendant un certain temps, en partageant des astuces. "Nous avons développé une culture d'entraide parce que nous savons qu'une seule personne ne peut pas connaître toutes les astuces", a-t-il déclaré.
Les annotateurs doivent toujours être sur leurs gardes, car les tâches apparaissent et disparaissent sans avertissement. Victor a constaté que les objets apparaissaient souvent au milieu de la nuit, alors il a pris l'habitude de se lever toutes les trois heures environ pour les vérifier. Quand il y a une tâche, il restera toujours éveillé. À un moment donné, il est resté 36 heures sans dormir, marquant les coudes, les genoux et la tête sur des photos de foule, sans savoir pourquoi. Une autre fois, il est resté éveillé si longtemps que ses yeux étaient rouges et enflés.
Les annotateurs savent souvent seulement qu'ils forment des systèmes d'IA pour des entreprises ailleurs, mais parfois le voile de l'anonymat tombe et il y a trop d'indices pour les marques ou les chatbots mentionnés dans les instructions. "J'ai lu les instructions, j'ai cherché sur Google et j'ai découvert que je travaillais pour un milliardaire de 25 ans. Si je fais de quelqu'un un milliardaire et que je gagne quelques dollars, je perds littéralement ma vie."
Se décrivant comme un « croyant sauvage » de l'intelligence artificielle, Victor a commencé le travail d'annotation parce qu'il voulait aider à créer un avenir entièrement automatisé. Mais plus tôt cette année, quelqu'un a publié un article du magazine Time dans son groupe WhatsApp sur la façon dont les employés du fournisseur Sama AI étaient payés moins de 2 $ de l'heure pour former ChatGPT à identifier le contenu toxique. "Les gens sont scandalisés que ces entreprises soient si rentables et paient si peu", a déclaré Victor, qui ne connaissait pas la relation entre Remotasks et Scale AI jusqu'à ce qu'on lui en parle. Les instructions pour l'une des tâches sur lesquelles il a travaillé étaient presque identiques à celles utilisées par OpenAI, ce qui signifie qu'il s'entraînait probablement aussi sur ChatGPT, pour environ 3 $ de l'heure. "
Je me souviens que quelqu'un a posté qu'on se souviendra de nous à l'avenir », a-t-il déclaré. Zero One a répondu:« Nous avons été traités pire que l'infanterie. On ne se souviendra de nous nulle part dans le futur, je m'en souviens très bien. Personne ne reconnaîtra le travail que nous faisons et les efforts que nous déployons. "
L'identification des vêtements et l'étiquetage des conversations du service client ne sont que quelques-unes des tâches d'annotation. Récemment, la chose la plus en vogue sur le marché est les formateurs de chatbot. Parce qu'il nécessite une expertise spécifique au domaine ou la maîtrise de la langue, et que les salaires ont tendance à être ajustés selon la région, le travail a tendance à payer plus. Certains types d'annotations professionnelles peuvent rapporter jusqu'à 50 $ ou plus par heure.
Lorsqu'une femme nommée Anna cherchait un emploi au Texas, elle est tombée sur une offre d'emploi générique en ligne et a postulé. Après avoir réussi un examen d'introduction, elle a été introduite dans une salle Slack de 1 500 personnes en formation sur un projet nommé Dolphin, qu'elle a découvert plus tard était le chatbot Sparrow de Google DeepMind, l'un des nombreux chatbots en concurrence avec ChatGPT. Le travail d'Anna consiste à discuter avec Sparrow toute la journée, et le salaire horaire est d'environ 14 $, plus la prime pour une efficacité de travail élevée, "c'est définitivement mieux que de travailler dans le supermarché local pour gagner 10 $ de l'heure".
05 L'IA répond à trois critères : précision, utilité et innocuité
Et, Ana aime le travail. Elle a discuté de science-fiction, de paradoxes mathématiques, d'énigmes pour enfants et d'émissions de télévision avec Sparrow. Parfois, les réponses du chatbot la faisaient éclater de rire. Parfois, elle se sent aussi sans voix. Anna a déclaré : "Parfois, je ne sais vraiment pas quoi demander, alors j'ai un petit cahier avec deux pages déjà écrites dedans. Je cherche des sujets intéressants sur Google, donc je pense que je peux faire du bon travail. ce qui n'est pas toujours le cas."
Chaque fois qu'Anna invite Sparrow, il donne deux réponses et elle choisit la meilleure, créant ce qu'on appelle des "données de rétroaction humaines". Lorsque ChatGPT a fait ses débuts à la fin de l'année dernière, son style de conversation incroyablement naturel a été attribué au fait qu'il avait été formé sur de grandes quantités de données Internet. Mais le langage qui alimente ChatGPT et ses concurrents est filtré à travers plusieurs séries d'annotations humaines.
Une équipe de sous-traitants a écrit des exemples de la façon dont les ingénieurs voulaient que le chatbot se comporte, posant des questions puis donnant les bonnes réponses, décrivant des programmes informatiques puis donnant des codes fonctionnels, demandant des conseils criminels puis déclinant poliment. Une fois le modèle entraîné avec ces exemples, d'autres sous-traitants sont introduits pour le stimuler et classer ses réponses. C'est ce qu'Ana a fait à Sparrow.
Les critères exacts que les évaluateurs devaient utiliser variaient, tels que l'honnêteté, la serviabilité ou simplement les préférences personnelles. Le fait est qu'ils créent des données sur le goût humain, et une fois qu'il y a suffisamment de données, les ingénieurs peuvent former un deuxième modèle pour imiter leurs préférences à grande échelle, en automatisant le processus de classement et en formant leur IA à reconnaître la manière d'agir du goût humain. Le résultat est un robot très humain qui rejette essentiellement les demandes nuisibles et explique sa nature d'intelligence artificielle d'une manière qui semble être consciente de soi.
En d'autres termes, ChatGPT a l'air humain parce qu'il a été formé par une IA imitant l'humain qui agit comme un humain.
La technique est appelée "apprentissage par renforcement à partir de la rétroaction humaine", ou RLHF en abrégé, et elle est si efficace pour s'arrêter pour réfléchir à ce que l'IA ne fait pas. Par exemple, lorsqu'un annotateur apprend à un modèle à être précis, le modèle n'apprend pas à vérifier les réponses par rapport à la logique ou à des sources externes, ou même ce qu'est la précision, en tant que concept. Bien que le modèle soit toujours une machine de prédiction de texte qui imite les modèles d'écriture humaine, son corpus de formation a maintenant été complété par des exemples personnalisés et le modèle a été pondéré pour les prendre en charge.
Cela peut amener le modèle à extraire des modèles de parties de sa carte linguistique qui sont marquées comme exactes et à produire un texte qui correspond à la vérité, mais cela peut également l'amener à imiter le style confiant et le jargon d'un texte précis tout en écrivant quelque chose de complètement faux. . Il n'y a aucune garantie que le texte marqué comme exact par les annotateurs soit réellement exact. Même s'il est précis, il n'y a aucune garantie que le modèle en ait appris le bon modèle.
Cette dynamique rend l'annotation des chatbots pas facile. Il doit être rigoureux et cohérent, car une rétroaction bâclée, telle que le marquage d'un matériau au son correct comme précis, peut rendre le modèle formé plus convaincant. OpenAI et DeepMind ont utilisé RLHF dans un projet conjoint antérieur, dans ce cas, pour entraîner une main robotique virtuelle à saisir un objet, ce qui s'est avéré entraîner également la main robotique à positionner et à balancer autour de l'objet entre l'objet et son évaluateur, That façon dont il n'apparaîtra qu'à ses surveillants humains.
Le classement des réponses d'un modèle de langage est toujours quelque peu subjectif car il s'agit d'un langage. Un texte de n'importe quelle longueur peut contenir plusieurs éléments qui peuvent être vrais, faux ou trompeurs. Les chercheurs d'OpenAI se sont heurtés à cet obstacle dans un autre article du RLHF. Pour que leur modèle résume le texte, les chercheurs ont constaté que seuls 60 % des résumés du modèle étaient bons. "Contrairement à de nombreuses tâches d'apprentissage automatique, nos requêtes n'ont pas de vérité fondamentale claire", déplorent-ils.
Lorsqu'Ana évalue les réponses de Sparrow, elle doit examiner leur exactitude, leur utilité et leur innocuité, tout en vérifiant que le modèle ne donne pas de conseils médicaux ou financiers, ne s'anthropomorphise pas ou ne viole pas d'autres critères. Pour être utiles en tant que données d'entraînement, les réponses du modèle doivent être ordonnées quantitativement : un robot qui peut vous dire comment fabriquer une bombe est-il "meilleur" qu'un robot inoffensif qui refuse de répondre à toutes les questions ?
Dans un article de DeepMind, alors que les créateurs de Sparrow annotaient à tour de rôle, quatre chercheurs ont débattu pour savoir si leur bot faisait des hypothèses sur le sexe des utilisateurs qui se tournaient vers lui pour obtenir des conseils émotionnels. Selon Geoffrey Irving, chercheur chez DeepMind, les chercheurs de l'entreprise tiennent des séances d'annotation hebdomadaires au cours desquelles ils examinent eux-mêmes les données et discutent des cas ambigus. Lorsqu'un cas est particulièrement délicat, ils consultent des experts en éthique ou en la matière.
Anna trouvait souvent qu'elle devait choisir entre deux mauvaises options. "Même si ce sont toutes les deux des réponses horriblement fausses, vous devez toujours déterminer laquelle est la meilleure et écrire le texte expliquant pourquoi », dit-elle. Parfois, lorsqu'aucune des réponses n'est bonne, elle est encouragée à donner la réponse elle-même. une meilleure réponse. Elle le fait environ la moitié du temps pendant l'entraînement.
06 Les commentaires nécessitent de plus en plus des compétences et une expertise spécifiques
Parce que les données de retour sont difficiles à collecter, le prix de vente est plus élevé. Le type de données de base sur les préférences qu'Ana collecte se vend environ 1 $ pièce, selon des personnes connaissant bien l'industrie. Mais si vous voulez former un modèle pour faire de la recherche juridique, vous avez besoin de quelqu'un avec une formation juridique, ce qui entraîne une augmentation des coûts. Toutes les personnes impliquées ne révéleront pas exactement combien elles ont payé, mais d'une manière générale, un exemple écrit professionnel peut coûter quelques centaines de dollars, tandis qu'un classement par un expert peut coûter 50 $ ou plus. Un ingénieur a révélé qu'il avait déjà payé 300 $ pour un échantillon du dialogue de Socratic.
OpenAI, Microsoft, Meta et Anthropic n'ont pas révélé combien de personnes ont contribué des annotations à leurs modèles, combien elles ont été payées ou où elles se trouvaient dans le monde. Les annotateurs travaillant sur Sparrow sont payés au moins au salaire minimum de l'heure, selon l'endroit où ils se trouvent, a déclaré Owen de la société sœur de Google DeepMind. Ana ne sait "rien" sur Remotasks, mais en sait plus sur Sparrow, sachant qu'il s'agit de l'assistant d'intelligence artificielle de DeepMind, que ses créateurs ont formé à l'aide de RLHF.
Jusqu'à récemment, il était relativement facile de repérer les mauvaises sorties des modèles de langage, qui ressemblaient à du charabia. Mais à mesure que les modèles s'améliorent, cela devient plus difficile, un problème connu sous le nom de "supervision évolutive". L'utilisation par Google de modèles de langage moderne pour les débuts de son assistant IA, Bard, a par inadvertance démontré à quel point il est difficile de repérer les erreurs dans les modèles de langage moderne. Cette trajectoire signifie que l'annotation nécessite de plus en plus des compétences et une expertise spécifiques.
L'année dernière, un gars du nom de Lewis travaillait sur Mechanical Turk, et après avoir terminé une mission, il a reçu un message l'invitant à rejoindre une plateforme dont il n'avait jamais entendu parler. Il s'appelle Taskup.ai, et le site est assez simple, juste un arrière-plan bleu marine avec le texte "Pay as you go". Lewis a choisi de s'inscrire.
Le travail paie beaucoup mieux que tout autre travail qu'il a eu auparavant, généralement autour de 30 $ de l'heure. Cependant, il est également plus difficile, nécessitant la conception de scénarios complexes pour inciter les chatbots à donner des conseils dangereux, à tester la capacité du modèle à conserver sa propre personnalité et à s'engager dans des conversations détaillées sur des sujets scientifiques hautement techniques et nécessitant des recherches approfondies. Lewis a trouvé le travail "satisfaisant et excitant". Tout en vérifiant un modèle et en essayant de le coder en Python, Lewis apprenait. Il ne peut pas travailler plus de 4 heures d'affilée de peur de s'épuiser mentalement et de faire une erreur, et il veut garder son emploi.
Lewis a déclaré: "S'il y a quelque chose que je peux changer, je veux juste en savoir plus sur ce qui se passe de l'autre côté. Nous ne savons que ce dont nous avons besoin pour faire le travail, mais si j'en sais plus, peut-être que je peux faire le travail. … une plus grande réussite, et peut-être considérer cela comme une carrière.
Le journaliste d'investigation technologique Ziyeza a interviewé huit autres personnes, principalement aux États-Unis, qui ont eu des expériences similaires en répondant à des sondages ou en accomplissant des tâches sur d'autres plates-formes, puis se sont retrouvées embauchées par Taskup.ai ou quelques sites similaires, comme DataAnnotation.tech ou Gethybrid.io. Leur travail consiste souvent à former des chatbots, bien que leurs chatbots soient de meilleure qualité et plus spécialisés que les autres sites sur lesquels ils ont travaillé. L'un d'eux est une macro de feuille de calcul de présentation, et l'autre a juste besoin d'avoir une conversation et d'évaluer les réponses selon les critères qu'elle souhaite. Elle pose souvent au chatbot des questions qui reviennent également lorsqu'elle discute avec sa fille de 7 ans, telles que "Quel est le plus gros dinosaure ?" et "Écrivez une histoire sur un tigre".
Taskup.ai, DataAnnotation.tech et Gethybri.io semblent tous appartenir à la même société : Surge AI. Son directeur général, Edwin Chen, n'a ni confirmé ni infirmé le lien, mais il était prêt à parler de son entreprise et de la façon dont il voit les annotations évoluer.
"J'ai toujours pensé que le domaine de l'étiquetage était simpliste", déclare Edwin, qui a fondé Surge AI en 2020 après avoir travaillé dans la recherche sur l'IA chez Google, Facebook et Twitter, convaincu que les étiquettes participatives ne suffisaient pas. Edwin a déclaré : "Nous espérons que l'intelligence artificielle pourra raconter des blagues, rédiger de bons textes marketing ou m'aider lorsque j'ai besoin d'une thérapie. Mais tout le monde ne peut pas raconter des blagues ou résoudre des problèmes de programmation Python. Cet état d'esprit de mauvaise qualité et de faible compétence se transforme en quelque chose plus riche et capture les compétences humaines, la créativité et les valeurs que nous voulons que les systèmes d'IA aient."
07 Les systèmes d'apprentissage automatique sont trop étranges pour être totalement fiables
L'année dernière, Surge AI a renommé un ensemble de données de la classification par Google des publications Reddit par sentiment. Google a supprimé le contexte de chaque message et l'a envoyé à des annotateurs en Inde pour annotation. Les employés de Surge AI familiers avec la culture Internet américaine ont constaté que 30 % des annotations étaient erronées. Des messages comme "Enfer, mon frère" ont été classés dans la catégorie "Haine", tandis que "Cool McDonald's, mon préféré" a été classé dans la catégorie "Amour".
Edwin a déclaré que Surge AI vérifie les qualifications des annotateurs, par exemple si les personnes qui effectuent des tâches d'écriture créative ont de l'expérience en écriture créative, mais la manière exacte dont elle trouve le personnel est un "secret". Comme pour les Remotasks, les travailleurs doivent généralement suivre un cours de formation, bien que contrairement aux Remotasks, ils puissent être payés pour effectuer des tâches pendant la formation. Avoir moins de personnel mieux formé qui produit des données de meilleure qualité permet à Surge AI de payer mieux que ses pairs, mais il a refusé de donner plus de détails, affirmant seulement que les employés sont payés à un "niveau équitable et éthique". Ces annotateurs gagnent entre 15 $ et 30 $ de l'heure, mais ils ne représentent qu'une infime fraction de tous les annotateurs, un groupe qui compte aujourd'hui 100 000 personnes. Ce secret découle d'une demande d'un client, a-t-il expliqué.
Les clients de Surge AI incluent OpenAI, Google, Microsoft, Meta et Anthropic. Surge AI se concentre sur les commentaires et l'annotation de la langue, et après le lancement de ChatGPT, il a reçu un flot de demandes, a déclaré Edwin : "Je pensais que tout le monde connaissait la puissance de RLHF, mais je suppose que les gens ne l'ont tout simplement pas compris dans leur cœur."
Ces nouveaux modèles sont si impressionnants qu'ils ont inspiré une nouvelle vague de prédictions selon lesquelles l'annotation est sur le point d'être automatisée. La pression financière pour le faire est élevée compte tenu des coûts impliqués. Anthropic, Meta et d'autres ont récemment fait des progrès dans l'utilisation de l'intelligence artificielle pour réduire la quantité d'annotations humaines nécessaires pour guider les modèles, et d'autres développeurs ont commencé à utiliser GPT-4 pour générer des données de formation.
Cependant, un article récent a révélé que les modèles formés sur GPT-4 peuvent apprendre à imiter le style autoritaire de GPT avec moins de précision. Jusqu'à présent, lorsque les améliorations de l'IA rendaient une forme d'étiquetage obsolète, le besoin d'autres types plus complexes augmentait. Le débat est devenu public plus tôt cette année lorsque le PDG de Scale AI a tweeté qu'il avait prédit que les laboratoires d'IA dépenseraient bientôt des milliards de dollars en données humaines, tout comme ils calculaient comme ci-dessus. Le PDG d'OpenAI, Sam Altman, a répondu qu'à mesure que l'intelligence artificielle progresse, le besoin de données diminuera.
Edwin doute que l'IA atteigne un point où la rétroaction humaine n'est plus nécessaire, mais il voit que l'étiquetage devient de plus en plus difficile à mesure que les modèles s'améliorent. Comme de nombreux chercheurs, il pense que la voie à suivre impliquera des systèmes d'IA aidant les humains à superviser d'autres IA. Surge AI s'est récemment associé à Anthropic sur une preuve de concept qui demandait à des annotateurs humains de répondre à des questions sur un long morceau de texte avec l'aide d'un assistant IA peu fiable, la théorie étant que les humains doivent détecter les faiblesses de leur assistant IA et le raisonnement coopératif pour trouver la bonne réponse.
Une autre possibilité est que deux IA débattent l'une de l'autre, un humain rendant le jugement final. Le chercheur d'OpenAI, John Schulman, a déclaré lors d'une récente conférence à Berkeley: "Nous n'avons pas encore vu le véritable potentiel pratique de ce genre de choses, mais cela commence à devenir nécessaire car il est difficile pour les annotateurs de suivre l'avancement du modèle."
Edwin a déclaré: "Je pense que vous aurez toujours besoin d'un humain pour surveiller ce que fait l'IA simplement parce qu'ils sont cet extraterrestre. Les systèmes d'apprentissage automatique sont trop étranges pour être pleinement fiables. Le plus impressionnant aujourd'hui Certains de nos modèles ont des faiblesses qui semblent très étranges aux humains. Bien que GPT-4 puisse générer un texte complexe et convaincant, il ne peut pas dire quels mots sont des adjectifs.
08 ChatGPT aide beaucoup avec le flux de tâches
Alors que 2022 touchait à sa fin, Joe a commencé à entendre de ses élèves que leurs listes de tâches étaient souvent vides. Puis il a reçu un e-mail l'informant que le camp d'entraînement au Kenya fermait. Il a poursuivi ses missions de formation en ligne, mais il a commencé à s'inquiéter pour l'avenir. "
Il y a des indications que ce ne sera pas le cas pour longtemps ", a déclaré Joe. Le travail d'annotation est sur le point de quitter le Kenya. Des collègues qu'il a rencontrés en ligne, il a entendu dire que de telles missions étaient envoyées au Népal, en Inde et aux Philippines. . Joe a déclaré : "Les entreprises se déplacent d'une région à l'autre. Ils n'ont pas l'infrastructure locale, ils ont donc la possibilité de déménager là où les coûts d'exploitation leur sont plus avantageux. "
L'une des différences entre l'industrie de l'IA et les fabricants de téléphones portables et d'automobiles est sa fluidité. Ce travail est en constante évolution, étant automatisé et remplacé par de nouvelles demandes pour de nouveaux types de données. C'est un pipeline, mais il peut être constamment et rapidement reconfiguré, se déplaçant là où les compétences, la bande passante et la masse salariale adéquates sont disponibles.
Récemment, les emplois les mieux rémunérés pour les tâches d'annotation sont revenus aux États-Unis. En mai, Scale AI a commencé à répertorier les emplois d'annotation sur son site Web, à la recherche de personnes ayant de l'expérience dans presque tous les domaines que l'IA devrait conquérir. Certaines de ces listes de formateurs en IA qui ont des cours de fitness, des ressources humaines, des finances, de l'économie, de la science des données, de la programmation, de l'informatique, de la chimie, de la biologie, de la comptabilité, de la fiscalité, de la nutrition, de la physique, des voyages, de l'éducation K-12, du journalisme sportif et de soi -expertise d'aide.
Vous pouvez enseigner la loi aux robots et gagner 45 $ de l'heure ; leur apprendre la poésie et gagner 25 $ de l'heure. Le site répertorie également le recrutement de personnes ayant une expérience en matière de sécurité, probablement pour aider à former l'IA militaire. Scale AI a récemment dévoilé un modèle de langage de défense appelé Donovan, que les dirigeants de l'entreprise ont appelé "munitions dans la guerre de l'IA", et a remporté un contrat pour travailler sur le programme de véhicules de combat robotiques de l'armée.
Ana forme toujours des chatbots au Texas. Les collègues sont devenus des commentateurs et des modérateurs de Slack, et elle ne savait pas pourquoi, mais cela lui a donné l'espoir que le travail pourrait être une carrière à long terme. Une chose dont elle ne s'inquiète pas, c'est que les emplois soient remplacés par l'automatisation, a-t-elle déclaré : "Je veux dire, les chatbots peuvent faire beaucoup de choses incroyables, mais ils peuvent aussi faire des choses vraiment bizarres."
Lorsque Remotasks est arrivé au Kenya, Joe pensait que l'annotation pourrait être une bonne carrière. Il était déterminé à continuer le travail même après avoir déménagé ailleurs. Il a estimé qu'il y avait des milliers de personnes à Nairobi qui savaient comment faire le travail. Après tout, il a formé beaucoup de gens. Joe a loué un bureau dans la ville et a commencé à chercher des contrats d'externalisation : un travail d'annotation de plans pour une entreprise de construction, un autre d'annotation de fruits endommagés par des insectes pour une sorte de projet agricole et un autre pour des voitures autonomes. routines d'étiquetage.
Mais Joe a trouvé que sa vision était difficile à réaliser. Il n'a plus qu'un seul employé à temps plein, contre deux auparavant. "Nous n'avons pas eu un flux de travail régulier", a-t-il déclaré. Il n'y avait rien à faire pendant des semaines car les clients collectaient encore des données. Lorsque le client a fini de collecter les données, il a dû faire appel à des sous-traitants à court terme pour respecter leurs délais : "Le client ne se souciait pas de savoir si nous avions des travaux en cours. Tant que l'étiquetage de l'ensemble de données était fait, tout irait bien."
Afin de ne pas gaspiller leurs compétences, d'autres exécutants décident où va la tâche, et ils y vont. Ils louent des serveurs proxy pour dissimuler leur emplacement et achètent de fausses pièces d'identité pour contourner la sécurité afin de pouvoir prétendre travailler à Singapour, aux Pays-Bas, au Mississippi ou partout où la mission se déroule. C'est une entreprise risquée. Scale AI est devenu de plus en plus agressif en suspendant les comptes qui cachent leur emplacement, selon plusieurs acteurs de la mission. "
Nous sommes devenus un peu plus intelligents ces jours-ci parce que nous avons remarqué que dans d'autres pays, ils paient de bons salaires", a déclaré Victor. Il gagne deux fois plus en travaillant en Malaisie qu'au Kenya, mais "il faut faire attention".
Un autre commentateur kenyan a déclaré qu'il avait décidé de ne pas respecter les règles après que son compte ait été bloqué pour des raisons mystérieuses. Aujourd'hui, il gère plusieurs comptes dans plusieurs pays, effectuant des missions là où les revenus sont les plus élevés. Grâce à ChatGPT, il dit qu'il travaille vite et qu'il a un score de qualité élevé. Le bot, dit-il, est génial et lui permet d'effectuer rapidement des tâches à 10 $ en quelques minutes.
Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
Démystifier les "travailleurs migrants IA" derrière ChatGPT : ennuyeux et répétitif, payé à la pièce, salaire horaire aussi bas que 1 $
**Source :**Technologie Tencent
Résumé : Les annotateurs de données classent et étiquettent les données, permettant à l'intelligence artificielle d'apprendre en trouvant des modèles dans de grandes quantités de données, et sont considérés comme du "travail fantôme" caché derrière la machine. Le travail d'annotation est le fondement de l'intelligence artificielle, il a formé toute une chaîne d'approvisionnement, et ce type de travail continuera d'exister pendant longtemps.
Se concentrer
L'intelligence artificielle apprend en recherchant des modèles dans de grandes quantités de données, mais ces données doivent d'abord être classées et étiquetées par des humains, et des annotateurs de données voient le jour. Ils sont considérés comme des "travailleurs fantômes" cachés derrière les machines.
Le travail des annotateurs est ennuyeux et fastidieux. Ils doivent souvent faire un travail répétitif et sont payés à la pièce. Le salaire horaire moyen se situe entre 5 et 10 dollars américains (environ 36 à 72 yuans). Au début de cette année, les salaires horaires de certains commentateurs avaient été réduits à 1 à 3 dollars de l'heure (environ 7 à 22 yuans).
Le travail d'annotation est toujours le fondement de l'intelligence artificielle et il a formé une chaîne d'approvisionnement complète. Ces types d'emplois sont là pour rester longtemps.
Le travail d'annotation est différent des smartphones et de la fabrication automobile en ce qu'il est facilement déformé et fluide, et se déplace souvent vers des endroits où les coûts d'exploitation sont inférieurs.
Puis, en 2019, une opportunité s'est présentée devant lui et Joe a commencé à former des recrues pour une nouvelle entreprise qui avait désespérément besoin d'annotateurs, gagnant quatre fois plus. Toutes les deux semaines, 50 nouveaux employés font la queue pour entrer dans un immeuble de bureaux à Nairobi pour commencer leur apprentissage. Le besoin d'annotateurs semble sans fin. Il leur sera demandé de catégoriser les vêtements qu'ils voient dans un selfie miroir, de déterminer la pièce dans laquelle ils se trouvent à travers les yeux d'un robot aspirateur, et de dessiner des cartons autour d'une moto scannée par lidar. Plus de la moitié des étudiants de Joe abandonnent généralement avant la fin de la formation. "Certaines personnes ne savent pas rester longtemps au même endroit", expliqua-t-il doucement. De plus, admet-il, "le travail est ennuyeux".
Mais c'est un bon travail dans un endroit où les emplois sont rares, et Joe a produit des centaines de diplômés. Après la formation, les apprentis peuvent rentrer chez eux et travailler seuls dans leurs chambres et cuisines sans dire à personne ce qu'ils font. Ce n'est pas le vrai problème parce qu'ils ne comprennent même pas ce qu'ils font.
Étiqueter des objets pour les voitures autonomes est facile, mais classer des extraits de dialogue déformés et identifier si le locuteur est un robot ou un humain est semé d'embûches. Chaque objet de reconnaissance est une petite partie d'un projet plus vaste, il est donc difficile de dire exactement à quoi ils entraînent l'IA. Les noms de ces objets ne fournissent pas non plus d'indices, Crab Generation, Whale Segment, Woodland Gyro et Pillbox Bratwurst sont tous des codes de travail sans ordre logique.
Quant à l'entreprise qui les a embauchés, la plupart des gens ne le connaissent que sous le nom de Remotasks, un site Web qui offre des opportunités d'emploi à toute personne parlant couramment l'anglais. Comme la plupart des annotateurs, Joe ne savait pas que Remotasks était une entreprise de travail contractuel appartenant à Scale AI. Scale AI est un fournisseur de données de plusieurs milliards de dollars de la Silicon Valley dont les clients incluent la startup d'intelligence artificielle OpenAI et l'armée américaine. Ni Remotasks ni Scale AI ne se mentionnent sur leurs sites Web.
01 Aider les machines aux capacités humaines uniques
Une grande partie de la réaction du public aux grands modèles de langage comme ChatGPT d'OpenAI s'est concentrée sur le travail qu'ils semblent sur le point d'automatiser. Mais même le système d'intelligence artificielle le plus impressionnant ne peut se passer de l'aide des humains, qui l'entraînent en étiquetant les données et interviennent lorsqu'elles se mélangent. Seules les entreprises qui peuvent se permettre d'acheter les données peuvent être compétitives dans l'industrie, et celles qui obtiennent les données feront tout leur possible pour les garder secrètes. Le résultat est que, à l'exception de quelques personnes, nous savons très peu de choses sur les informations qui influencent le comportement de ces systèmes, et encore moins sur les personnes derrière le comportement qui les façonne.
Pour les étudiants de Joe, c'est un travail dépouillé de tout semblant de normalité : on attend d'eux qu'ils respectent un horaire strict et qu'ils n'aient pas besoin de savoir ce qu'ils font ou pour qui ils travaillent. En fait, ils s'appellent rarement travail, juste des «tâches» routinières. Ils se disent travailleurs à la tâche.
L'anthropologue David Graeber a défini ce que l'on appelle les « emplois à la con », des emplois qui n'ont ni sens ni but. Ce sont des emplois qui devraient être automatisés, mais qui ne le sont pas, pour des raisons de bureaucratie, de statut ou d'inertie. Le travail de formation à l'intelligence artificielle est similaire : les tâches que les gens veulent automatiser sont généralement considérées comme automatisées, mais nécessitent toujours la participation des humains. Ces tâches ont des buts particuliers, mais les annotateurs n'en sont pas conscients.
Le boom actuel de l'IA a commencé avec ce travail plutôt fastidieux et répétitif. Dès 2007, Fei-Fei Li, chercheur en intelligence artificielle puis professeur à l'Université de Princeton, soupçonnait que la clé de l'amélioration des réseaux de neurones pour la reconnaissance d'images était de s'entraîner sur plus de données, nécessitant des millions d'images étiquetées plutôt que des dizaines de milliers. Le problème est qu'il aurait fallu à son équipe des décennies et des millions de dollars pour taguer autant de photos.
Fei-Fei Li a trouvé des milliers de travailleurs sur la plate-forme de crowdsourcing d'Amazon, Mechanical Turk, où des personnes du monde entier effectuent de petites tâches pour pas cher. L'ensemble de données étiqueté qui en résulte, connu sous le nom d'ImageNet, a permis une percée majeure dans l'apprentissage automatique, revigorant le domaine et inaugurant les progrès de la dernière décennie.
L'annotation reste un élément essentiel du développement de l'IA, mais les ingénieurs ont souvent l'impression qu'il s'agit d'une condition préalable éphémère et fastidieuse pour le travail de modélisation plus glamour. Vous pourriez rassembler autant de données étiquetées à moindre coût que possible pour former votre propre modèle, et si vous pouviez le faire, du moins en théorie, vous n'auriez plus besoin d'annotateurs. Cependant, le travail d'annotation n'est jamais vraiment fait. Les chercheurs affirment que les systèmes d'apprentissage automatique sont "fragiles" et sujets à l'échec lorsqu'ils rencontrent des éléments dans les données de formation qui ne sont pas bien expliqués. Ces défaillances sont appelées "cas extrêmes" et peuvent avoir de graves conséquences.
En 2018, une voiture d'essai autonome de la société de covoiturage Uber a tué une femme car, bien qu'elle soit programmée pour éviter les cyclistes et les piétons, elle ne savait pas quoi faire avec les cyclistes traversant les gens. Plus les systèmes d'IA fournissent des conseils juridiques et une assistance médicale, plus ils rencontrent de cas extrêmes, ce qui nécessite plus d'humains pour les trier. Cela a donné naissance à une industrie mondiale de personnes comme Joe qui utilisent leurs capacités humaines uniques pour aider les machines.
Au cours des six derniers mois, le journaliste d'investigation technologique Josh Dzieza a parlé à plus de deux douzaines d'annotateurs du monde entier, dont beaucoup forment des chatbots de pointe, mais aussi beaucoup font le travail physique banal nécessaire pour faire fonctionner l'IA . Certains ont catalogué le contenu émotionnel des vidéos TikTok, les nouvelles variantes de spam et la publicité en ligne inappropriée. D'autres examinent les transactions par carte de crédit et déterminent les types d'achats qui y sont associés, ou examinent les recommandations du commerce électronique et décident si vous allez réellement aimer cette chemise après en avoir acheté une autre.
Les humains corrigent les erreurs des chatbots du service client, écoutent les demandes de l'assistant intelligent d'Amazon Alexa et catégorisent les émotions des gens lors d'appels vidéo. Ils étiquettent les aliments afin que les réfrigérateurs intelligents ne soient pas perturbés par de nouveaux emballages, vérifient les caméras de sécurité automatisées avant de déclencher l'alarme et aident les tracteurs autonomes confus à identifier le maïs.
02 Les commentaires sont une grosse affaire, engendrant le "plus jeune milliardaire autodidacte"
"C'est une chaîne d'approvisionnement complète", a déclaré Sonam Jindal, directeur du programme et de la recherche au Partenariat à but non lucratif sur l'IA. "La perception générale dans l'industrie est que ce travail n'est pas un élément essentiel du développement technologique, ce n'est pas un élément essentiel de le développement de la technologie." Prospérera pendant longtemps. Toute l'excitation se répand autour de la construction de l'IA, et une fois que nous l'avons construite, les annotations ne sont plus nécessaires, alors pourquoi s'embêter à y penser ? Mais l'étiquetage des données est le fondement de l'IA, tout comme Autant l'intelligence est le fondement de l'IA, autant nous devons les considérer comme de vrais emplois dans l'économie de l'IA qui sont là pour rester encore longtemps."
Les fournisseurs de données derrière des noms familiers comme OpenAI, Google et Microsoft se présentent sous différentes formes. Il existe également des sociétés d'externalisation privées avec des bureaux de type centre d'appels, comme CloudFactory au Kenya et au Népal, où Joe effectue un travail d'annotation pour 1,20 $ de l'heure avant de passer à Remotasks.
Il existe également des sites de "crowdworker" comme Mechanical Turk et Clickworker, où n'importe qui peut s'inscrire pour effectuer des tâches. Au milieu se trouvent des services comme Scale AI. Tout le monde peut s'inscrire, mais tout le monde doit réussir un examen de qualification, un cours de formation et faire l'objet d'un suivi des performances. Les annotations sont une grosse affaire. Scale AI, fondée en 2016 par Alexander Wang, alors âgé de 19 ans, était évaluée à 7,3 milliards de dollars en 2021, faisant de lui l'un des plus jeunes milliardaires autodidactes de Forbes.
Compte tenu de cela, il n'y a aucun moyen de donner des estimations détaillées du nombre de personnes travaillant dans l'annotation, mais ce qui est certain, c'est qu'elles sont nombreuses et en croissance rapide. Google Research a récemment publié un article qui donne de vagues estimations du nombre d'annotateurs à "des millions" et peut-être des "milliards" à l'avenir.
L'automatisation se présente souvent de manière inattendue. Erik Duhaime, PDG de Centaur Labs, une société d'annotation de données médicales, rappelle qu'il y a quelques années, plusieurs éminents ingénieurs en apprentissage automatique avaient prédit que l'intelligence artificielle remplacerait les radiologues. Lorsque cela ne se produit pas, la sagesse conventionnelle se tourne vers les radiologues utilisant l'IA comme outil.
Aucune de ces choses ne s'est produite, selon Duheim. L'intelligence artificielle est très douée pour des tâches spécifiques, ce qui incite à décomposer le travail et à l'attribuer à des systèmes algorithmiques spécialisés et à des humains tout aussi spécialisés. Par exemple, a-t-il dit, un système d'IA pourrait être capable de détecter le cancer, mais seulement dans certains types de machines, dans certains types d'images. Donc, vous avez besoin de quelqu'un pour vous aider à vérifier que l'IA reçoit le bon type de données, et peut-être quelqu'un d'autre pour vérifier qu'elle fonctionne avant de la transmettre à une autre IA pour rédiger un rapport et enfin à un humain. "L'IA ne remplacera pas les emplois humains, mais elle change la façon dont les emplois sont organisés", a déclaré Duheim.
Si vous considérez l'intelligence artificielle comme une machine intelligente et pensante, vous ignorez peut-être les humains qui se cachent derrière elle. Du Haimei estime que l'impact de l'intelligence artificielle sur le travail moderne est comme le passage de la fabrication artisanale à la fabrication industrielle : des processus cohérents sont décomposés en petites tâches, disposées le long de la chaîne de montage, certaines étapes sont réalisées par des machines, d'autres par des humains, mais il est différent des précédents. La situation est tout à fait différente.
Les inquiétudes concernant la perturbation de l'IA sont souvent contrées en disant que l'IA automatise certaines tâches, pas des tâches entières. Ces tâches sont souvent fastidieuses et ennuyeuses, laissant les gens se consacrer à un travail humain plus épanouissant. Mais il est également possible que l'essor de l'intelligence artificielle ressemble également aux technologies d'économie de main-d'œuvre du passé, peut-être comme le téléphone ou la machine à écrire, qui éliminent la corvée de la transmission de messages et de l'écriture manuscrite, mais génèrent plus d'informations sur la communication, le commerce et A tel point qu'un nouveau bureau doté de nouveaux types d'ouvriers, commis, comptables, dactylographes, etc., était nécessaire pour les gérer. Vous ne perdrez peut-être pas votre emploi lorsque l'IA rejoindra votre travail, mais cela peut devenir plus étrange, plus isolant et plus fastidieux.
03 Simplifiez la réalité complexe en quelque chose de lisible par machine
Plus tôt cette année, la journaliste Ziyeza s'est inscrite pour un emploi chez Remotasks. Le processus est simple. Il vous suffit de saisir les spécifications de l'ordinateur, la vitesse du réseau et les informations de contact de base pour accéder au "Centre de formation". Pour obtenir des missions rémunérées, Ziyeza devait d'abord suivre les cours d'introduction pertinents, mais non rémunérés. Le centre de formation a présenté une série de cours aux noms incompréhensibles comme Glue Swimsuits et Poster Hawaii. Zieza a cliqué sur quelque chose appelé GFD Chunking, qui demande que les vêtements soient étiquetés sur les photos des réseaux sociaux.
Au-delà de cela, il existe des instructions pour des tâches telles que devoir étiqueter des articles qui sont réels, portables par des humains ou destinés à être portés par de vraies personnes. Confiant dans sa capacité à distinguer les vrais vêtements que les vraies personnes pourraient porter des faux vêtements que les vraies personnes ne pouvaient pas, Ziyeza a entrepris de tester. Cependant, il a été immédiatement frappé à la tête : l'ordinateur a donné une photo de magazine d'une femme en jupe. Les photos de vêtements doivent-elles être considérées comme de vrais vêtements ? Non, pensa Ziyeza, parce que les gens ne peuvent pas porter de photos de vêtements. Le résultat affiche une erreur ! Car aux yeux de l'intelligence artificielle, des photos de vrais vêtements sont équivalentes à de vrais vêtements.
L'image qui suit est celle d'une femme prenant un selfie dans un miroir en pied dans une chambre faiblement éclairée. La chemise et le short qu'elle porte sont de vrais vêtements, et le reflet des vêtements est-il réel ? Ziyeza a également donné une réponse négative, mais le système d'intelligence artificielle estime que le reflet de vrais vêtements devrait également être de vrais vêtements.
Milagros Miceli, un chercheur travaillant sur les données à l'Institut Weizenbaum en Allemagne, a déclaré qu'il y avait une confusion généralisée dans l'industrie. Cela est en partie dû à la façon dont les systèmes d'apprentissage automatique apprennent. Les humains n'ont besoin que de quelques exemples pour comprendre le concept de "chemise", alors que les programmes d'apprentissage automatique ont besoin de milliers d'exemples, et ils doivent le faire avec une cohérence parfaite et une variété suffisante (polos, chemises pour l'extérieur, chemises accrochées à un rack) afin que le système puisse gérer la diversité du monde réel. "Imaginez que nous devions réduire la réalité complexe à quelque chose que des machines maladroites peuvent lire", a déclaré Miselli.
Pour les machines, le fait de simplifier la réalité introduit une énorme complexité. Les rédacteurs d'instructions doivent proposer des règles qui permettent aux humains de classer le monde avec une cohérence parfaite. Pour ce faire, ils créent souvent des catégories que les humains n'utiliseraient pas. Si une personne est invitée à étiqueter toutes les chemises sur une photo, elle ne peut pas étiqueter les chemises dans le miroir car elle sait qu'il s'agit de reflets et non de vêtements réels. Mais pour une IA qui ne comprend pas le monde réel, ce ne sont que des pixels, les deux sont exactement les mêmes. Si certaines chemises du jeu de données sont étiquetées et que d'autres ne le sont pas, le modèle ne fonctionnera pas. L'ingénieur est donc retourné chez le fournisseur avec des informations mises à jour et a demandé d'étiqueter la chemise qui se reflétait dans le miroir. Bientôt, vous aurez un autre guide de 43 pages, toutes en majuscules rouges.
Le travail d'un annotateur consiste généralement à mettre de côté la compréhension humaine et à suivre les instructions très, très strictement. Comme l'a dit un commentateur, pensez comme un robot. C'est un espace mental étrange où vous faites de votre mieux pour suivre des règles ridicules mais strictes, comme passer un test standard tout en prenant des hallucinogènes. Les annotateurs ont toujours des questions confuses comme, est-ce une chemise rouge avec une bande blanche ou est-ce une chemise blanche avec une bande rouge ? Si un bol en osier est rempli de pommes, est-ce un "bol décoratif" ? De quelle couleur est l'imprimé léopard ? Chaque question doit trouver une réponse, et une mauvaise supposition pourrait vous faire bannir et commencer une toute nouvelle mission entièrement différente avec ses propres règles déconcertantes.
04 Payez à la pièce, vérifiez la tâche toutes les trois heures
La plupart des travaux sur Remotasks sont payés à la pièce, avec des gains allant de quelques centimes à quelques dollars pour une tâche. Étant donné que les tâches peuvent prendre des secondes ou des heures, les salaires sont difficiles à prévoir. Lorsque Remotasks est arrivé pour la première fois au Kenya, les commentateurs ont déclaré qu'il payait relativement bien. Cela représente en moyenne environ 5 à 10 dollars de l'heure, selon la tâche. Mais avec le temps, le salaire baisse.
La plainte la plus courante concernant le travail à distance est sa variabilité. Ce type de travail est suffisamment stable pour être un emploi à temps plein à long terme, mais il est trop imprévisible pour s'y fier entièrement. Les annotateurs passent des heures à lire les instructions et à suivre une formation pro bono juste pour effectuer une douzaine de tâches avant la fin du projet. Il se peut qu'il n'y ait pas de nouvelles tâches pendant quelques jours, puis, à l'improviste, une tâche complètement différente apparaît, peut-être pendant des heures, voire des semaines. Toute mission pourrait être leur dernière, et ils ne savent jamais quand la prochaine mission viendra.
Les ingénieurs et les fournisseurs de données affirment que ce cycle d'expansion et de récession découle du rythme de développement de l'IA. La formation d'un grand modèle nécessite de nombreuses annotations, suivies de mises à jour plus itératives, et les ingénieurs veulent que tout cela se produise le plus rapidement possible afin de pouvoir respecter leur date de sortie cible. Ils peuvent avoir besoin de milliers d'annotateurs au cours de quelques mois, puis tomber à quelques centaines, et finalement à une douzaine d'experts d'un type particulier. Ce processus est parfois répété par cycles. "La question est de savoir qui supporte le coût de ces fluctuations?", A déclaré Jindal de Partnership on AI.
Pour réussir, les annotateurs doivent travailler ensemble. Victor a commencé à travailler pour Remotasks alors qu'il était étudiant à Nairobi, et quand on lui a dit qu'il avait des problèmes avec une tâche de contrôle de la circulation, il a dit que tout le monde savait qu'il fallait éviter cette tâche : trop délicate, mal payée, ça n'en valait pas la peine. Comme de nombreux commentateurs, Victor utilise un groupe WhatsApp non officiel pour passer le mot lorsque de bonnes missions se présentent. Lorsqu'il avait une nouvelle idée, il lançait une réunion Google impromptue pour montrer aux autres comment faire. Tout le monde peut se joindre et travailler ensemble pendant un certain temps, en partageant des astuces. "Nous avons développé une culture d'entraide parce que nous savons qu'une seule personne ne peut pas connaître toutes les astuces", a-t-il déclaré.
Les annotateurs doivent toujours être sur leurs gardes, car les tâches apparaissent et disparaissent sans avertissement. Victor a constaté que les objets apparaissaient souvent au milieu de la nuit, alors il a pris l'habitude de se lever toutes les trois heures environ pour les vérifier. Quand il y a une tâche, il restera toujours éveillé. À un moment donné, il est resté 36 heures sans dormir, marquant les coudes, les genoux et la tête sur des photos de foule, sans savoir pourquoi. Une autre fois, il est resté éveillé si longtemps que ses yeux étaient rouges et enflés.
Les annotateurs savent souvent seulement qu'ils forment des systèmes d'IA pour des entreprises ailleurs, mais parfois le voile de l'anonymat tombe et il y a trop d'indices pour les marques ou les chatbots mentionnés dans les instructions. "J'ai lu les instructions, j'ai cherché sur Google et j'ai découvert que je travaillais pour un milliardaire de 25 ans. Si je fais de quelqu'un un milliardaire et que je gagne quelques dollars, je perds littéralement ma vie."
Se décrivant comme un « croyant sauvage » de l'intelligence artificielle, Victor a commencé le travail d'annotation parce qu'il voulait aider à créer un avenir entièrement automatisé. Mais plus tôt cette année, quelqu'un a publié un article du magazine Time dans son groupe WhatsApp sur la façon dont les employés du fournisseur Sama AI étaient payés moins de 2 $ de l'heure pour former ChatGPT à identifier le contenu toxique. "Les gens sont scandalisés que ces entreprises soient si rentables et paient si peu", a déclaré Victor, qui ne connaissait pas la relation entre Remotasks et Scale AI jusqu'à ce qu'on lui en parle. Les instructions pour l'une des tâches sur lesquelles il a travaillé étaient presque identiques à celles utilisées par OpenAI, ce qui signifie qu'il s'entraînait probablement aussi sur ChatGPT, pour environ 3 $ de l'heure. "
Je me souviens que quelqu'un a posté qu'on se souviendra de nous à l'avenir », a-t-il déclaré. Zero One a répondu:« Nous avons été traités pire que l'infanterie. On ne se souviendra de nous nulle part dans le futur, je m'en souviens très bien. Personne ne reconnaîtra le travail que nous faisons et les efforts que nous déployons. "
L'identification des vêtements et l'étiquetage des conversations du service client ne sont que quelques-unes des tâches d'annotation. Récemment, la chose la plus en vogue sur le marché est les formateurs de chatbot. Parce qu'il nécessite une expertise spécifique au domaine ou la maîtrise de la langue, et que les salaires ont tendance à être ajustés selon la région, le travail a tendance à payer plus. Certains types d'annotations professionnelles peuvent rapporter jusqu'à 50 $ ou plus par heure.
Lorsqu'une femme nommée Anna cherchait un emploi au Texas, elle est tombée sur une offre d'emploi générique en ligne et a postulé. Après avoir réussi un examen d'introduction, elle a été introduite dans une salle Slack de 1 500 personnes en formation sur un projet nommé Dolphin, qu'elle a découvert plus tard était le chatbot Sparrow de Google DeepMind, l'un des nombreux chatbots en concurrence avec ChatGPT. Le travail d'Anna consiste à discuter avec Sparrow toute la journée, et le salaire horaire est d'environ 14 $, plus la prime pour une efficacité de travail élevée, "c'est définitivement mieux que de travailler dans le supermarché local pour gagner 10 $ de l'heure".
05 L'IA répond à trois critères : précision, utilité et innocuité
Et, Ana aime le travail. Elle a discuté de science-fiction, de paradoxes mathématiques, d'énigmes pour enfants et d'émissions de télévision avec Sparrow. Parfois, les réponses du chatbot la faisaient éclater de rire. Parfois, elle se sent aussi sans voix. Anna a déclaré : "Parfois, je ne sais vraiment pas quoi demander, alors j'ai un petit cahier avec deux pages déjà écrites dedans. Je cherche des sujets intéressants sur Google, donc je pense que je peux faire du bon travail. ce qui n'est pas toujours le cas."
Chaque fois qu'Anna invite Sparrow, il donne deux réponses et elle choisit la meilleure, créant ce qu'on appelle des "données de rétroaction humaines". Lorsque ChatGPT a fait ses débuts à la fin de l'année dernière, son style de conversation incroyablement naturel a été attribué au fait qu'il avait été formé sur de grandes quantités de données Internet. Mais le langage qui alimente ChatGPT et ses concurrents est filtré à travers plusieurs séries d'annotations humaines.
Une équipe de sous-traitants a écrit des exemples de la façon dont les ingénieurs voulaient que le chatbot se comporte, posant des questions puis donnant les bonnes réponses, décrivant des programmes informatiques puis donnant des codes fonctionnels, demandant des conseils criminels puis déclinant poliment. Une fois le modèle entraîné avec ces exemples, d'autres sous-traitants sont introduits pour le stimuler et classer ses réponses. C'est ce qu'Ana a fait à Sparrow.
Les critères exacts que les évaluateurs devaient utiliser variaient, tels que l'honnêteté, la serviabilité ou simplement les préférences personnelles. Le fait est qu'ils créent des données sur le goût humain, et une fois qu'il y a suffisamment de données, les ingénieurs peuvent former un deuxième modèle pour imiter leurs préférences à grande échelle, en automatisant le processus de classement et en formant leur IA à reconnaître la manière d'agir du goût humain. Le résultat est un robot très humain qui rejette essentiellement les demandes nuisibles et explique sa nature d'intelligence artificielle d'une manière qui semble être consciente de soi.
En d'autres termes, ChatGPT a l'air humain parce qu'il a été formé par une IA imitant l'humain qui agit comme un humain.
Cela peut amener le modèle à extraire des modèles de parties de sa carte linguistique qui sont marquées comme exactes et à produire un texte qui correspond à la vérité, mais cela peut également l'amener à imiter le style confiant et le jargon d'un texte précis tout en écrivant quelque chose de complètement faux. . Il n'y a aucune garantie que le texte marqué comme exact par les annotateurs soit réellement exact. Même s'il est précis, il n'y a aucune garantie que le modèle en ait appris le bon modèle.
Cette dynamique rend l'annotation des chatbots pas facile. Il doit être rigoureux et cohérent, car une rétroaction bâclée, telle que le marquage d'un matériau au son correct comme précis, peut rendre le modèle formé plus convaincant. OpenAI et DeepMind ont utilisé RLHF dans un projet conjoint antérieur, dans ce cas, pour entraîner une main robotique virtuelle à saisir un objet, ce qui s'est avéré entraîner également la main robotique à positionner et à balancer autour de l'objet entre l'objet et son évaluateur, That façon dont il n'apparaîtra qu'à ses surveillants humains.
Le classement des réponses d'un modèle de langage est toujours quelque peu subjectif car il s'agit d'un langage. Un texte de n'importe quelle longueur peut contenir plusieurs éléments qui peuvent être vrais, faux ou trompeurs. Les chercheurs d'OpenAI se sont heurtés à cet obstacle dans un autre article du RLHF. Pour que leur modèle résume le texte, les chercheurs ont constaté que seuls 60 % des résumés du modèle étaient bons. "Contrairement à de nombreuses tâches d'apprentissage automatique, nos requêtes n'ont pas de vérité fondamentale claire", déplorent-ils.
Lorsqu'Ana évalue les réponses de Sparrow, elle doit examiner leur exactitude, leur utilité et leur innocuité, tout en vérifiant que le modèle ne donne pas de conseils médicaux ou financiers, ne s'anthropomorphise pas ou ne viole pas d'autres critères. Pour être utiles en tant que données d'entraînement, les réponses du modèle doivent être ordonnées quantitativement : un robot qui peut vous dire comment fabriquer une bombe est-il "meilleur" qu'un robot inoffensif qui refuse de répondre à toutes les questions ?
Dans un article de DeepMind, alors que les créateurs de Sparrow annotaient à tour de rôle, quatre chercheurs ont débattu pour savoir si leur bot faisait des hypothèses sur le sexe des utilisateurs qui se tournaient vers lui pour obtenir des conseils émotionnels. Selon Geoffrey Irving, chercheur chez DeepMind, les chercheurs de l'entreprise tiennent des séances d'annotation hebdomadaires au cours desquelles ils examinent eux-mêmes les données et discutent des cas ambigus. Lorsqu'un cas est particulièrement délicat, ils consultent des experts en éthique ou en la matière.
Anna trouvait souvent qu'elle devait choisir entre deux mauvaises options. "Même si ce sont toutes les deux des réponses horriblement fausses, vous devez toujours déterminer laquelle est la meilleure et écrire le texte expliquant pourquoi », dit-elle. Parfois, lorsqu'aucune des réponses n'est bonne, elle est encouragée à donner la réponse elle-même. une meilleure réponse. Elle le fait environ la moitié du temps pendant l'entraînement.
06 Les commentaires nécessitent de plus en plus des compétences et une expertise spécifiques
Parce que les données de retour sont difficiles à collecter, le prix de vente est plus élevé. Le type de données de base sur les préférences qu'Ana collecte se vend environ 1 $ pièce, selon des personnes connaissant bien l'industrie. Mais si vous voulez former un modèle pour faire de la recherche juridique, vous avez besoin de quelqu'un avec une formation juridique, ce qui entraîne une augmentation des coûts. Toutes les personnes impliquées ne révéleront pas exactement combien elles ont payé, mais d'une manière générale, un exemple écrit professionnel peut coûter quelques centaines de dollars, tandis qu'un classement par un expert peut coûter 50 $ ou plus. Un ingénieur a révélé qu'il avait déjà payé 300 $ pour un échantillon du dialogue de Socratic.
OpenAI, Microsoft, Meta et Anthropic n'ont pas révélé combien de personnes ont contribué des annotations à leurs modèles, combien elles ont été payées ou où elles se trouvaient dans le monde. Les annotateurs travaillant sur Sparrow sont payés au moins au salaire minimum de l'heure, selon l'endroit où ils se trouvent, a déclaré Owen de la société sœur de Google DeepMind. Ana ne sait "rien" sur Remotasks, mais en sait plus sur Sparrow, sachant qu'il s'agit de l'assistant d'intelligence artificielle de DeepMind, que ses créateurs ont formé à l'aide de RLHF.
Jusqu'à récemment, il était relativement facile de repérer les mauvaises sorties des modèles de langage, qui ressemblaient à du charabia. Mais à mesure que les modèles s'améliorent, cela devient plus difficile, un problème connu sous le nom de "supervision évolutive". L'utilisation par Google de modèles de langage moderne pour les débuts de son assistant IA, Bard, a par inadvertance démontré à quel point il est difficile de repérer les erreurs dans les modèles de langage moderne. Cette trajectoire signifie que l'annotation nécessite de plus en plus des compétences et une expertise spécifiques.
L'année dernière, un gars du nom de Lewis travaillait sur Mechanical Turk, et après avoir terminé une mission, il a reçu un message l'invitant à rejoindre une plateforme dont il n'avait jamais entendu parler. Il s'appelle Taskup.ai, et le site est assez simple, juste un arrière-plan bleu marine avec le texte "Pay as you go". Lewis a choisi de s'inscrire.
Le travail paie beaucoup mieux que tout autre travail qu'il a eu auparavant, généralement autour de 30 $ de l'heure. Cependant, il est également plus difficile, nécessitant la conception de scénarios complexes pour inciter les chatbots à donner des conseils dangereux, à tester la capacité du modèle à conserver sa propre personnalité et à s'engager dans des conversations détaillées sur des sujets scientifiques hautement techniques et nécessitant des recherches approfondies. Lewis a trouvé le travail "satisfaisant et excitant". Tout en vérifiant un modèle et en essayant de le coder en Python, Lewis apprenait. Il ne peut pas travailler plus de 4 heures d'affilée de peur de s'épuiser mentalement et de faire une erreur, et il veut garder son emploi.
Lewis a déclaré: "S'il y a quelque chose que je peux changer, je veux juste en savoir plus sur ce qui se passe de l'autre côté. Nous ne savons que ce dont nous avons besoin pour faire le travail, mais si j'en sais plus, peut-être que je peux faire le travail. … une plus grande réussite, et peut-être considérer cela comme une carrière.
Le journaliste d'investigation technologique Ziyeza a interviewé huit autres personnes, principalement aux États-Unis, qui ont eu des expériences similaires en répondant à des sondages ou en accomplissant des tâches sur d'autres plates-formes, puis se sont retrouvées embauchées par Taskup.ai ou quelques sites similaires, comme DataAnnotation.tech ou Gethybrid.io. Leur travail consiste souvent à former des chatbots, bien que leurs chatbots soient de meilleure qualité et plus spécialisés que les autres sites sur lesquels ils ont travaillé. L'un d'eux est une macro de feuille de calcul de présentation, et l'autre a juste besoin d'avoir une conversation et d'évaluer les réponses selon les critères qu'elle souhaite. Elle pose souvent au chatbot des questions qui reviennent également lorsqu'elle discute avec sa fille de 7 ans, telles que "Quel est le plus gros dinosaure ?" et "Écrivez une histoire sur un tigre".
Taskup.ai, DataAnnotation.tech et Gethybri.io semblent tous appartenir à la même société : Surge AI. Son directeur général, Edwin Chen, n'a ni confirmé ni infirmé le lien, mais il était prêt à parler de son entreprise et de la façon dont il voit les annotations évoluer.
"J'ai toujours pensé que le domaine de l'étiquetage était simpliste", déclare Edwin, qui a fondé Surge AI en 2020 après avoir travaillé dans la recherche sur l'IA chez Google, Facebook et Twitter, convaincu que les étiquettes participatives ne suffisaient pas. Edwin a déclaré : "Nous espérons que l'intelligence artificielle pourra raconter des blagues, rédiger de bons textes marketing ou m'aider lorsque j'ai besoin d'une thérapie. Mais tout le monde ne peut pas raconter des blagues ou résoudre des problèmes de programmation Python. Cet état d'esprit de mauvaise qualité et de faible compétence se transforme en quelque chose plus riche et capture les compétences humaines, la créativité et les valeurs que nous voulons que les systèmes d'IA aient."
07 Les systèmes d'apprentissage automatique sont trop étranges pour être totalement fiables
L'année dernière, Surge AI a renommé un ensemble de données de la classification par Google des publications Reddit par sentiment. Google a supprimé le contexte de chaque message et l'a envoyé à des annotateurs en Inde pour annotation. Les employés de Surge AI familiers avec la culture Internet américaine ont constaté que 30 % des annotations étaient erronées. Des messages comme "Enfer, mon frère" ont été classés dans la catégorie "Haine", tandis que "Cool McDonald's, mon préféré" a été classé dans la catégorie "Amour".
Edwin a déclaré que Surge AI vérifie les qualifications des annotateurs, par exemple si les personnes qui effectuent des tâches d'écriture créative ont de l'expérience en écriture créative, mais la manière exacte dont elle trouve le personnel est un "secret". Comme pour les Remotasks, les travailleurs doivent généralement suivre un cours de formation, bien que contrairement aux Remotasks, ils puissent être payés pour effectuer des tâches pendant la formation. Avoir moins de personnel mieux formé qui produit des données de meilleure qualité permet à Surge AI de payer mieux que ses pairs, mais il a refusé de donner plus de détails, affirmant seulement que les employés sont payés à un "niveau équitable et éthique". Ces annotateurs gagnent entre 15 $ et 30 $ de l'heure, mais ils ne représentent qu'une infime fraction de tous les annotateurs, un groupe qui compte aujourd'hui 100 000 personnes. Ce secret découle d'une demande d'un client, a-t-il expliqué.
Ces nouveaux modèles sont si impressionnants qu'ils ont inspiré une nouvelle vague de prédictions selon lesquelles l'annotation est sur le point d'être automatisée. La pression financière pour le faire est élevée compte tenu des coûts impliqués. Anthropic, Meta et d'autres ont récemment fait des progrès dans l'utilisation de l'intelligence artificielle pour réduire la quantité d'annotations humaines nécessaires pour guider les modèles, et d'autres développeurs ont commencé à utiliser GPT-4 pour générer des données de formation.
Cependant, un article récent a révélé que les modèles formés sur GPT-4 peuvent apprendre à imiter le style autoritaire de GPT avec moins de précision. Jusqu'à présent, lorsque les améliorations de l'IA rendaient une forme d'étiquetage obsolète, le besoin d'autres types plus complexes augmentait. Le débat est devenu public plus tôt cette année lorsque le PDG de Scale AI a tweeté qu'il avait prédit que les laboratoires d'IA dépenseraient bientôt des milliards de dollars en données humaines, tout comme ils calculaient comme ci-dessus. Le PDG d'OpenAI, Sam Altman, a répondu qu'à mesure que l'intelligence artificielle progresse, le besoin de données diminuera.
Edwin doute que l'IA atteigne un point où la rétroaction humaine n'est plus nécessaire, mais il voit que l'étiquetage devient de plus en plus difficile à mesure que les modèles s'améliorent. Comme de nombreux chercheurs, il pense que la voie à suivre impliquera des systèmes d'IA aidant les humains à superviser d'autres IA. Surge AI s'est récemment associé à Anthropic sur une preuve de concept qui demandait à des annotateurs humains de répondre à des questions sur un long morceau de texte avec l'aide d'un assistant IA peu fiable, la théorie étant que les humains doivent détecter les faiblesses de leur assistant IA et le raisonnement coopératif pour trouver la bonne réponse.
Une autre possibilité est que deux IA débattent l'une de l'autre, un humain rendant le jugement final. Le chercheur d'OpenAI, John Schulman, a déclaré lors d'une récente conférence à Berkeley: "Nous n'avons pas encore vu le véritable potentiel pratique de ce genre de choses, mais cela commence à devenir nécessaire car il est difficile pour les annotateurs de suivre l'avancement du modèle."
Edwin a déclaré: "Je pense que vous aurez toujours besoin d'un humain pour surveiller ce que fait l'IA simplement parce qu'ils sont cet extraterrestre. Les systèmes d'apprentissage automatique sont trop étranges pour être pleinement fiables. Le plus impressionnant aujourd'hui Certains de nos modèles ont des faiblesses qui semblent très étranges aux humains. Bien que GPT-4 puisse générer un texte complexe et convaincant, il ne peut pas dire quels mots sont des adjectifs.
08 ChatGPT aide beaucoup avec le flux de tâches
Alors que 2022 touchait à sa fin, Joe a commencé à entendre de ses élèves que leurs listes de tâches étaient souvent vides. Puis il a reçu un e-mail l'informant que le camp d'entraînement au Kenya fermait. Il a poursuivi ses missions de formation en ligne, mais il a commencé à s'inquiéter pour l'avenir. "
Il y a des indications que ce ne sera pas le cas pour longtemps ", a déclaré Joe. Le travail d'annotation est sur le point de quitter le Kenya. Des collègues qu'il a rencontrés en ligne, il a entendu dire que de telles missions étaient envoyées au Népal, en Inde et aux Philippines. . Joe a déclaré : "Les entreprises se déplacent d'une région à l'autre. Ils n'ont pas l'infrastructure locale, ils ont donc la possibilité de déménager là où les coûts d'exploitation leur sont plus avantageux. "
L'une des différences entre l'industrie de l'IA et les fabricants de téléphones portables et d'automobiles est sa fluidité. Ce travail est en constante évolution, étant automatisé et remplacé par de nouvelles demandes pour de nouveaux types de données. C'est un pipeline, mais il peut être constamment et rapidement reconfiguré, se déplaçant là où les compétences, la bande passante et la masse salariale adéquates sont disponibles.
Récemment, les emplois les mieux rémunérés pour les tâches d'annotation sont revenus aux États-Unis. En mai, Scale AI a commencé à répertorier les emplois d'annotation sur son site Web, à la recherche de personnes ayant de l'expérience dans presque tous les domaines que l'IA devrait conquérir. Certaines de ces listes de formateurs en IA qui ont des cours de fitness, des ressources humaines, des finances, de l'économie, de la science des données, de la programmation, de l'informatique, de la chimie, de la biologie, de la comptabilité, de la fiscalité, de la nutrition, de la physique, des voyages, de l'éducation K-12, du journalisme sportif et de soi -expertise d'aide.
Vous pouvez enseigner la loi aux robots et gagner 45 $ de l'heure ; leur apprendre la poésie et gagner 25 $ de l'heure. Le site répertorie également le recrutement de personnes ayant une expérience en matière de sécurité, probablement pour aider à former l'IA militaire. Scale AI a récemment dévoilé un modèle de langage de défense appelé Donovan, que les dirigeants de l'entreprise ont appelé "munitions dans la guerre de l'IA", et a remporté un contrat pour travailler sur le programme de véhicules de combat robotiques de l'armée.
Ana forme toujours des chatbots au Texas. Les collègues sont devenus des commentateurs et des modérateurs de Slack, et elle ne savait pas pourquoi, mais cela lui a donné l'espoir que le travail pourrait être une carrière à long terme. Une chose dont elle ne s'inquiète pas, c'est que les emplois soient remplacés par l'automatisation, a-t-elle déclaré : "Je veux dire, les chatbots peuvent faire beaucoup de choses incroyables, mais ils peuvent aussi faire des choses vraiment bizarres."
Lorsque Remotasks est arrivé au Kenya, Joe pensait que l'annotation pourrait être une bonne carrière. Il était déterminé à continuer le travail même après avoir déménagé ailleurs. Il a estimé qu'il y avait des milliers de personnes à Nairobi qui savaient comment faire le travail. Après tout, il a formé beaucoup de gens. Joe a loué un bureau dans la ville et a commencé à chercher des contrats d'externalisation : un travail d'annotation de plans pour une entreprise de construction, un autre d'annotation de fruits endommagés par des insectes pour une sorte de projet agricole et un autre pour des voitures autonomes. routines d'étiquetage.
Mais Joe a trouvé que sa vision était difficile à réaliser. Il n'a plus qu'un seul employé à temps plein, contre deux auparavant. "Nous n'avons pas eu un flux de travail régulier", a-t-il déclaré. Il n'y avait rien à faire pendant des semaines car les clients collectaient encore des données. Lorsque le client a fini de collecter les données, il a dû faire appel à des sous-traitants à court terme pour respecter leurs délais : "Le client ne se souciait pas de savoir si nous avions des travaux en cours. Tant que l'étiquetage de l'ensemble de données était fait, tout irait bien."
Afin de ne pas gaspiller leurs compétences, d'autres exécutants décident où va la tâche, et ils y vont. Ils louent des serveurs proxy pour dissimuler leur emplacement et achètent de fausses pièces d'identité pour contourner la sécurité afin de pouvoir prétendre travailler à Singapour, aux Pays-Bas, au Mississippi ou partout où la mission se déroule. C'est une entreprise risquée. Scale AI est devenu de plus en plus agressif en suspendant les comptes qui cachent leur emplacement, selon plusieurs acteurs de la mission. "
Nous sommes devenus un peu plus intelligents ces jours-ci parce que nous avons remarqué que dans d'autres pays, ils paient de bons salaires", a déclaré Victor. Il gagne deux fois plus en travaillant en Malaisie qu'au Kenya, mais "il faut faire attention".
Un autre commentateur kenyan a déclaré qu'il avait décidé de ne pas respecter les règles après que son compte ait été bloqué pour des raisons mystérieuses. Aujourd'hui, il gère plusieurs comptes dans plusieurs pays, effectuant des missions là où les revenus sont les plus élevés. Grâce à ChatGPT, il dit qu'il travaille vite et qu'il a un score de qualité élevé. Le bot, dit-il, est génial et lui permet d'effectuer rapidement des tâches à 10 $ en quelques minutes.