出典:「Times Finance APP」(ID:tf-app)、著者:Xu Xiaoqian *画像の出典: Unbounded AI ツールによって生成*** 今年上半期、一級都市のテクノロジー界は人工知能によって活性化された。 **Wenxin Yiyan、Tongyi Qianwen、Light Years Away などの大型モデルが熱狂の波を送っており、トップレベルのリソースを持つ大物たちがこの壮大なイベントの中核に立ち、ヒーロー投稿を次々と発信しています。大物モデルタレントの争奪戦も勃発している。> AI産業チェーンの密接な連携部分として、北京から500キロ離れた山西省の太原データ産業基地は静かで、数千人の人工知能ラベラーがここに集まっている。彼らが話した話題は、プロジェクトの進捗状況、基準に合わせて箱を描く速度、そして 1 日 3 回の食事についてでした。「興奮は彼らのもので、私たちには数え切れないほどの箱しかありません。」とデータラベル作成者はTimes Financeに語った。データラベル会社のオーナー、He Qing 氏の記憶では、この興奮は 4 ~ 5 年前に起こりました。この中西部の都市に初めて人工知能の春風が吹き、敏感な実業家たちは領土を定めて人材を募集し始め、人工知能に「栄養」を着実に供給し始めた。彼らのほとんどは人工知能の素人ですが、突然の膨大な労働需要のため、彼らは最先端のテクノロジーと素晴らしいつながりを持っています。「当時、多くの上司が家族全員をここに連れてきていました。指を動かすだけでお金を稼ぐことができました。」 He Qing 氏は、データ ラベリング業界で多くの刺激的なニュースを聞いてきました。3 か月以内に数百万を稼ぐ人もいます。その他 取得した注文は 2 年目まで待機することができます。**しかし、そんな楽しい日も徐々に過ぎ去っていきます。 **## **01 まともな「パイプライン」**午前8時45分、密集した人々がエレベーターの入り口を塞ぎ、最初のエレベーターに押し込められたのは3分の1だけで、全員の最終目的地は6階だった。エレベーターのドアがゆっくりと開くと、群衆は四方八方に広がり、何の違いもないオフィスへと足を踏み入れ、約100平方メートルの空間は数百台のコンピューターで埋め尽くされた。「家番号をたどって一軒一軒尋ねれば、すべてデータがマークされます。」 公園の 1 階にある物売りは、このように説明しました。> 千人近い人が集まるこのデータラベリング基地は、まるで公園にひっそりと佇む隠れ家的インターネットカフェのようで、コンピューターの前に座った人々はキーボードやマウスを器用にクリックし、約1平方メートルの机が占領されている。巨大なコンピューター。 勤務中のデータラベル作成者の出典: 写真提供: Times Finance彼らの個性を示すことができるのは、頭にかぶるカラフルなヘッドフォンだけであり、データラベラーという共通のアイデンティティを持っています。> マウスの左右のボタンを前後にクリックすると、画面上の画像が拡大縮小し、カーソルがさまざまなサイズのフレームをすばやく描画します... 繰り返しの動作が 30 分続いた後、メイリンは首をひねりました。わずかに、そして彼女の背骨の骨がピクピクと動き、軋む音がした。「新人にとっては最初の 1 週間を乗り切るのに十分で、すぐに慣れることができます。」とメイリン氏は画面を見つめながらタイムズ ファイナンスに語った。 。職長の周さんは2週間ごとに十数人の新人を率いて見習いを始めるが、そのような反復的で退屈な仕事に多くの若者は意欲を失っている。2 年前、メイリンさんは幼稚園の先生からデータラベル作成者に転身しました。彼女の故郷の鹿梁市では仕事がほとんどなく、テレマーケティングが評判の良い仕事のひとつとなっているが、現在、人工知能の波の影響を受けて、データラベラーは郡内の女性たちに新たな選択肢を提供している。半年前、ラベルベースの変更のため、メイリンさんは故郷から省都の太原市に引っ越しました。 「自動運転や顔認証には、大規模なラベル業者の参加は必要ありません。」と誇らしげな表情を見せた彼女は、家族の目にオフィスに座ってコンピューターを操作しており、月収は3000元以上だという。 、治療は郡の大部分を超えており、すでに機能しています。> 2005 年、コンピューター ビジョンの専門家である Zhu Songchun 氏は、米国から故郷の湖北省鄂州市に戻り、蓮華山研究所を設立し、中国で最初のビッグデータ ラベリング チームを結成しました。その後、データラベリング工場が徐々に二級、三級都市に根付き、河北、河南、山東、山西などの地域に産業クラスターが出現した。ラベルトレーニングを繰り返すことで、人工知能は「覚醒」の瞬間に到達することができるが、メイリン氏の見方では、これは幼稚園の先生たちのこれまでの仕事と同じだという。データのラベル付けは人工知能製品の誕生における最初のリンクであり、次にモデルのトレーニングと最適化、モデル管理、推論アプリケーションなどが続きます。人工知能製品にフィードを与えるには何億ものデータが必要で、それらのデータはまず「美人」のコンピュータに流れ込むことになる。しかし、メイリンの「ハイテク」への幻想は、機械式マウスの繰り返される音によって少しずつ打ち砕かれた。彼女は、1 日の作業量の限界は 1,500 フレームであると計算しており、この警告線を超えると、眼球が痛くなるそうです。仕事を終えてテレビに向かっているときでさえ、彼女が目にするのはモザイク状のモザイクであり、拡大した後にマークを付ける必要があるぼやけた写真のように見えます。「隣の席にはいつも知らない顔がいて、同僚同士のコミュニケーションはほとんどありません。」 同じ基地で働くウー・シアさんは、1年半働いた今でもオフィスの静けさにまだ慣れていない。 。短大卒業後、当初はクラスメートとともに工場に入ったが、プロジェクトの変更やクラスメートの退職により「ローンレンジャー」となる。仕事が始まるとすぐに、オフィスは自動化された組立ラインが始まる「作業場」となり、冷たい工業的な雰囲気と人間味がほとんどありませんでした。データラベリング業界の特徴として、個人で個数を数え、チームワークを必要としないことが挙げられ、一般のホワイトカラーとは異なる管理方法となっています。ここで、ラベラーは固定のポジションを持たず、プロジェクトの変更に応じて、フローの方向に数百人をランダムに割り当てます。プロジェクトは最長で2~3ヶ月、短期でも2~3日程度で、十数人からなるプロジェクトチームには管理者がいて全員の作業進捗を監視しています。アノテーターは同僚間の関係の管理にエネルギーを費やしません。出来高払い型は効率と集中力を重視し、時間とお金はリンクしています。平均 1,000 フレームを完了するには、1 分あたり平均 2 フレームを完了する必要があることを意味します。「他の人に話すと、数箱のお金を失うことになるでしょう」とメイリンさんは言う。## **02 Foxconn 従業員がラベル貼り付け工場に流入**データラベリングパーク内には、技術研究機関や留学生向けの起業拠点も点在しています。 Meng Ran 氏の見解では、これらの「ハイエンド」の地位は彼からは遠く離れています。大学に入学するまで一度も故郷の臨汾市を離れたことはなかったが、大学卒業後も家族は彼が省を離れないことを望んでいた。基地から2キロ離れたところにフォックスコン太原科技工業団地がある。この工場地帯には最も活発な地元労働者が集まり、ピーク時には 60,000 人近くが工場地帯の組み立てラインで働いていました。大学生のMeng Ran さんの就活半径は、どれだけ頑張っても半径 5 キロメートルを超えることはありませんでした。彼はかつてデータ ラベリング ベースの第 2 フェーズから第 3 フェーズに移行しましたが、正式にデータ ラベリング担当者になる前に、隣の Foxconn は彼が青春を燃やした場所でした。 データラベル付け基地から 2 キロメートル以内にある Foxconn パークの情報源: 写真提供: Times Finance孟蘭さんは金を稼ぐために2日連続の休暇をとって工場に入ったことがあるが、そのたびに数千元の給料を受け取って急いで帰った。毎年冬と夏休みになると、Foxconn キャンパスの入り口は大きなカバンや小さなカバンを持った大学生でいっぱいになります。全員の目標は、年間で最高のリベートと時給を獲得することです。 「誰もが手っ取り早くお金を稼ぐためにここに来ます。そして、繁忙期が終わるとすぐに荷物をまとめて去っていきます。工場は忙しすぎて働くことができず、長期間続けるのは難しいです。」Meng Ran さんは Foxconn の職場の雰囲気が気に入らなかった。工場に入る前に電子機器を引き渡さなければなりません。毎日直面するのは、同じような服装で急ぐ作業員の群れと、殺風景で寒い工場の建物だけです。不機嫌なチームリーダーに会うと、毎日暴言を吐かれるのが一般的です。生産ラインが爆音を立てて稼働し始めると、作業員は特定の部品を取り付け続ける必要があり、その作業は10時間以上続くこともよくあります。完全に密閉された空間では、トランス状態ですら贅沢だ。孟蘭さんは、職長が管理を少し緩めるまで、周囲の労働者たちと一言も言葉を交わす勇気がなかった。2018 年、近くにデータラベリング基地が完成した後、Meng Ran さんは自分の仕事に第 2 の選択肢を選びました。ほんの 1 ブロック離れたところに、より快適な仕事がすぐに見つかります。Faye Wong は、Foxconn の採用担当者でした。工場の閑散期や人事異動、さらに曖昧なリベートや収入の頻繁な変動により、彼女は出稼ぎ労働者と終わりのない衝突に陥ることがよくあります。> 「ここ数年はデータラベリングの敷居が低く、単価も高かった。月収4,000元は維持できたし、やったプロジェクトも大規模工場関連のものばかりで比較的安心だった。」フェイ・ウォンは、多くの熟練労働者が出口を求めて基地を離れ、ぐるぐる回って戻ってきたのを見てきました。多くのアノテーターは、Meng Ran と似たような仕事の経歴を持っています。エレクトロニクス工場での勤務経験が履歴書の共通点となっており、データ アノテーション工場は、エレクトロニクス工場を辞めた後の次の目的地となっています。多数の労働者、多額の収入、簡単な運営という共通の特徴により、2 つのスーパー ファクトリーを仮想的に接続する 2 キロメートルの橋が建設されました。## **03 消滅するプロジェクトと会社**ラベラーにとっては、**良い日々が終わりに近づいている**という直感的な感情があります。> 単価数セントのプロジェクトが消滅し、ラベルボックスの価格が数セントに値下げ; 単純な平面描画の点描画ボックスが消滅し、多次元のラベル付けが必要な点群プロジェクトに置き換えられた; 通常の従業員は徐々にプロジェクトチームから離れ、より費用対効果の高いインターンが労働力の半分以上を支えました。データラベル会社のオーナーであるヘ・チンさんは半年も基地に行っておらず、会社への投資を徐々に減らしている。昨年下半期以来、彼女のチームは顧客からの注文が多いプロジェクトを受注できなくなり、顧客への請求期間が 3 か月から半年に遅れました。 「キャッシュフローが不十分で資本を調達する能力がない多くの小規模工場が閉鎖され、私たちのチームメンバーは3分の1を失いました。」3 年前、コールアウト フレームをきっかけに熱意に火がついたリー ウェイさんは、奥手でコミュニケーションが苦手でしたが、「選ばれた」仕事を見つけたと感じていました。> Li Wei さんは単価 0.25 元でプロジェクトを引き継ぎ、効率が良かったときは 1 日に 1,200 フレームを描画し、月に 8,000 元近くを稼ぐことができました。 「自宅で仕事ができます。スキルが高ければ高いほど、より多くの収入が得られます。」他の皆と同じように、リーウェイもゴールドラッシュの時代は終わったと漠然と感じていました。同社はまったく新しいプロジェクトを立ち上げました. 私たちの前に提示されているのは, もはや現実世界のロードマップではなく, 何千もの緑、紫、青の点で構成されるモデルマップです. 完成した画像には、ほぼ次のものが含まれていますマークされたボックスが 100 個あり、質問セットはわずかな違いしかない数十枚の写真で構成されています。 複雑な操作インターフェース図の出典:インタビュー対象者提供「平面図と3Dを何度も切り替える必要があります。一部のブロックされた絵は頭脳で補わなければなりませんし、フレームの精度も0.01メートルで管理する必要があります。作品のコストパフォーマンスは低くなり、要求範囲からあと1mmでもずれると容赦なくレビューで叩き返される。データ、計算能力、アルゴリズムは人工知能の 3 つの基礎です。データの量が多く、品質が高ければ高いほど、より成熟した大規模モデルをトレーニングできるようになります。これは、アノテーターの精度を常に向上させる作業に現れています。 。「ここ数日でルールが調整され、精度要件が 80% 以上に引き上げられました。」 精度はラベリング担当者にとって「死点」となっており、精度はラベラーがラベルを作成する際に出現する頻度の高い語彙でもあります。不平をいう。マークされた写真は、レビューや品質検査などの 2 ~ 3 つのステップを経なければ、決済サイクルに入ることができません。時々、ウー・シアさんは複雑な迷路に閉じ込められ、どうやっても抜け出せないように感じました。彼女は 1 週間近く新しいプロジェクトに悩まされていました。質問を送信している間も頻繁に電話がかかってきて、不安に陥っていました。 「質問が頻繁に返されすぎると、他の人に質問が割り当てられ、以前のエネルギーが無駄になります。」孟蘭の不安は別の種類のものでした。昨年の 8 月以降、彼の仕事はよりリラックスし、過去 5 分間で数万件のデータが蓄積され、30 分間は負荷の赤線が表示されなくなりました。「プラットフォーム上のデータ量が減少した可能性があります。あるいは、マシンレビューの効率が向上した可能性があります。」Meng Ran さんの不安感はすぐに裏付けられました。 1~200元から数百元、数十ドルに下がりました。大手代理店の間でノックアウトレースが広がった。 Meng Ran 氏は、一夜にしてチームが解散し、賃金未払いの従業員十数人が会社を労働局に告訴したのを目撃しており、状況がもう少し良くなれば、彼らはコンピュータと従業員とともに次のエージェントに異動することになるだろう。「念のため、30人以上のチームに行きましょう。」 これは、Meng Ran の新人へのアドバイスです。## **04 アノテーターは歴史の舞台から去りつつあります**1週間のトレーニングと半月の新人期間を経て、今年5月に湖南省にいたXiaoting氏はようやくデータラベラーとしての仕事に適応したが、会社が消滅するまで急速に衰退していくのを目の当たりにした。「入社して1か月も経てば、会社は立ち行かなくなるでしょう。上司は全員に別れの食事をご馳走しますが、給料は数か月待たなければなりません。」 Xiaoting氏の見解では、現在のデータラベリング業界は問題でいっぱいだ。 「地雷」であり、リスクは収入よりもはるかに大きいです。データラベル付けの起業家であろうと、何万人ものラベル作成者であろうと、大規模なモデルが使用されるステージでは、手動によるデータラベル付けが徐々に重要でなくなりつつあるという事実を避ける方法はありません。メイリンさんの幼稚園の先生の仕事と違うのは、生徒が先生の仕事をすぐに引き受けないことです。現在、ラベラーが培ってきた大型モデル技術がデータラベリングプロセスに急速にフィードバックされています。> テスラを例に挙げると、2018 年以来、2D 手動ラベリングから 4D 空間自動ラベリングまで、自動ラベリング技術を継続的に開発してきました。テクノロジーの進歩により、手動ラベル付けの作業スペースが奪われ、2021 年にはテスラの手動ラベル付けチームは 1,000 人を超え、2022 年には 200 人以上の従業員が解雇される予定です。Xiaopeng Motors や Momo Zhixing などの他の自動車会社も、自動ラベル付けツールを発売しています。 Momo Zhixing の CEO、Gu Weihao 氏は、現在、車線、交通参加者、信号情報を取得するために手動でラベルを付けるコストは写真 1 枚あたり約 5 元であるのに対し、Momo DriveGPT のコストはわずか 0.5 元であると公に述べました。2019 年、一級都市で AI データ トレーナーを務めるウー ディさんは、キャリアの限界を予感しており、彼の会社では電子商取引プラットフォームのスマート カスタマー サービス プロジェクトの開発を担当していました。その進歩は想像以上に早く、1 年も経たないうちに、彼が担当していた 10 人からなるデータラベル付けチームは解散し、散発的なオペレーターだけが残った。「プロジェクトが成熟し続ける日が、私たちが必要とされなくなる日です。」大型モデルの進化は激流のように、常にある瞬間に奇襲を仕掛け、人工チームを置き去りにします。> 今年3月にチューリッヒ大学が発表した調査報告書では、研究者らは実測により15のラベリングタスクにおけるChatGPTの処理能力がクラウドソーサーよりも高いことを発見した。今年4月初め、医学生の李傑さんは医療分野の大規模工場のテキストラベリングを1カ月以内に完了し、このプロジェクトはインテリジェントな診断と対話サービスの提供に活用される予定だ。初めて感じる大型モデルの進化、スピード。「最初は分類された医学用語をプラットフォームに供給し続けましたが、2 週間目にはシステムが基本的な名詞の分類を自動的に実現できるようになり、正解率は 90% を超えました。」山西省太原市では、基地の責任者である周さんは、何度も棚上げされるプロジェクトのプレッシャーに会社が耐えることが困難だったため、より困難なプロジェクトを引き継ぐよう新人たちを説得し始めた。 「現状、ラベル貼り事業は簡素化すればするほど利益が薄くなり、半分完成すると黄色になってしまうプロジェクトもあり、人件費だけではプロジェクトの収入をまったくカバーできない。」データラベル業界の採用担当者はタイムズ・ファイナンスに対し、今年以降、採用の基準が短大生から学部生へと徐々に移行していると語った。 「これまではラベル作成者に基本的に経験要件はありませんでした。現在では多くの企業が、新入社員が直接プロジェクトに取り組み始められるようにすることで、初期研修コストを削減できることを期待しています。」現時点では、インテリジェントラベリングはオブジェクトの基本的な形状と位置を大まかに捉えることができますが、精度の点ではまだプロのラベリングに遅れをとっています。スマートラベリングがいつ大爆発を起こすかは誰にもわかりませんが、リーウェイさんは常に不安感を抱えています。彼女が新しいプロジェクト ページを開くと、スマート ラベルを表す赤いボックスが常に最初に表示され、まるで画面の前にいる人々に常に次のことを思い出させるかのようになります。ある日、それが彼女の代わりになるでしょう。(この記事のインタビュー対象者はすべて仮名です。)
Foxconnの従業員がAIラベル付け工場に流入
出典:「Times Finance APP」(ID:tf-app)、著者:Xu Xiaoqian
** 今年上半期、一級都市のテクノロジー界は人工知能によって活性化された。 **
Wenxin Yiyan、Tongyi Qianwen、Light Years Away などの大型モデルが熱狂の波を送っており、トップレベルのリソースを持つ大物たちがこの壮大なイベントの中核に立ち、ヒーロー投稿を次々と発信しています。大物モデルタレントの争奪戦も勃発している。
「興奮は彼らのもので、私たちには数え切れないほどの箱しかありません。」とデータラベル作成者はTimes Financeに語った。
データラベル会社のオーナー、He Qing 氏の記憶では、この興奮は 4 ~ 5 年前に起こりました。この中西部の都市に初めて人工知能の春風が吹き、敏感な実業家たちは領土を定めて人材を募集し始め、人工知能に「栄養」を着実に供給し始めた。彼らのほとんどは人工知能の素人ですが、突然の膨大な労働需要のため、彼らは最先端のテクノロジーと素晴らしいつながりを持っています。
「当時、多くの上司が家族全員をここに連れてきていました。指を動かすだけでお金を稼ぐことができました。」 He Qing 氏は、データ ラベリング業界で多くの刺激的なニュースを聞いてきました。3 か月以内に数百万を稼ぐ人もいます。その他 取得した注文は 2 年目まで待機することができます。
**しかし、そんな楽しい日も徐々に過ぎ去っていきます。 **
01 まともな「パイプライン」
午前8時45分、密集した人々がエレベーターの入り口を塞ぎ、最初のエレベーターに押し込められたのは3分の1だけで、全員の最終目的地は6階だった。
エレベーターのドアがゆっくりと開くと、群衆は四方八方に広がり、何の違いもないオフィスへと足を踏み入れ、約100平方メートルの空間は数百台のコンピューターで埋め尽くされた。
「家番号をたどって一軒一軒尋ねれば、すべてデータがマークされます。」 公園の 1 階にある物売りは、このように説明しました。
彼らの個性を示すことができるのは、頭にかぶるカラフルなヘッドフォンだけであり、データラベラーという共通のアイデンティティを持っています。
「新人にとっては最初の 1 週間を乗り切るのに十分で、すぐに慣れることができます。」とメイリン氏は画面を見つめながらタイムズ ファイナンスに語った。 。
職長の周さんは2週間ごとに十数人の新人を率いて見習いを始めるが、そのような反復的で退屈な仕事に多くの若者は意欲を失っている。
2 年前、メイリンさんは幼稚園の先生からデータラベル作成者に転身しました。彼女の故郷の鹿梁市では仕事がほとんどなく、テレマーケティングが評判の良い仕事のひとつとなっているが、現在、人工知能の波の影響を受けて、データラベラーは郡内の女性たちに新たな選択肢を提供している。
半年前、ラベルベースの変更のため、メイリンさんは故郷から省都の太原市に引っ越しました。 「自動運転や顔認証には、大規模なラベル業者の参加は必要ありません。」と誇らしげな表情を見せた彼女は、家族の目にオフィスに座ってコンピューターを操作しており、月収は3000元以上だという。 、治療は郡の大部分を超えており、すでに機能しています。
ラベルトレーニングを繰り返すことで、人工知能は「覚醒」の瞬間に到達することができるが、メイリン氏の見方では、これは幼稚園の先生たちのこれまでの仕事と同じだという。
データのラベル付けは人工知能製品の誕生における最初のリンクであり、次にモデルのトレーニングと最適化、モデル管理、推論アプリケーションなどが続きます。人工知能製品にフィードを与えるには何億ものデータが必要で、それらのデータはまず「美人」のコンピュータに流れ込むことになる。
しかし、メイリンの「ハイテク」への幻想は、機械式マウスの繰り返される音によって少しずつ打ち砕かれた。彼女は、1 日の作業量の限界は 1,500 フレームであると計算しており、この警告線を超えると、眼球が痛くなるそうです。
仕事を終えてテレビに向かっているときでさえ、彼女が目にするのはモザイク状のモザイクであり、拡大した後にマークを付ける必要があるぼやけた写真のように見えます。
「隣の席にはいつも知らない顔がいて、同僚同士のコミュニケーションはほとんどありません。」 同じ基地で働くウー・シアさんは、1年半働いた今でもオフィスの静けさにまだ慣れていない。 。
短大卒業後、当初はクラスメートとともに工場に入ったが、プロジェクトの変更やクラスメートの退職により「ローンレンジャー」となる。仕事が始まるとすぐに、オフィスは自動化された組立ラインが始まる「作業場」となり、冷たい工業的な雰囲気と人間味がほとんどありませんでした。
データラベリング業界の特徴として、個人で個数を数え、チームワークを必要としないことが挙げられ、一般のホワイトカラーとは異なる管理方法となっています。
ここで、ラベラーは固定のポジションを持たず、プロジェクトの変更に応じて、フローの方向に数百人をランダムに割り当てます。プロジェクトは最長で2~3ヶ月、短期でも2~3日程度で、十数人からなるプロジェクトチームには管理者がいて全員の作業進捗を監視しています。
アノテーターは同僚間の関係の管理にエネルギーを費やしません。出来高払い型は効率と集中力を重視し、時間とお金はリンクしています。平均 1,000 フレームを完了するには、1 分あたり平均 2 フレームを完了する必要があることを意味します。
「他の人に話すと、数箱のお金を失うことになるでしょう」とメイリンさんは言う。
02 Foxconn 従業員がラベル貼り付け工場に流入
データラベリングパーク内には、技術研究機関や留学生向けの起業拠点も点在しています。 Meng Ran 氏の見解では、これらの「ハイエンド」の地位は彼からは遠く離れています。
大学に入学するまで一度も故郷の臨汾市を離れたことはなかったが、大学卒業後も家族は彼が省を離れないことを望んでいた。基地から2キロ離れたところにフォックスコン太原科技工業団地がある。この工場地帯には最も活発な地元労働者が集まり、ピーク時には 60,000 人近くが工場地帯の組み立てラインで働いていました。
大学生のMeng Ran さんの就活半径は、どれだけ頑張っても半径 5 キロメートルを超えることはありませんでした。彼はかつてデータ ラベリング ベースの第 2 フェーズから第 3 フェーズに移行しましたが、正式にデータ ラベリング担当者になる前に、隣の Foxconn は彼が青春を燃やした場所でした。
孟蘭さんは金を稼ぐために2日連続の休暇をとって工場に入ったことがあるが、そのたびに数千元の給料を受け取って急いで帰った。
毎年冬と夏休みになると、Foxconn キャンパスの入り口は大きなカバンや小さなカバンを持った大学生でいっぱいになります。全員の目標は、年間で最高のリベートと時給を獲得することです。 「誰もが手っ取り早くお金を稼ぐためにここに来ます。そして、繁忙期が終わるとすぐに荷物をまとめて去っていきます。工場は忙しすぎて働くことができず、長期間続けるのは難しいです。」
Meng Ran さんは Foxconn の職場の雰囲気が気に入らなかった。工場に入る前に電子機器を引き渡さなければなりません。毎日直面するのは、同じような服装で急ぐ作業員の群れと、殺風景で寒い工場の建物だけです。不機嫌なチームリーダーに会うと、毎日暴言を吐かれるのが一般的です。
生産ラインが爆音を立てて稼働し始めると、作業員は特定の部品を取り付け続ける必要があり、その作業は10時間以上続くこともよくあります。完全に密閉された空間では、トランス状態ですら贅沢だ。孟蘭さんは、職長が管理を少し緩めるまで、周囲の労働者たちと一言も言葉を交わす勇気がなかった。
2018 年、近くにデータラベリング基地が完成した後、Meng Ran さんは自分の仕事に第 2 の選択肢を選びました。ほんの 1 ブロック離れたところに、より快適な仕事がすぐに見つかります。
Faye Wong は、Foxconn の採用担当者でした。工場の閑散期や人事異動、さらに曖昧なリベートや収入の頻繁な変動により、彼女は出稼ぎ労働者と終わりのない衝突に陥ることがよくあります。
多くのアノテーターは、Meng Ran と似たような仕事の経歴を持っています。エレクトロニクス工場での勤務経験が履歴書の共通点となっており、データ アノテーション工場は、エレクトロニクス工場を辞めた後の次の目的地となっています。
多数の労働者、多額の収入、簡単な運営という共通の特徴により、2 つのスーパー ファクトリーを仮想的に接続する 2 キロメートルの橋が建設されました。
03 消滅するプロジェクトと会社
ラベラーにとっては、良い日々が終わりに近づいているという直感的な感情があります。
データラベル会社のオーナーであるヘ・チンさんは半年も基地に行っておらず、会社への投資を徐々に減らしている。
昨年下半期以来、彼女のチームは顧客からの注文が多いプロジェクトを受注できなくなり、顧客への請求期間が 3 か月から半年に遅れました。 「キャッシュフローが不十分で資本を調達する能力がない多くの小規模工場が閉鎖され、私たちのチームメンバーは3分の1を失いました。」
3 年前、コールアウト フレームをきっかけに熱意に火がついたリー ウェイさんは、奥手でコミュニケーションが苦手でしたが、「選ばれた」仕事を見つけたと感じていました。
他の皆と同じように、リーウェイもゴールドラッシュの時代は終わったと漠然と感じていました。
同社はまったく新しいプロジェクトを立ち上げました. 私たちの前に提示されているのは, もはや現実世界のロードマップではなく, 何千もの緑、紫、青の点で構成されるモデルマップです. 完成した画像には、ほぼ次のものが含まれていますマークされたボックスが 100 個あり、質問セットはわずかな違いしかない数十枚の写真で構成されています。
「平面図と3Dを何度も切り替える必要があります。一部のブロックされた絵は頭脳で補わなければなりませんし、フレームの精度も0.01メートルで管理する必要があります。作品のコストパフォーマンスは低くなり、要求範囲からあと1mmでもずれると容赦なくレビューで叩き返される。
データ、計算能力、アルゴリズムは人工知能の 3 つの基礎です。データの量が多く、品質が高ければ高いほど、より成熟した大規模モデルをトレーニングできるようになります。これは、アノテーターの精度を常に向上させる作業に現れています。 。
「ここ数日でルールが調整され、精度要件が 80% 以上に引き上げられました。」 精度はラベリング担当者にとって「死点」となっており、精度はラベラーがラベルを作成する際に出現する頻度の高い語彙でもあります。不平をいう。
マークされた写真は、レビューや品質検査などの 2 ~ 3 つのステップを経なければ、決済サイクルに入ることができません。
時々、ウー・シアさんは複雑な迷路に閉じ込められ、どうやっても抜け出せないように感じました。彼女は 1 週間近く新しいプロジェクトに悩まされていました。質問を送信している間も頻繁に電話がかかってきて、不安に陥っていました。 「質問が頻繁に返されすぎると、他の人に質問が割り当てられ、以前のエネルギーが無駄になります。」
孟蘭の不安は別の種類のものでした。昨年の 8 月以降、彼の仕事はよりリラックスし、過去 5 分間で数万件のデータが蓄積され、30 分間は負荷の赤線が表示されなくなりました。
「プラットフォーム上のデータ量が減少した可能性があります。あるいは、マシンレビューの効率が向上した可能性があります。」Meng Ran さんの不安感はすぐに裏付けられました。 1~200元から数百元、数十ドルに下がりました。
大手代理店の間でノックアウトレースが広がった。 Meng Ran 氏は、一夜にしてチームが解散し、賃金未払いの従業員十数人が会社を労働局に告訴したのを目撃しており、状況がもう少し良くなれば、彼らはコンピュータと従業員とともに次のエージェントに異動することになるだろう。
「念のため、30人以上のチームに行きましょう。」 これは、Meng Ran の新人へのアドバイスです。
04 アノテーターは歴史の舞台から去りつつあります
1週間のトレーニングと半月の新人期間を経て、今年5月に湖南省にいたXiaoting氏はようやくデータラベラーとしての仕事に適応したが、会社が消滅するまで急速に衰退していくのを目の当たりにした。
「入社して1か月も経てば、会社は立ち行かなくなるでしょう。上司は全員に別れの食事をご馳走しますが、給料は数か月待たなければなりません。」 Xiaoting氏の見解では、現在のデータラベリング業界は問題でいっぱいだ。 「地雷」であり、リスクは収入よりもはるかに大きいです。
データラベル付けの起業家であろうと、何万人ものラベル作成者であろうと、大規模なモデルが使用されるステージでは、手動によるデータラベル付けが徐々に重要でなくなりつつあるという事実を避ける方法はありません。
メイリンさんの幼稚園の先生の仕事と違うのは、生徒が先生の仕事をすぐに引き受けないことです。現在、ラベラーが培ってきた大型モデル技術がデータラベリングプロセスに急速にフィードバックされています。
Xiaopeng Motors や Momo Zhixing などの他の自動車会社も、自動ラベル付けツールを発売しています。 Momo Zhixing の CEO、Gu Weihao 氏は、現在、車線、交通参加者、信号情報を取得するために手動でラベルを付けるコストは写真 1 枚あたり約 5 元であるのに対し、Momo DriveGPT のコストはわずか 0.5 元であると公に述べました。
2019 年、一級都市で AI データ トレーナーを務めるウー ディさんは、キャリアの限界を予感しており、彼の会社では電子商取引プラットフォームのスマート カスタマー サービス プロジェクトの開発を担当していました。その進歩は想像以上に早く、1 年も経たないうちに、彼が担当していた 10 人からなるデータラベル付けチームは解散し、散発的なオペレーターだけが残った。
「プロジェクトが成熟し続ける日が、私たちが必要とされなくなる日です。」
大型モデルの進化は激流のように、常にある瞬間に奇襲を仕掛け、人工チームを置き去りにします。
今年4月初め、医学生の李傑さんは医療分野の大規模工場のテキストラベリングを1カ月以内に完了し、このプロジェクトはインテリジェントな診断と対話サービスの提供に活用される予定だ。初めて感じる大型モデルの進化、スピード。
「最初は分類された医学用語をプラットフォームに供給し続けましたが、2 週間目にはシステムが基本的な名詞の分類を自動的に実現できるようになり、正解率は 90% を超えました。」
山西省太原市では、基地の責任者である周さんは、何度も棚上げされるプロジェクトのプレッシャーに会社が耐えることが困難だったため、より困難なプロジェクトを引き継ぐよう新人たちを説得し始めた。 「現状、ラベル貼り事業は簡素化すればするほど利益が薄くなり、半分完成すると黄色になってしまうプロジェクトもあり、人件費だけではプロジェクトの収入をまったくカバーできない。」
データラベル業界の採用担当者はタイムズ・ファイナンスに対し、今年以降、採用の基準が短大生から学部生へと徐々に移行していると語った。 「これまではラベル作成者に基本的に経験要件はありませんでした。現在では多くの企業が、新入社員が直接プロジェクトに取り組み始められるようにすることで、初期研修コストを削減できることを期待しています。」
現時点では、インテリジェントラベリングはオブジェクトの基本的な形状と位置を大まかに捉えることができますが、精度の点ではまだプロのラベリングに遅れをとっています。
スマートラベリングがいつ大爆発を起こすかは誰にもわかりませんが、リーウェイさんは常に不安感を抱えています。彼女が新しいプロジェクト ページを開くと、スマート ラベルを表す赤いボックスが常に最初に表示され、まるで画面の前にいる人々に常に次のことを思い出させるかのようになります。
ある日、それが彼女の代わりになるでしょう。
(この記事のインタビュー対象者はすべて仮名です。)