大きなモデルを作るのに 10 人で 2 か月かかりました。 1 年間で 16 の主要なカンファレンス論文に恵まれました: 市場で最も優れた論文はどれもオープンソースではありません

巴比特_

2023-09-14 02:25:06

作者: 恒宇

**出典: **量子ビット

今年5月に深センに設立されたある会社のチーム人数は10人にも満たない。

彼らがしなければならないことは、AGI に挑戦するという小さな問題ではありません。

自信はどこにありますか？まず過去の履歴書を見て、次に現在のトラック成績を見てください。

彼らは過去1年間で、CVPR、ICML、ECCVなどのトップカンファレンスでモデル関連の大規模論文を計16本発表しており、そのうちの1本がトップカンファレンスACL 2023の最優秀論文にノミネートされました。

起業後の成果はいかがでしたか？確立から 2 か月後、このトレーニング済みモデルは C リストのトップ 3 にランクされ、その中国語能力は ChatGPT と Claude-v1.3 を破りました。

これは共生マトリックスの結果です。

また、そのモデルの GS-LLM は 7 月末以来初めてリストに掲載されており、C リストに登録されている 65 人のプレーヤーの中で第一段階に入っています。

では、共生マトリックスとは誰でしょうか?

10人でAGIに挑戦

Symbiotic Matrix は、自社開発の AGI テクノロジーに基づいた産業データ精製工場の構築を目指しています。

チームは主に自社開発の大型モデル GS-LLM に依存しています。

モデルパラメータのスケール範囲は7B～130Bで、ユーザーの実際のニーズに応じて調整できます。

C-上に位置する GS-LLM に基づく 2 つのバージョンがあり、1 つは 100 億パラメータバージョンの GS-LLM-Beta で、もう 1 つは 100 億未満のパラメータを備えたミニバージョン GS-LLM-Beta-Mini です。。

ミニバージョンをリリースした理由は、多くのユーザーが、元のオペレーティング環境 (クラウド環境であっても) では大規模なローカル展開をサポートするには不十分であると感じたためです。

テストの結果、GS-LLM-Beta の数十億バージョンが良好なパフォーマンスを発揮し、C- で最高ランク 6 位であることがわかりました。

C リストのトップに留まる理由の 1 つは、シンバイオティックマトリックスが完全に独立したトレーニングフレームワークを構築しており、トレーニング全体に対して比較的完全な技術サポートを提供していることです。

2つ目は、同社が重視しているデータだ。

Symbiotic Matrix CEO の Zhang Lin 氏は、簡単な例を挙げました。

モデルのトレーニングを人間の成長プロセスに例えてみましょう。もし彼が子供の頃から読んできたのが栄養価の高い小説ばかりなら、この人の総合的な能力はそれほど高くないでしょう。

昨年、チームは実験で、モデルデータが一定の大きさに達すると、データ品質の飛躍が実際に何らかの質的変化を引き起こす可能性があることを発見しました。

「言い換えれば、比較的小規模な（数百億など）モデルがあり、それに高品質のデータを供給した場合、トレーニング結果は数千億レベルの結果に非常に近くなるでしょう。」と Zhang Lin 氏は述べています。。

この実験により、チームはデータ品質と高品質のデータを取得するための体系的な方法にもさらに注意を払うようになりました。

実は、この点は最近各界からますます注目を集めており、マイクロソフト社は「教科書だけで十分だ」という新たな研究結果を発表しており、規模を大きくすることが唯一の解決策ではなく、高品質なデータが重要であることを示しています。重要な。

その結果、Symbiosis チームは、24 時間継続的にデータをクリーニングするためのエンジニアリングシステムを構築しました。

チームは現在、トレーニングに使用できる約 20T のテキストデータをクリーンアップしています。「このレベルのデータは、非常に大規模なシステムのモデルトレーニングをサポートできます。」

しかし、Zhang Lin氏は、Symbiotic Matrixがチームによってクリーニングされたデータを短期的には一般に公開しないことも明らかにした。

では、チームが構築したいデータリファインメントファクトリーのコンセプトは何でしょうか?

Zhang Lin 氏は、大規模なモデルを「情報の圧縮」として理解すると、それ自体が大規模なパラメータデータベースになると説明しました。

データ精製ファクトリーがしなければならないことは、モデルがトレーニングされた後にパラメーターデータを共有し、交換することです。

大規模モデルの機能はパラメータを介して伝達されることを知っておく必要があります。トランザクションパラメータは実際にはスイッチング機能です。大規模モデルの機能の多様性が必要です。「パラメータトレーディングが最も効率的な方法です。」

ここでいうデータとは、誰もが見ることができるようなデータではなく、パラメータデータのことです。私たちがよく言うデータとは文字や画像のことであり、工場が所有するデータは学習済みモデルのパラメータであり、そのパラメータは商業的に取引されています。

「生データは直接取引されますが、これには大量のデータとプライバシーの問題による制約があります。」 Zhang Lin氏は、データ取引の概念は長年提案されてきたが、市場に完全には受け入れられていないと説明しました。データを真に流通させるには、より合理的で安全かつ効果的なものである必要があるため、パラメータレベルでのデータ取引が最終的に決定されました。

チームのビジョンでは、データリファインメントファクトリーの実行後、一部のデータは繰り返しトレーニングする必要がなくなり、効率が向上し、コストが削減されます。

より少ない人員とリソースを使用して大規模なモデルシステムを完成させる

大型モデルのブームの中で、大型モデルをどのように評価するかが重要な課題となっており、さまざまなリストが登場しています。

Symbiotic Matrix が C- としてリストされた後、外部の世界は 2 つの主要な点に注目しました。

好成績に加えて、注目すべき点は、リストでは珍しい小規模チームであることだ。

同チームは、このリストは世界で唯一かつ最も権威のあるものではないが、設立から1か月後にリストに掲載され始め、一時は上位3位に入ったこともあるが、これは「私たちがより少ない人員とリソースを使って、大規模なモデルシステムで良い仕事をします。」

そう、Symbiosis Matrix チームは 10 名未満です。

人数は少ないですが、みんな戦闘が上手いですね――。

CEOのZhang Lin、CTOのWang Junjie、その他のチームの中心メンバーは全員IDEA Research Instituteの出身であり、国内のFengshenbang事前トレーニングモデルのオープンソースシステムで豊富な実務経験を持っています（Fengshenbangは現在98以上のオープンソースシステムを持っていると報告されています）ソース事前トレーニングモデル)

Zhang Lin は、ニューヨーク州立大学で博士号を取得し卒業し、主要なコンピューター会議で 30 以上の論文を発表しており、以前は広東・香港・マカオ大湾区デジタル経済研究所 (IDEA) の上級研究員を務めていました。）。

Wang Junjie は早稲田大学でコンピュータサイエンスの博士号を取得しており、以前は鳳神邦大規模モデルチームの中心メンバーでした。

△張林

現在の AI 市場を見ると、小規模なチームが AI で良い仕事をした前例はなく、新時代の組織のベンチマークと呼ばれる最も有名な Vincent ダイアグラムモデル Midjourney のメンバーはわずか 11 人です。 AI2.0時代には、「小さくても美しい」を重視した大型モデルの起業家チームが国内外で数多く誕生している。

もちろん、より深い理由は、大規模モデルは単にマンパワーを積み上げるプロジェクトではなく、効率を確保するために少数の精鋭チームが必要であるためである、と張林氏は述べました。

同氏は、モデルをトレーニングする際には、オペレーターの最適化、混合精度などの技術的側面、および数百枚のカードを同時にサポートする際の通信の問題など、すべてがエンジニアリング能力をテストすると述べました。小規模なチームが直面するエンジニアリング上の問題を解決し、効率を向上させることができれば、その解決を大規模なチームに依存する必要はありません。

さらに、小規模な技術コアチームは、ルールに固執しないことでイデオロギーの独立性を維持し、より多くの可能性を探求するのに役立ちますが、人員を積み上げると全体の効率が低下しやすくなります。

同氏の試算によれば、国内の大型モデルの分野で優秀な人材は「せいぜい100人程度」で、大規模なチームを編成する余地はほとんどないという。

そのため、チームは一定期間「10人未満」の規模にとどまることになる。

結局のところ、これは AI 2.0 時代と AI 1.0 時代の背後にあるパラダイムと概念の異なる理解です。

コミュニケーションの過程で、Zhang Lin 氏は、チームの主流の意見とは別のレベルでの異なる理解を直接表明しました。これは、オープンソースとクローズドソースの概念に反映されています。

少し前に、無料で商用利用可能な LLaMA-2 がリリースされたとき、LLaMA-2 はほとんどの企業の低コストとパーソナライゼーションのニーズを満たすことができるため、市場のスタートアップにとっては大きな打撃になるだろうと多くの人が言いました。

「LLaMA-2 は市場構造を変えていません。」 Symbiosis チームの目では、真に主導的なチームはコアテクノロジーをオープンソース化していません。

Zhang Lin氏はまた、現段階ではオープンソースの重要性は商業化の促進ではなく、市場の教育にあると付け加えた。

Raspberry Pi が電子愛好家にとっては意味があるものの、モバイルコンピューター市場を変えることはないのと同様に、LLAMA 2 はエントリーレベルのユーザーにとってはより価値がありますが、商用利用を希望するユーザーにはほとんど影響を与えません。

このような「非主流」の見方や理解を持つ共生マトリックスがまだたくさんあります。

たとえば、私たちは大規模なモデルが一般的な AI の終点であるとは考えていませんし、ChatGPT が究極の方向性を示しているとも考えません。

彼らはまた、ユニコーン型の急速な拡大には慎重であり、チームの結束と技術の蓄積により注意を払っています。

……

今後の開発ルートについては、Symbiosis Matrix は短期的にはクローズドソースを選択しますが、将来的には適切な機会があれば適切にオープンソースになる可能性があります。

オープンソースには明確なビジネス主導の目標が必要ですが、現在、大規模モデルのテクノロジーはまだ急速な反復と競争の段階にあり、オープンソースのコアテクノロジーは先行者利益を失うリスクがあります。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

0/400

コメントなし

トピック
#Token of Love: Cheer on Square & Win Tickets
25k 人気度
#Crypto Market Rebound
219k 人気度
#FOMC July Minutes
40k 人気度
#Show My Alpha Points
177k 人気度
#Crypto-Related xStocks Rally
5k 人気度

ピン

サイトマップ

大きなモデルを作るのに 10 人で 2 か月かかりました。 1 年間で 16 の主要なカンファレンス論文に恵まれました: 市場で最も優れた論文はどれもオープンソースではありません

10人でAGIに挑戦

より少ない人員とリソースを使用して大規模なモデル システムを完成させる

より少ない人員とリソースを使用して大規模なモデルシステムを完成させる