AI+Web3インフラストラクチャの詳細な説明

中級3/29/2024, 7:41:47 PM
AI+Web3業界のインフラストラクチャレイヤーの主要プロジェクトは、基本的に分散コンピューティングネットワークを主要なナラティブとし、低コストを主要な利点とし、トークンインセンティブを主要なネットワーク拡大の手段とし、AI+Web3顧客へのサービスを主要な目標としています。

転送されたオリジナルタイトル: AI+Web3未来の開発パス(2): インフラチャプター

インフラストラクチャは、AI開発の確定的成長方向です

1.急増するAIコンピューティング需要

近年、コンピューティングパワーの需要は急速に拡大し、特に巨大なLLMモデルの登場に続いています。AIコンピューティングパワーの需要の急増は、高性能コンピューティング市場に大きな影響を与えています。OpenAIのデータによると、2012年以来、最大のAIモデルをトレーニングするために使用されるコンピューティングパワーは指数関数的に成長し、平均して3〜4ヶ月ごとに倍増し、ムーアの法則によって予測される成長率を上回っています。AIアプリケーションへの需要の急増により、コンピューティングハードウェアの需要が急速に増加しています。予測によると、2025年までに、AIアプリケーションによって駆動されるコンピューティングハードウェアの需要は約10%から15%増加する見通しです。

AIコンピューティングパワーの需要によって推進され、GPUハードウェアメーカーのNVIDIAはデータセンターの収益が着実に成長している。2023年第2四半期には、データセンターの収益が約1,032億ドルに達し、2023年第1四半期から141%増加し、前年同期から171%急増した。2024会計年度第4四半期までに、データセンターセグメントは総収益の83%以上を占め、同時に409%成長し、そのうち40%は大規模モデル推論シナリオに帰することから、高性能コンピューティングパワーへの強力な需要が示されている。

同時に、膨大な量のデータがストレージやハードウェアメモリに重要な要件を課す。特にモデル訓練段階では、広範なパラメータ入力とデータストレージが不可欠である。AIサーバーで利用されるメモリチップには、高帯域幅メモリ(HBM)、DRAM、およびSSDが主に含まれる。AIサーバーの作業環境は、増加した容量、向上した性能、低遅延、およびより迅速な応答時間を提供しなければならない。Micronの計算によると、AIサーバーのDRAMの量は従来のサーバーのそれよりも8倍多く、NANDの数量は従来のサーバーの基準を3倍超える。

2. 供給と需要の不均衡がコンピューティングパワーのコストを押し上げる

通常、計算能力は主にAIモデルのトレーニング、微調整、および推論段階で利用されますが、特にトレーニングおよび微調整段階で使用されます。増加したデータパラメータの入力、計算要件、および並列計算における相互接続性の需要の高まりにより、より強力で相互接続されたGPUハードウェアが必要とされます。大規模なモデルが進化するにつれて、計算の複雑さが線形に増加し、モデルトレーニングの要求を満たすためにより高性能なハードウェアが必要とされます。

例えば、GPT-3を取ると、約1300万の独立したユーザー訪問を想定したシナリオでは、対応するチップの需要は30,000枚のA100 GPUを超えるでしょう。この初期投資コストは驚異的な8億ドルに達し、推定されるモデル推論の日々のコストは約70万ドルに上ります。

同時に、業界レポートによると、2023年第4四半期には、NVIDIAのGPU供給が世界的に深刻に制限され、世界中の市場で供給と需要の間に顕著な不均衡が生じています。 TSMC、HBM、CoWoパッケージングなどの要因により、NVIDIAの生産能力が制約され、H100 GPUの「深刻な不足問題」は少なくとも2024年末まで続くと予想されています。

したがって、高級GPUへの需要の急増と供給制約により、GPUなどの現在のハードウェア部品の価格が急騰しています。特に、業界チェーンで中核的な地位を占めるNVIDIAなどの企業にとっては、独占的な支配力により高値がさらに増加し、追加価値が享受されています。たとえば、NVIDIAのH100 AIアクセラレーターカードの原材料コストは約3,000ドルですが、販売価格は2023年中旬には約35,000ドルに達し、eBayでは40,000ドルを超えることさえありました。

3. AIインフラストラクチャが産業チェーンの成長を促進します

Grand View Researchによると、2023年の世界のクラウドAI市場規模は626.3億ドルに推定され、2030年までに6476億ドルに達すると予測されており、年平均成長率は39.6%です。これらの数字は、クラウドAIサービスの成長ポテンシャルと、全体のAI産業チェーンへの大きな貢献を強調しています。

a16zの推定によると、AIとグローバルコンピューティング(AIGC)市場の資金の相当部分が最終的にインフラ企業に流れているとされています。平均して、アプリケーション企業は各顧客に対して収益の約20-40%を推論と微調整に割り当てています。この支出は通常、計算インスタンスのクラウドプロバイダーまたはサードパーティのモデルプロバイダーに向けられ、その後、収益の半分程度がクラウドインフラストラクチャに充てられます。したがって、AIGCによって生成された総収益の10-20%がクラウドプロバイダに向けられると推定されます。

さらに、計算能力への需要の大部分は、様々な広範なLLMモデルを含む大規模AIモデルのトレーニングを中心としています。特にモデルのスタートアップ企業にとって、コストの80-90%がAI計算能力に帰属しています。クラウドコンピューティングやハードウェアを含むAI計算インフラは、市場の初期価値の50%以上を占めると予想されています。

分散型AIコンピューティング

以前にも述べたように、中央集権的なAIコンピューティングの現在のコストは高いままであり、主にAIトレーニングのための高性能インフラへの需要の急増によるものです。ただし、市場には多くのアイドルコンピューティングパワーが存在し、供給と需要の不一致をもたらしています。この不均衡に寄与する主な要因は次のとおりです:

  • メモリの制約により、モデルの複雑さは必要なGPUの数と線形の成長関係を持ちません。現在のGPUは計算能力に優れていますが、モデルのトレーニングには多数のパラメータをメモリに格納する必要があります。たとえば、GPT-3の場合、1750億のパラメータを持つモデルをトレーニングするためには、1テラバイト以上のデータをメモリに保持する必要があります。今日利用可能などのGPUよりも多くのため、これにより並列処理とストレージのためにより多くのGPUが必要となります。それにより、GPUの計算能力がアイドル状態になることにつながります。例えば、GPT3からGPT4へのモデルパラメータのサイズは約10倍に増加しましたが、必要なGPUの数は24倍に増加しました(モデルトレーニング時間の増加を考慮していません)。関連する分析によると、OpenAIはGPT-4のトレーニングで約2.15e25 FLOPSを使用し、約25,000のA100 GPUで90から100日間トレーニングを行い、計算能力の利用率は約32%から36%でした。

上記で概説された課題に対応するため、高性能チップの設計やAIタスク向けに特化した専用ASICチップの開発は、多くの開発者や主要企業によって探求されている注目すべきアプローチです。別のアプローチとしては、既存のコンピューティングリソースを包括的に活用し、コンピューティングパワーコストをリース、共有、リソースの効率的なスケジューリングによって削減することを目指した分散コンピューティングネットワークの構築があります。また、市場には現在、使われていない消費者向けのGPUやCPUが余剰となっています。個々のユニットは計算パワーに乏しいかもしれませんが、高性能チップと組み合わせたり特定のシナリオで既存の計算要件を効果的に満たすことができます。重要なのは、十分な供給を確保することであり、分散ネットワークスケジューリングによってさらなるコスト削減が可能となります。

その結果、分散コンピューティングパワーへのシフトは、AIインフラの進化における主要な方向性として浮かび上がってきました。同時に、Web3と分散システムの概念的な整合性を考えると、分散コンピューティングパワーネットワークは、Web3+AIインフラストラクチャの主要な焦点となっています。現在、Web3市場の分散コンピューティングパワープラットフォームは、一般的に、中央集権型クラウドコンピューティングサービスよりも80%-90%低い価格を提供しています。

ストレージはAIインフラストラクチャにおいて重要な役割を果たしますが、スケール、使いやすさ、低レイテンシの観点では、集中型ストレージが明確な利点を持っています。しかし、提供する著しいコスト効率から、分散コンピューティングネットワークは市場の潜在能力が高く、急成長するAI市場拡大から著しい利益を得る見込みです。

  • モデル推論と小規模モデルのトレーニングは、現在の分散コンピューティング能力の基本的なシナリオです。分散システムにおけるコンピューティングリソースの分散は、必然的にGPU間の通信の問題を引き起こし、コンピューティングパフォーマンスの低下につながる可能性があります。したがって、分散コンピューティング能力は、最小限の通信を必要とし、並列タスクを効果的にサポートできるシナリオに最も適しています。これらのシナリオには、大規模な AI モデルと、比較的少ないパラメーターを持つ小さなモデルの推論フェーズが含まれ、パフォーマンスへの影響が最小限に抑えられます。今後、AIアプリケーションが進化するにつれて、アプリケーション層での重要な要件として推論が浮上します。ほとんどの企業が大規模なモデルを独自にトレーニングする能力に欠けていることを考えると、分散コンピューティング能力は長期的に大きな市場の可能性を秘めています。
  • 大規模並列計算向けの高性能分散トレーニングフレームワークの台頭が見られています。PyTorch、Ray、DeepSpeedなどの革新的なオープンソース分散コンピューティングフレームワークは、モデルトレーニングにおける分散コンピューティングパワーの堅固な基盤サポートを開発者に提供しています。この進化により、将来のAI市場において分散コンピューティングパワーの適用範囲が拡大し、様々なAIアプリケーションへの統合が容易になります。

AI+Web3インフラプロジェクトのナラティブロジック

分散型AIインフラストラクチャセクターは、強力な需要と長期的な成長見込みを示し、投資資本の魅力的な分野となっています。現在、AI+Web3産業のインフラストラクチャレイヤー内の主要プロジェクトは、主に分散コンピューティングネットワークを中心に展開しています。これらのプロジェクトは低コストを重要な利点とし、トークンインセンティブを活用してネットワークを拡大し、AI+Web3クライアントのサービスを優先的に行っています。このセクターは主に2つの重要なレベルで構成されています:

  1. 比較的純粋な分散型クラウドコンピューティングリソース共有およびリースプラットフォーム:Render Network、Akash Networkなどの初期のAIプロジェクトは、このカテゴリに該当します。
  • このセクターにおける主要な競争上の優位性は、コンピューティングパワーのリソースにあり、さまざまなプロバイダへのアクセス、迅速なネットワークの構築、ユーザーフレンドリーな製品の提供が可能です。クラウドコンピューティング企業やマイナーなどの初期の市場参加者は、この機会に参入するための好位置にあります。
  • 低い製品の閾値と迅速なローンチ能力を持つ、Render NetworkやAkash Networkなどの既存のプラットフォームは著しい成長を示し、競争力を持っています。
  • しかし、新規参入者は、製品の同質性に直面しています。現在のトレンドや低い参入障壁が、共有コンピューティングパワーやリースに焦点を当てたプロジェクトの流入につながっています。これらの提供には差別化が欠如していますが、独自の競争上の優位性が求められています。
  • プロバイダーは通常、基本的なコンピューティング要件を持つ顧客をターゲットにしています。たとえば、Render Networkはレンダリングサービスに特化していますが、Akash Networkは強化されたCPUリソースを提供しています。単純なコンピューティングリソースのリースは基本的なAIタスクに適していますが、トレーニング、微調整、推論などの複雑なAIプロセスの包括的なニーズを満たすには不十分です。
  1. 分散コンピューティングおよび機械学習ワークフローサービスを提供し、Gensyn、io.net、Ritualなど、多くの新興プロジェクトが最近、大規模な資金調達を確保しました。
  • 分散コンピューティングは、業界の評価の基盤を高めます。コンピューティングパワーがAI開発における決定的なストーリーとして立ち上がる中、コンピューティングパワーに根差したプロジェクトは、純粋に中間のプロジェクトよりも堅牢で高いポテンシャルを持つビジネスモデルを誇る傾向があり、それによりより高い評価を得ています。
  • ミドルウェアサービスは特長を確立します。中間層が提供するサービスは、オラクルや検証者などの機能を含む、AIチェーン上とチェーン外の計算の同期を容易にするものであり、全体的なAIワークフローをサポートする展開および管理ツールなどを包括しています。AIワークフローは、協力、継続的フィードバック、高い複雑さを特徴としており、さまざまな段階での計算パワーが必要です。したがって、ユーザーフレンドリーで高度に協力的であり、AI開発者の複雑なニーズに対応できるミドルウェア層が、特にWeb3ドメインで競争力のある資産として現れ、AIのためのWeb3開発者の要件に対応しています。これらのサービスは、基本的なコンピューティングサポートを超えて、潜在的なAIアプリケーション市場に適しています。
  • プロジェクトチームは、専門のMLフィールドの運用およびメンテナンスの専門知識を持つことが一般的に不可欠です。中堅のサービスを提供するチームは、開発者のフルライフサイクルの要件に効果的に対応するために、MLワークフロー全体の包括的な理解を持っている必要があります。このようなサービスは、しばしば既存のオープンソースのフレームワークやツールを活用しており、重要な技術革新を必要とせずとも、豊富な経験と堅牢なエンジニアリング能力を持つチームが求められます。これは、プロジェクトの競争上の優位性となります。

集中型クラウドコンピューティングサービスよりも競争力のある価格でサービスを提供しつつ、同等のサポート施設とユーザーエクスペリエンスを維持しているこのプロジェクトは、著名な投資家からの認識を集めています。ただし、高まった技術的複雑さは大きな課題となっています。現在、プロジェクトは物語と開発段階にあり、完全にローンチされた製品はまだありません。

代表的なプロジェクト

1.レンダーネットワーク

Render Networkは、分散GPUを活用してクリエイターに費用対効果の高い効率的な3Dレンダリングサービスを提供するグローバルブロックチェーンベースのレンダリングプラットフォームです。クリエイターがレンダリング結果を確認した後、ブロックチェーンネットワークはトークン報酬をノードに送信します。プラットフォームには、分散GPUスケジューリングおよび割り当てネットワークが特徴で、ノードの使用状況、評判、およびその他の要因に基づいてタスクを割り当て、計算効率を最適化し、アイドルリソースを最小化し、経費を削減します。

プラットフォームのネイティブトークンであるRNDRは、エコシステム内での支払い通貨として機能します。ユーザーはRNDRを利用してレンダリングサービス料金を支払うことができ、一方、サービスプロバイダーはレンダリングタスクを完了するために計算能力を提供することでRNDRリワードを獲得します。レンダリングサービスの価格は、現在のネットワーク利用状況やその他の関連メトリクスに応じて動的に調整されます。

レンダリングは、分散コンピューティングパワーアーキテクチャのための適切で確立されたユースケースであることが証明されています。レンダリングタスクの性質は、複数のサブタスクに分割して並列に実行することを可能にし、タスク間の通信と相互作用を最小限に抑えます。このアプローチにより、分散コンピューティングアーキテクチャの欠点を緩和しながら、広範囲にわたるGPUノードネットワークを活用してコスト効率を向上させることができます。

Render Networkの需要は非常に大きく、2017年の創設以来、ユーザーはプラットフォーム上で1600万フレーム以上と約50万のシーンをレンダリングしています。レンダリングジョブの量とアクティブノードの数は引き続き増加しています。さらに、2023年第1四半期に、Render Networkはネイティブに統合されたStability AIツールセットを導入し、ユーザーがStable Diffusion操作を組み込むことができるようにしました。このレンダリング操作を超えた拡張は、AIアプリケーションの領域への戦略的な展開を示しています。

2.Gensyn.ai

Gensynは、PolkadotのL1プロトコルを利用したディープラーニングコンピューティングに特化したグローバルスーパーコンピューティングクラスターネットワークとして運営されています。2023年には、a16zが主導するシリーズA資金調達で4300万ドルを確保しました。Gensynのアーキテクチャフレームワークは、インフラの分散コンピューティングパワークラスターを超えて、上位層の検証システムを包括しています。このシステムは、オフチェーンの計算がブロックチェーンの検証を通じてオンチェーン要件と整合することを確認し、信頼できるマシンラーニングネットワークを構築しています。

分散コンピューティングパワーに関して、Gensynは余剰容量を持つデータセンターから潜在的なGPUを持つ個人用ノートパソコンまで、さまざまなデバイスに対応しています。これにより、開発者がオンデマンドでピアツーピアの利用が可能な統合された仮想クラスタを形成します。Gensynは市場を確立し、価格が市場力によって決定される市場を目指し、包括性を育み、MLコンピューティングコストが公平な水準に達することを可能にします。

検証システムは、Gensynにとって重要なコンセプトとして位置付けられており、指定された機械学習タスクの正確性を検証することを目指しています。それは、確率的学習証明、グラフベースの正確な位置決めプロトコル、Truebitを包括した革新的な検証アプローチを導入しています。このインセンティブゲームのコア技術的特徴は、従来のブロックチェーン検証方法と比較して、より効率的な性能を提供しています。ネットワーク参加者には、提出者、解決者、検証者、および告発者が含まれており、これらが一体となって検証プロセスを促進しています。

Gensynプロトコルのホワイトペーパーに詳細に記載されている広範なテストデータに基づくと、プラットフォームの注目すべき利点は次のとおりです。

  • AIモデルトレーニングのコスト削減:Gensynプロトコルは、NVIDIA V100と同等の計算を1時間あたり約0.40ドルの見積もりコストで提供し、AWSのオンデマンド計算と比較して80%のコスト削減を実現します。
  • 信頼性の高い検証ネットワークにおける効率向上:ホワイトペーパーに概説されたテスト結果によると、Gensynプロトコルを使用したモデルトレーニング時間が著しく改善されています。Truebit複製と比較して、時間オーバーヘッドは驚異的に1,350%向上し、Ethereumに比べて驚異的な2,522,477%の改善が見られました。

しかし、同時に、分散コンピューティングパワーは、通信やネットワークの課題に起因して、ローカルトレーニングと比較してトレーニング時間の必然的な増加をもたらします。テストデータに基づくと、Gensynプロトコルはモデルトレーニングにおいて約46%の時間オーバーヘッドを発生させます。

3. Akashネットワーク

Akash Networkは、さまざまな技術要素を統合し、ユーザーが分散型クラウド環境内で効率的にアプリケーションを展開および管理できるようにする分散クラウドコンピューティングプラットフォームとして機能します。要するに、ユーザーに分散コンピューティングリソースをリースする能力を提供します。

Akashの中核には、世界中に分散されたインフラストラクチャサービスプロバイダのネットワークがあり、CPU、GPU、メモリ、およびストレージリソースを提供しています。これらのプロバイダは、ユーザが上位のKubernetesクラスタを介してリソースをリースするためのリソースを提供します。ユーザは、Dockerコンテナとしてアプリケーションを展開し、コスト効果の高いインフラストラクチャサービスを活用できます。さらに、Akashはリソース価格をさらに引き下げるために「逆オークション」アプローチを実装しています。Akash公式ウェブサイトの見積もりによると、プラットフォームのサービスコストは、中央集権型サーバの約80%低いとされています。

4.io.net

io.netは、世界中に分散されたGPUを相互リンクして、AIモデルのトレーニングと推論のための計算サポートを提供する分散コンピューティングネットワークとして存在しています。最近、3,000万ドルのシリーズAラウンドを終え、このプラットフォームは現在、10億ドルの評価額を誇っています。

RenderやAkashのようなプラットフォームとは異なり、io.netは堅牢でスケーラブルな分散コンピューティングネットワークとして浮かび上がり、複数の開発者ツールの階層に複雑にリンクしています。その主な特長には次のようなものがあります:

  • 多様なコンピューティングリソースの集約:独立したデータセンターや暗号鉱夫、FilecoinやRenderなどのプロジェクトからGPUへのアクセス。
  • AI要件のためのコアサポート: 重要なサービス機能には、バッチ推論とモデルサービング、並列トレーニング、ハイパーパラメータチューニング、および強化学習が含まれます。
  • 高度なクラウド環境ワークフロー向上のための先進テクノロジースタック:コンピューティングリソース割り当てのためのMLフレームワーク、アルゴリズム実行、モデルトレーニング、推論オペレーション、データストレージソリューション、GPUモニタリング、および管理ツールを含むオーケストレーションツールの範囲を網羅しています。
  • 並列コンピューティング機能:Ray(オープンソースの分散コンピューティングフレームワーク)の統合により、Ray固有の並列処理能力を活用し、Python関数をダイナミックなタスク実行のために効果的に並列化します。インメモリストレージにより、タスク間での迅速なデータ共有が可能となり、シリアライゼーションの遅延を排除します。さらに、io.netはPyTorchやTensorFlowなど他の主要な機械学習フレームワークと統合することで、拡張性を高めています。

価格に関して、io.net公式ウェブサイトによると、その料金は中央集権型クラウドコンピューティングサービスの料金よりも約90%低くなると推定されています。

さらに、io.netのネイティブトークンであるIOコインは、主にエコシステム内での支払いおよび報酬メカニズムとして機能します。代わりに、需要者は、IOコインを取引のための安定通貨「IOSDポイント」に変換することで、Heliumに似たモデルを採用することができます。

免責事項:

  1. この記事は[から転載されています万象区块链],元のタイトルは「AI+Web3未来開発ロード(2) ): インフラストラクチャ」であり、著作権は元の著者に帰属します[万象区块链]. If there are objections to this reprint, please contact the Gate Learn Team、そして彼らは迅速に対処します。

  2. 責任免除:この記事で表現されている意見や見解は、著者個人のものであり、投資アドバイスを構成するものではありません。

  3. 他の言語への記事の翻訳は、Gate Learnチームによって行われています。言及せずにGate.io、翻訳された記事の複製、配布、または盗用はできません。

AI+Web3インフラストラクチャの詳細な説明

中級3/29/2024, 7:41:47 PM
AI+Web3業界のインフラストラクチャレイヤーの主要プロジェクトは、基本的に分散コンピューティングネットワークを主要なナラティブとし、低コストを主要な利点とし、トークンインセンティブを主要なネットワーク拡大の手段とし、AI+Web3顧客へのサービスを主要な目標としています。

転送されたオリジナルタイトル: AI+Web3未来の開発パス(2): インフラチャプター

インフラストラクチャは、AI開発の確定的成長方向です

1.急増するAIコンピューティング需要

近年、コンピューティングパワーの需要は急速に拡大し、特に巨大なLLMモデルの登場に続いています。AIコンピューティングパワーの需要の急増は、高性能コンピューティング市場に大きな影響を与えています。OpenAIのデータによると、2012年以来、最大のAIモデルをトレーニングするために使用されるコンピューティングパワーは指数関数的に成長し、平均して3〜4ヶ月ごとに倍増し、ムーアの法則によって予測される成長率を上回っています。AIアプリケーションへの需要の急増により、コンピューティングハードウェアの需要が急速に増加しています。予測によると、2025年までに、AIアプリケーションによって駆動されるコンピューティングハードウェアの需要は約10%から15%増加する見通しです。

AIコンピューティングパワーの需要によって推進され、GPUハードウェアメーカーのNVIDIAはデータセンターの収益が着実に成長している。2023年第2四半期には、データセンターの収益が約1,032億ドルに達し、2023年第1四半期から141%増加し、前年同期から171%急増した。2024会計年度第4四半期までに、データセンターセグメントは総収益の83%以上を占め、同時に409%成長し、そのうち40%は大規模モデル推論シナリオに帰することから、高性能コンピューティングパワーへの強力な需要が示されている。

同時に、膨大な量のデータがストレージやハードウェアメモリに重要な要件を課す。特にモデル訓練段階では、広範なパラメータ入力とデータストレージが不可欠である。AIサーバーで利用されるメモリチップには、高帯域幅メモリ(HBM)、DRAM、およびSSDが主に含まれる。AIサーバーの作業環境は、増加した容量、向上した性能、低遅延、およびより迅速な応答時間を提供しなければならない。Micronの計算によると、AIサーバーのDRAMの量は従来のサーバーのそれよりも8倍多く、NANDの数量は従来のサーバーの基準を3倍超える。

2. 供給と需要の不均衡がコンピューティングパワーのコストを押し上げる

通常、計算能力は主にAIモデルのトレーニング、微調整、および推論段階で利用されますが、特にトレーニングおよび微調整段階で使用されます。増加したデータパラメータの入力、計算要件、および並列計算における相互接続性の需要の高まりにより、より強力で相互接続されたGPUハードウェアが必要とされます。大規模なモデルが進化するにつれて、計算の複雑さが線形に増加し、モデルトレーニングの要求を満たすためにより高性能なハードウェアが必要とされます。

例えば、GPT-3を取ると、約1300万の独立したユーザー訪問を想定したシナリオでは、対応するチップの需要は30,000枚のA100 GPUを超えるでしょう。この初期投資コストは驚異的な8億ドルに達し、推定されるモデル推論の日々のコストは約70万ドルに上ります。

同時に、業界レポートによると、2023年第4四半期には、NVIDIAのGPU供給が世界的に深刻に制限され、世界中の市場で供給と需要の間に顕著な不均衡が生じています。 TSMC、HBM、CoWoパッケージングなどの要因により、NVIDIAの生産能力が制約され、H100 GPUの「深刻な不足問題」は少なくとも2024年末まで続くと予想されています。

したがって、高級GPUへの需要の急増と供給制約により、GPUなどの現在のハードウェア部品の価格が急騰しています。特に、業界チェーンで中核的な地位を占めるNVIDIAなどの企業にとっては、独占的な支配力により高値がさらに増加し、追加価値が享受されています。たとえば、NVIDIAのH100 AIアクセラレーターカードの原材料コストは約3,000ドルですが、販売価格は2023年中旬には約35,000ドルに達し、eBayでは40,000ドルを超えることさえありました。

3. AIインフラストラクチャが産業チェーンの成長を促進します

Grand View Researchによると、2023年の世界のクラウドAI市場規模は626.3億ドルに推定され、2030年までに6476億ドルに達すると予測されており、年平均成長率は39.6%です。これらの数字は、クラウドAIサービスの成長ポテンシャルと、全体のAI産業チェーンへの大きな貢献を強調しています。

a16zの推定によると、AIとグローバルコンピューティング(AIGC)市場の資金の相当部分が最終的にインフラ企業に流れているとされています。平均して、アプリケーション企業は各顧客に対して収益の約20-40%を推論と微調整に割り当てています。この支出は通常、計算インスタンスのクラウドプロバイダーまたはサードパーティのモデルプロバイダーに向けられ、その後、収益の半分程度がクラウドインフラストラクチャに充てられます。したがって、AIGCによって生成された総収益の10-20%がクラウドプロバイダに向けられると推定されます。

さらに、計算能力への需要の大部分は、様々な広範なLLMモデルを含む大規模AIモデルのトレーニングを中心としています。特にモデルのスタートアップ企業にとって、コストの80-90%がAI計算能力に帰属しています。クラウドコンピューティングやハードウェアを含むAI計算インフラは、市場の初期価値の50%以上を占めると予想されています。

分散型AIコンピューティング

以前にも述べたように、中央集権的なAIコンピューティングの現在のコストは高いままであり、主にAIトレーニングのための高性能インフラへの需要の急増によるものです。ただし、市場には多くのアイドルコンピューティングパワーが存在し、供給と需要の不一致をもたらしています。この不均衡に寄与する主な要因は次のとおりです:

  • メモリの制約により、モデルの複雑さは必要なGPUの数と線形の成長関係を持ちません。現在のGPUは計算能力に優れていますが、モデルのトレーニングには多数のパラメータをメモリに格納する必要があります。たとえば、GPT-3の場合、1750億のパラメータを持つモデルをトレーニングするためには、1テラバイト以上のデータをメモリに保持する必要があります。今日利用可能などのGPUよりも多くのため、これにより並列処理とストレージのためにより多くのGPUが必要となります。それにより、GPUの計算能力がアイドル状態になることにつながります。例えば、GPT3からGPT4へのモデルパラメータのサイズは約10倍に増加しましたが、必要なGPUの数は24倍に増加しました(モデルトレーニング時間の増加を考慮していません)。関連する分析によると、OpenAIはGPT-4のトレーニングで約2.15e25 FLOPSを使用し、約25,000のA100 GPUで90から100日間トレーニングを行い、計算能力の利用率は約32%から36%でした。

上記で概説された課題に対応するため、高性能チップの設計やAIタスク向けに特化した専用ASICチップの開発は、多くの開発者や主要企業によって探求されている注目すべきアプローチです。別のアプローチとしては、既存のコンピューティングリソースを包括的に活用し、コンピューティングパワーコストをリース、共有、リソースの効率的なスケジューリングによって削減することを目指した分散コンピューティングネットワークの構築があります。また、市場には現在、使われていない消費者向けのGPUやCPUが余剰となっています。個々のユニットは計算パワーに乏しいかもしれませんが、高性能チップと組み合わせたり特定のシナリオで既存の計算要件を効果的に満たすことができます。重要なのは、十分な供給を確保することであり、分散ネットワークスケジューリングによってさらなるコスト削減が可能となります。

その結果、分散コンピューティングパワーへのシフトは、AIインフラの進化における主要な方向性として浮かび上がってきました。同時に、Web3と分散システムの概念的な整合性を考えると、分散コンピューティングパワーネットワークは、Web3+AIインフラストラクチャの主要な焦点となっています。現在、Web3市場の分散コンピューティングパワープラットフォームは、一般的に、中央集権型クラウドコンピューティングサービスよりも80%-90%低い価格を提供しています。

ストレージはAIインフラストラクチャにおいて重要な役割を果たしますが、スケール、使いやすさ、低レイテンシの観点では、集中型ストレージが明確な利点を持っています。しかし、提供する著しいコスト効率から、分散コンピューティングネットワークは市場の潜在能力が高く、急成長するAI市場拡大から著しい利益を得る見込みです。

  • モデル推論と小規模モデルのトレーニングは、現在の分散コンピューティング能力の基本的なシナリオです。分散システムにおけるコンピューティングリソースの分散は、必然的にGPU間の通信の問題を引き起こし、コンピューティングパフォーマンスの低下につながる可能性があります。したがって、分散コンピューティング能力は、最小限の通信を必要とし、並列タスクを効果的にサポートできるシナリオに最も適しています。これらのシナリオには、大規模な AI モデルと、比較的少ないパラメーターを持つ小さなモデルの推論フェーズが含まれ、パフォーマンスへの影響が最小限に抑えられます。今後、AIアプリケーションが進化するにつれて、アプリケーション層での重要な要件として推論が浮上します。ほとんどの企業が大規模なモデルを独自にトレーニングする能力に欠けていることを考えると、分散コンピューティング能力は長期的に大きな市場の可能性を秘めています。
  • 大規模並列計算向けの高性能分散トレーニングフレームワークの台頭が見られています。PyTorch、Ray、DeepSpeedなどの革新的なオープンソース分散コンピューティングフレームワークは、モデルトレーニングにおける分散コンピューティングパワーの堅固な基盤サポートを開発者に提供しています。この進化により、将来のAI市場において分散コンピューティングパワーの適用範囲が拡大し、様々なAIアプリケーションへの統合が容易になります。

AI+Web3インフラプロジェクトのナラティブロジック

分散型AIインフラストラクチャセクターは、強力な需要と長期的な成長見込みを示し、投資資本の魅力的な分野となっています。現在、AI+Web3産業のインフラストラクチャレイヤー内の主要プロジェクトは、主に分散コンピューティングネットワークを中心に展開しています。これらのプロジェクトは低コストを重要な利点とし、トークンインセンティブを活用してネットワークを拡大し、AI+Web3クライアントのサービスを優先的に行っています。このセクターは主に2つの重要なレベルで構成されています:

  1. 比較的純粋な分散型クラウドコンピューティングリソース共有およびリースプラットフォーム:Render Network、Akash Networkなどの初期のAIプロジェクトは、このカテゴリに該当します。
  • このセクターにおける主要な競争上の優位性は、コンピューティングパワーのリソースにあり、さまざまなプロバイダへのアクセス、迅速なネットワークの構築、ユーザーフレンドリーな製品の提供が可能です。クラウドコンピューティング企業やマイナーなどの初期の市場参加者は、この機会に参入するための好位置にあります。
  • 低い製品の閾値と迅速なローンチ能力を持つ、Render NetworkやAkash Networkなどの既存のプラットフォームは著しい成長を示し、競争力を持っています。
  • しかし、新規参入者は、製品の同質性に直面しています。現在のトレンドや低い参入障壁が、共有コンピューティングパワーやリースに焦点を当てたプロジェクトの流入につながっています。これらの提供には差別化が欠如していますが、独自の競争上の優位性が求められています。
  • プロバイダーは通常、基本的なコンピューティング要件を持つ顧客をターゲットにしています。たとえば、Render Networkはレンダリングサービスに特化していますが、Akash Networkは強化されたCPUリソースを提供しています。単純なコンピューティングリソースのリースは基本的なAIタスクに適していますが、トレーニング、微調整、推論などの複雑なAIプロセスの包括的なニーズを満たすには不十分です。
  1. 分散コンピューティングおよび機械学習ワークフローサービスを提供し、Gensyn、io.net、Ritualなど、多くの新興プロジェクトが最近、大規模な資金調達を確保しました。
  • 分散コンピューティングは、業界の評価の基盤を高めます。コンピューティングパワーがAI開発における決定的なストーリーとして立ち上がる中、コンピューティングパワーに根差したプロジェクトは、純粋に中間のプロジェクトよりも堅牢で高いポテンシャルを持つビジネスモデルを誇る傾向があり、それによりより高い評価を得ています。
  • ミドルウェアサービスは特長を確立します。中間層が提供するサービスは、オラクルや検証者などの機能を含む、AIチェーン上とチェーン外の計算の同期を容易にするものであり、全体的なAIワークフローをサポートする展開および管理ツールなどを包括しています。AIワークフローは、協力、継続的フィードバック、高い複雑さを特徴としており、さまざまな段階での計算パワーが必要です。したがって、ユーザーフレンドリーで高度に協力的であり、AI開発者の複雑なニーズに対応できるミドルウェア層が、特にWeb3ドメインで競争力のある資産として現れ、AIのためのWeb3開発者の要件に対応しています。これらのサービスは、基本的なコンピューティングサポートを超えて、潜在的なAIアプリケーション市場に適しています。
  • プロジェクトチームは、専門のMLフィールドの運用およびメンテナンスの専門知識を持つことが一般的に不可欠です。中堅のサービスを提供するチームは、開発者のフルライフサイクルの要件に効果的に対応するために、MLワークフロー全体の包括的な理解を持っている必要があります。このようなサービスは、しばしば既存のオープンソースのフレームワークやツールを活用しており、重要な技術革新を必要とせずとも、豊富な経験と堅牢なエンジニアリング能力を持つチームが求められます。これは、プロジェクトの競争上の優位性となります。

集中型クラウドコンピューティングサービスよりも競争力のある価格でサービスを提供しつつ、同等のサポート施設とユーザーエクスペリエンスを維持しているこのプロジェクトは、著名な投資家からの認識を集めています。ただし、高まった技術的複雑さは大きな課題となっています。現在、プロジェクトは物語と開発段階にあり、完全にローンチされた製品はまだありません。

代表的なプロジェクト

1.レンダーネットワーク

Render Networkは、分散GPUを活用してクリエイターに費用対効果の高い効率的な3Dレンダリングサービスを提供するグローバルブロックチェーンベースのレンダリングプラットフォームです。クリエイターがレンダリング結果を確認した後、ブロックチェーンネットワークはトークン報酬をノードに送信します。プラットフォームには、分散GPUスケジューリングおよび割り当てネットワークが特徴で、ノードの使用状況、評判、およびその他の要因に基づいてタスクを割り当て、計算効率を最適化し、アイドルリソースを最小化し、経費を削減します。

プラットフォームのネイティブトークンであるRNDRは、エコシステム内での支払い通貨として機能します。ユーザーはRNDRを利用してレンダリングサービス料金を支払うことができ、一方、サービスプロバイダーはレンダリングタスクを完了するために計算能力を提供することでRNDRリワードを獲得します。レンダリングサービスの価格は、現在のネットワーク利用状況やその他の関連メトリクスに応じて動的に調整されます。

レンダリングは、分散コンピューティングパワーアーキテクチャのための適切で確立されたユースケースであることが証明されています。レンダリングタスクの性質は、複数のサブタスクに分割して並列に実行することを可能にし、タスク間の通信と相互作用を最小限に抑えます。このアプローチにより、分散コンピューティングアーキテクチャの欠点を緩和しながら、広範囲にわたるGPUノードネットワークを活用してコスト効率を向上させることができます。

Render Networkの需要は非常に大きく、2017年の創設以来、ユーザーはプラットフォーム上で1600万フレーム以上と約50万のシーンをレンダリングしています。レンダリングジョブの量とアクティブノードの数は引き続き増加しています。さらに、2023年第1四半期に、Render Networkはネイティブに統合されたStability AIツールセットを導入し、ユーザーがStable Diffusion操作を組み込むことができるようにしました。このレンダリング操作を超えた拡張は、AIアプリケーションの領域への戦略的な展開を示しています。

2.Gensyn.ai

Gensynは、PolkadotのL1プロトコルを利用したディープラーニングコンピューティングに特化したグローバルスーパーコンピューティングクラスターネットワークとして運営されています。2023年には、a16zが主導するシリーズA資金調達で4300万ドルを確保しました。Gensynのアーキテクチャフレームワークは、インフラの分散コンピューティングパワークラスターを超えて、上位層の検証システムを包括しています。このシステムは、オフチェーンの計算がブロックチェーンの検証を通じてオンチェーン要件と整合することを確認し、信頼できるマシンラーニングネットワークを構築しています。

分散コンピューティングパワーに関して、Gensynは余剰容量を持つデータセンターから潜在的なGPUを持つ個人用ノートパソコンまで、さまざまなデバイスに対応しています。これにより、開発者がオンデマンドでピアツーピアの利用が可能な統合された仮想クラスタを形成します。Gensynは市場を確立し、価格が市場力によって決定される市場を目指し、包括性を育み、MLコンピューティングコストが公平な水準に達することを可能にします。

検証システムは、Gensynにとって重要なコンセプトとして位置付けられており、指定された機械学習タスクの正確性を検証することを目指しています。それは、確率的学習証明、グラフベースの正確な位置決めプロトコル、Truebitを包括した革新的な検証アプローチを導入しています。このインセンティブゲームのコア技術的特徴は、従来のブロックチェーン検証方法と比較して、より効率的な性能を提供しています。ネットワーク参加者には、提出者、解決者、検証者、および告発者が含まれており、これらが一体となって検証プロセスを促進しています。

Gensynプロトコルのホワイトペーパーに詳細に記載されている広範なテストデータに基づくと、プラットフォームの注目すべき利点は次のとおりです。

  • AIモデルトレーニングのコスト削減:Gensynプロトコルは、NVIDIA V100と同等の計算を1時間あたり約0.40ドルの見積もりコストで提供し、AWSのオンデマンド計算と比較して80%のコスト削減を実現します。
  • 信頼性の高い検証ネットワークにおける効率向上:ホワイトペーパーに概説されたテスト結果によると、Gensynプロトコルを使用したモデルトレーニング時間が著しく改善されています。Truebit複製と比較して、時間オーバーヘッドは驚異的に1,350%向上し、Ethereumに比べて驚異的な2,522,477%の改善が見られました。

しかし、同時に、分散コンピューティングパワーは、通信やネットワークの課題に起因して、ローカルトレーニングと比較してトレーニング時間の必然的な増加をもたらします。テストデータに基づくと、Gensynプロトコルはモデルトレーニングにおいて約46%の時間オーバーヘッドを発生させます。

3. Akashネットワーク

Akash Networkは、さまざまな技術要素を統合し、ユーザーが分散型クラウド環境内で効率的にアプリケーションを展開および管理できるようにする分散クラウドコンピューティングプラットフォームとして機能します。要するに、ユーザーに分散コンピューティングリソースをリースする能力を提供します。

Akashの中核には、世界中に分散されたインフラストラクチャサービスプロバイダのネットワークがあり、CPU、GPU、メモリ、およびストレージリソースを提供しています。これらのプロバイダは、ユーザが上位のKubernetesクラスタを介してリソースをリースするためのリソースを提供します。ユーザは、Dockerコンテナとしてアプリケーションを展開し、コスト効果の高いインフラストラクチャサービスを活用できます。さらに、Akashはリソース価格をさらに引き下げるために「逆オークション」アプローチを実装しています。Akash公式ウェブサイトの見積もりによると、プラットフォームのサービスコストは、中央集権型サーバの約80%低いとされています。

4.io.net

io.netは、世界中に分散されたGPUを相互リンクして、AIモデルのトレーニングと推論のための計算サポートを提供する分散コンピューティングネットワークとして存在しています。最近、3,000万ドルのシリーズAラウンドを終え、このプラットフォームは現在、10億ドルの評価額を誇っています。

RenderやAkashのようなプラットフォームとは異なり、io.netは堅牢でスケーラブルな分散コンピューティングネットワークとして浮かび上がり、複数の開発者ツールの階層に複雑にリンクしています。その主な特長には次のようなものがあります:

  • 多様なコンピューティングリソースの集約:独立したデータセンターや暗号鉱夫、FilecoinやRenderなどのプロジェクトからGPUへのアクセス。
  • AI要件のためのコアサポート: 重要なサービス機能には、バッチ推論とモデルサービング、並列トレーニング、ハイパーパラメータチューニング、および強化学習が含まれます。
  • 高度なクラウド環境ワークフロー向上のための先進テクノロジースタック:コンピューティングリソース割り当てのためのMLフレームワーク、アルゴリズム実行、モデルトレーニング、推論オペレーション、データストレージソリューション、GPUモニタリング、および管理ツールを含むオーケストレーションツールの範囲を網羅しています。
  • 並列コンピューティング機能:Ray(オープンソースの分散コンピューティングフレームワーク)の統合により、Ray固有の並列処理能力を活用し、Python関数をダイナミックなタスク実行のために効果的に並列化します。インメモリストレージにより、タスク間での迅速なデータ共有が可能となり、シリアライゼーションの遅延を排除します。さらに、io.netはPyTorchやTensorFlowなど他の主要な機械学習フレームワークと統合することで、拡張性を高めています。

価格に関して、io.net公式ウェブサイトによると、その料金は中央集権型クラウドコンピューティングサービスの料金よりも約90%低くなると推定されています。

さらに、io.netのネイティブトークンであるIOコインは、主にエコシステム内での支払いおよび報酬メカニズムとして機能します。代わりに、需要者は、IOコインを取引のための安定通貨「IOSDポイント」に変換することで、Heliumに似たモデルを採用することができます。

免責事項:

  1. この記事は[から転載されています万象区块链],元のタイトルは「AI+Web3未来開発ロード(2) ): インフラストラクチャ」であり、著作権は元の著者に帰属します[万象区块链]. If there are objections to this reprint, please contact the Gate Learn Team、そして彼らは迅速に対処します。

  2. 責任免除:この記事で表現されている意見や見解は、著者個人のものであり、投資アドバイスを構成するものではありません。

  3. 他の言語への記事の翻訳は、Gate Learnチームによって行われています。言及せずにGate.io、翻訳された記事の複製、配布、または盗用はできません。

Розпочати зараз
Зареєструйтеся та отримайте ваучер на
$100
!