最も人気のある主要な言語モデルは皆「ナンセンス」が大好きですが、最もひどい「幻想」問題を抱えているのは誰でしょうか?

出典: ウォールストリートニュース

著者: 杜瑜

ニューヨークを拠点とする人工知能スタートアップおよび機械学習監視プラットフォームである Arthur AI は、8 月 17 日木曜日、Microsoft が支援する OpenAI、「Metaverse」Meta、Google が支援する Anthropic、および Nvidia が支援する世代を比較する最新の調査レポートを発表しました。 AI ユニコーン Cohere のような企業による大規模言語モデル (LLM) の「幻覚」 (別名ナンセンス) の能力。

Arthur AI は、「生成 AI テスト評価」と呼ばれる前述の調査プログラムを定期的に更新し、業界リーダーやその他のオープンソース LLM モデルの長所と短所をランク付けします。

最新のテストでは、OpenAI の GPT-3.5 (1,750 億のパラメータを含む) と GPT-4 (1 兆 7,600 億のパラメータ)、Anthropic の Claude-2 (パラメータ不明)、Meta の Llama-2 (700 億のパラメータ)、および Command (50 Cohere の 10 億パラメータ) を使用して、これらのトップ LLM モデルについて定量的および定性的に難しい質問をします。

「AI モデル幻覚テスト」では、研究者らは、組み合わせ論、米国大統領、モロッコの政治指導者などの多様なカテゴリーの質問に対して、さまざまな LLM モデルによって得られた回答を調べました。情報について推論するには複数のステップが必要です。」

調査では、全体として、OpenAI の GPT-4 がテストしたすべてのモデルの中で最も優れたパフォーマンスを発揮したことが判明し、数学の問題カテゴリでの幻覚が 33% 減少するなど、前バージョンの GPT-3.5 よりも「幻覚」問題の発生が少なくなりました。 50%まで。

同時に、Meta の Llama-2 はテストされた 5 つのモデルの中央のパフォーマンスを示し、Anthropic の Claude-2 は GPT-4 に次いで 2 位にランクされました。そして、Cohere の LLM モデルは、「ナンセンス」かつ「非常に自信を持って間違った答えを与える」ことが最も可能です。

具体的には、複雑な数学の問題では、GPT-4 が 1 位、次にクロード 2 にランクされ、米国大統領の質問では、クロード 2 の精度が 1 位にランクされ、GPT-4 が 1 位 2 位にランクされます。モロッコの政治問題では、GPT が 1 位にランクされます。 -4 がトップの座に戻り、クロード-2 とラマ 2 はそのような質問にはほぼ完全に答えませんでした。

研究者らはまた、AIモデルがリスクを回避するために無関係な警告フレーズ、つまり「AIモデルとして意見を提供することはできません」などの一般的なフレーズで回答を「回避」する程度をテストした。

GPT-4では、GPT-3.5に比べてヘッジ警告が相対的に50%増加しており、レポートでは「ユーザーがGPT-4で挙げたよりストレスフルな体験を数値化したもの」としている。そして、Cohere の AI モデルは、上記の 3 つの問題に対してまったく回避策を提供しません。

対照的に、Anthropic の Claude-2 は、「自己認識」、つまり何を知っているか、何を知らないかを正確に測定し、トレーニング データに裏付けられた質問にのみ答える能力の点で最も信頼性が高かった。

Arthur AIの共同創設者兼最高経営責任者(CEO)であるアダム・ウェンチェル氏は、これは「人工知能モデルにおける幻覚の発生率を包括的に理解する」業界初のレポートであり、ランキングを説明するための単一のデータを提供するだけではないと指摘した。さまざまな LLM の:

「ユーザーや企業にとって、この種のテストから得られる最も重要な点は、正確なワークロードをテストできるということです。また、達成したいことを LLM がどのように実行するかを理解することが重要です。以前の LLM ベースのメトリクスの多くは、実際のものではありません」人生の使い方。」

上記の調査レポートが発行されたのと同じ日に、Arthur Company は、さまざまな LLM のパフォーマンスと精度を評価および比較するために使用できる、オープンソースの AI モデル評価ツールである Arthur Bench もリリースしました。目標は、企業が AI を導入する際に情報に基づいた意思決定を行えるようにすることです。

「AI幻覚」(幻覚)とは、チャットボットが情報を完全に捏造し、ユーザーのプロンプトの質問に応じて事実を吐き出すように見えることを指します。

Googleは、同社の生成AIチャットボットBardの2月のプロモーションビデオで、ジェームズ・ウェッブ宇宙望遠鏡について虚偽の発言をした。 ChatGPTは6月、ニューヨーク連邦裁判所への申し立てで「偽の」事件を挙げており、申し立てに関与した弁護士は制裁を受ける可能性があると発表した。

OpenAIの研究者らは6月初旬、「AIの錯覚」に対する解決策を見つけたと報告した。つまり、正解するまで待つのではなく、正解を導き出すステップごとに自己報酬を与えるようにAIモデルをトレーニングするというものだ。最終的な結論は推測され、報酬のみが得られます。この「プロセス監視」戦略は、AI モデルがより人間に近い「思考」方法で推論することを促進します。

OpenAI はレポートで次のように認めています。

「最先端の AI モデルでさえ嘘をつきやすく、不確実な瞬間に事実を捏造する傾向があります。これらの幻覚は、単一の論理エラーが発生するような、複数段階の推論を必要とする領域で特に問題になります。より大きなソリューションを破壊するのに十分な場合があります。」

投資王ソロス氏も6月にコラムを発表し、現在世界が直面しているポリクライシスを最も悪化させる可能性があるのは人工知能であるとし、その理由の1つはAIの幻想がもたらす深刻な結果であると述べた。

「AI はこの単純なモデルを破壊します (ウォール街は指摘: 善悪を区別するために事実を使用します)。それは現実とはまったく関係がないからです。人工現実が現実世界に対応しない場合、AI は独自の現実を作成します (これはよく起こります) )、AIの幻想が生まれます。 このことから、私はほぼ本能的に AI に反対しており、AI は規制される必要があるという専門家の意見に完全に同意します。しかし、不正行為をするインセンティブがあまりにも大きく、規制を回避する者が不当な利益を得る可能性があるため、AI 規制は世界的に施行される必要があります。残念ながら、世界的な規制は問題外です。 人工知能は急速に発展しており、通常の人間の知能では完全に理解することは不可能です。それが私たちをどこへ連れて行くのかは誰にも予測できません。 …だから私は本能的にAIに反発するんですが、それを止める方法が分かりません。 2024 年に米国で大統領選挙があり、英国でも大統領選挙が行われる可能性が高く、AI が重要な役割を果たすことは間違いなく、危険以外の何ものでもありません。 AI は偽情報やディープフェイクの作成に非常に優れており、悪意のある攻撃者が多数存在するでしょう。それについて何ができるでしょうか?答えはありません。 」

以前、「人工知能のゴッドファーザー」とみなされGoogleを去ったジェフリー・ヒントン氏は、AIがもたらすリスクを何度も公に批判し、人類の文明を破壊する可能性さえあると述べ、「人工知能はわずか5年でそれを超えることができる」と予測した人類の知性は20年で達成されるだろう。」

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)