「いくつかのモデルで計算した結果が違う…」
7 月 14 日、友人グループが AI を使用して数学の問題の計算を支援しました。高さ 11 cm、上底の直径 7.8 cm、底面の直径 6.2 cm の円形の台の体積は何ミリリットルですか。ボトム?
このネチズンは Claude-2、GPT-4、ChatGPT を使用し、結果は 3634.57 ml、359.4 ml、469.3 ml でした。
別のグループの友人はウェンシンさんの言葉を利用して、64474.666666666635ミリリットルという結果を得た。
「中学生の問題は無理」「いいやつ、全部違う」と友達グループは慌ててコメントした。
興味本位でChatGPTでもテストしてみたところ、結果は1436.08mlでした。
ChatGPT が提供する計算手順は完全に正しく、円テーブルの体積公式 = πh*(R^2+r^2+R*r)/3 です。
しかし、計算結果は間違っています。
再度ChatGPTに回答してもらったところ、結果は513.47mlでした。
それはとんでもないことであり、計算手順は完全に正しいのに、最終結果は毎回異なります。
また、Wenxin Yiyan がサポートする大型モデルである Baidu ブラウザに付属する「AI」も使用しました。
最初の結果は: 193522.10746113118 ml
これは非常に間違っているので、もう一度尋ねたところ、結果は 1168.75 ml でした。
まだ正しくないので、もう一度尋ねたところ、結果は次のようになりました: 1099620ml
何度も質問した結果、Baidu AI はインストールされなくなり、完全に壊れました。
GPT-4 が MIT の数学学部学位試験で満点を獲得したと以前に報告されましたが、後に試験データセットの大部分が汚染されていたことが判明しました。つまり、モデルは試験前に答えを教えられた生徒のようなもので、あからさまな「カンニング」です。
ChatGPTが中国の大学入学試験の数学試験の受験中に転倒したことも以前に報じられた。
大規模モデルが最近求められている技術であることは間違いありませんが、車の横転事故が多発していることは、元物理学者で人気サイエンスライターの張天栄氏の言葉のようです「言語モデルの本質は確率の勝利です」 「マシン**、コンバーターは入力を合理的に継続し、深刻なナンセンスなジョークを理解するのは難しくありません。
大型モデルが確率論の勝利だとすれば、人工知能の目覚めは遠いことになる。
86152 人気度
75185 人気度
59939 人気度
9911 人気度
3338 人気度
中学生の質問、ChatGPT、Wenxin Yiyan、鶏の足を見せるクロードの解き方さえ知りませんか?
「いくつかのモデルで計算した結果が違う…」
7 月 14 日、友人グループが AI を使用して数学の問題の計算を支援しました。高さ 11 cm、上底の直径 7.8 cm、底面の直径 6.2 cm の円形の台の体積は何ミリリットルですか。ボトム?
このネチズンは Claude-2、GPT-4、ChatGPT を使用し、結果は 3634.57 ml、359.4 ml、469.3 ml でした。
別のグループの友人はウェンシンさんの言葉を利用して、64474.666666666635ミリリットルという結果を得た。
興味本位でChatGPTでもテストしてみたところ、結果は1436.08mlでした。
ChatGPT が提供する計算手順は完全に正しく、円テーブルの体積公式 = πh*(R^2+r^2+R*r)/3 です。
しかし、計算結果は間違っています。
また、Wenxin Yiyan がサポートする大型モデルである Baidu ブラウザに付属する「AI」も使用しました。
大型モデルが確率論の勝利だとすれば、人工知能の目覚めは遠いことになる。