📢 Gate廣場專屬 #WXTM创作大赛# 正式開啓!
聚焦 CandyDrop 第59期 —— MinoTari (WXTM),總獎池 70,000 枚 WXTM 等你贏!
🎯 關於 MinoTari (WXTM)
Tari 是一個以數字資產爲核心的區塊鏈協議,由 Rust 構建,致力於爲創作者提供設計全新數字體驗的平台。
通過 Tari,數字稀缺資產(如收藏品、遊戲資產等)將成爲創作者拓展商業價值的新方式。
🎨 活動時間:
2025年8月7日 17:00 - 8月12日 24:00(UTC+8)
📌 參與方式:
在 Gate廣場發布與 WXTM 或相關活動(充值 / 交易 / CandyDrop)相關的原創內容
內容不少於 100 字,形式不限(觀點分析、教程分享、圖文創意等)
添加標籤: #WXTM创作大赛# 和 #WXTM#
附本人活動截圖(如充值記錄、交易頁面或 CandyDrop 報名圖)
🏆 獎勵設置(共計 70,000 枚 WXTM):
一等獎(1名):20,000 枚 WXTM
二等獎(3名):10,000 枚 WXTM
三等獎(10名):2,000 枚 WXTM
📋 評選標準:
內容質量(主題相關、邏輯清晰、有深度)
用戶互動熱度(點讚、評論)
附帶參與截圖者優先
📄 活動說明:
內容必須原創,禁止抄襲和小號刷量行爲
獲獎用戶需完成 Gate廣場實名
最火的幾個大語言模型都愛“胡說八道”,誰的“幻覺”問題最糟?
來源:華爾街見聞
作者:杜玉
總部位於紐約的人工智能初創公司和機器學習監控平台Arthur AI於8月17日週四發布最新研報,比較了微軟支持的OpenAI、“元宇宙”Meta、谷歌支持的Anthropic,以及英偉達支持的生成式AI獨角獸Cohere等公司大語言模型(LLM)“產生幻覺”(AKA胡說八道)的能力。
Arthur AI會定期更新上述被稱為“生成式AI測試評估”的研究計劃,對行業領導者及其他開源LLM模型的優缺點進行排名。
在“人工智能模型幻覺測試”中,研究人員用組合數學、美國總統和摩洛哥政治領導人等不同類別的問題考察不同LLM模型給出的答案,“旨在包含導致LLM犯錯的關鍵因素,即它們需要對信息進行多個推理步驟。”
研究發現,整體而言,OpenAI的GPT-4在所有測試的模型中表現最好,產生的“幻覺”問題比之前版本GPT-3.5要少,例如在數學問題類別上的幻覺減少了33%到50%。
同時,Meta的Llama-2在受測五個模型中整體表現居中,Anthropic的Claude-2表現排名第二,僅次於GPT-4。而Cohere的LLM模型最能“胡說八道”,而“非常自信地給出錯誤答案”。
研究人員還測試了人工智能模型會在多大程度上用不相關的警告短語來“對沖”它們的答案,以求避免風險,常見短語包括“作為一個人工智能模型,我無法提供意見”。
GPT-4比GPT-3.5的對沖警告語相對增加了50%,報告稱,這“量化了用戶們所提到GPT-4使用起來更令人沮喪的體驗”。而Cohere的人工智能模型在上述三個問題中完全沒有提供對沖。
相比之下,Anthropic的Claude-2在“自我意識”方面最可靠,即能夠準確地衡量自己知道什麼、不知道什麼,並且只回答有訓練數據支持的問題。
在上述研報發表同日,Arthur公司還推出了開源的AI模型評估工具Arthur Bench,可用於評估和比較多種LLM的性能和準確性,企業可以添加定制標準來滿足各自的商業需求,目標是幫助企業在採用人工智能時做出明智的決策。
“AI幻覺”(hallucinations)指的是聊天機器人完全捏造信息,並表現成滔滔不絕講述事實的樣子來回應用戶的提示語問題。
谷歌在今年2月為其生成式AI聊天機器人Bard拍攝的宣傳視頻中,對詹姆斯·韋伯太空望遠鏡做出了不真實的陳述。今年6月,ChatGPT在紐約聯邦法院的一份文件中引用了“虛假”案例,提交該文件的涉案律師可能面臨制裁。
OpenAI研究人員曾在6月初發布報告稱找到了解決“AI幻覺的辦法”,即訓練AI模型在推理出答案的每個正確步驟上給予自我獎勵,而不僅僅是等到推理出正確的最終結論時才給予獎勵。這種“過程監督”的策略將鼓勵AI模型按照更類似人類的“思考”方式進行推理。
OpenAI在報告中承認:
投資大鱷索羅斯也曾在6月發表專欄文章稱,人工智能在當下最能加重世界面臨的多重危機(Polycrisis),理由之一便是AI幻覺的嚴重後果:
此前,被視為“人工智能教父”且從谷歌離職的杰弗裡·辛頓(Geoffrey Hinton)多次公開批評AI帶來的風險,甚至可能摧毀人類文明,並預言“人工智能僅需5到20年就能超越人類智能”。