✈️ Gate 廣場【Gate Travel 旅行分享官召集令】
廣場家人們注意啦!Gate Travel 已經上線~ 機票+酒店一站式預訂,還能用加密貨幣直接付款 💸
所以說,你的錢包和你的旅行夢終於可以談戀愛了 😎 💕
現在廣場開啓 #GateTravel旅行分享官# 活動,邀你來秀旅行靈感 & 使用體驗!💡
🌴 參與方式:
1️⃣ 在【廣場】帶話題 #Gate Travel 旅行分享官# 發帖
2️⃣ 你可以:
你最想用 Gate Travel 去的目的地(私藏小島 or 網紅打卡點都行)
講講用 Gate Travel 訂票/訂酒店的奇妙體驗
放放省錢/使用攻略,讓大家省到笑出聲
或者直接寫一篇輕鬆的 Gate Travel 旅行小故事
📦 獎勵安排,走起:
🏆 優秀分享官(1 名):Gate 旅行露營套裝
🎖️ 熱門分享官(3 名):Gate 旅行速乾套裝
🎉 幸運參與獎(5 名):Gate 國際米蘭旅行小夜燈
*海外用戶 旅行露營套裝 以 $100 合約體驗券,旅行速乾套裝 以 $50 合約體驗券折算,國際米蘭旅行小夜燈以 $30合約體驗券折算。
📌 優質內容將有機會得到官方帳號轉發翻牌提升社區曝光!
📌 帖文將綜合互動量、內容豐富度和創意評分。禁止小號刷貼,原創分享更容易脫穎而出!
🕒 8月20 18:00 - 8月28日 24:00 UTC+
首次擊敗GPT-4?700億參數Xwin-LM登頂史丹佛Alpaca_,13B模型吊打ChatGPT
來源:新智元
**導讀:**GPT-4在史丹佛Alpaca的榜首之位,居然被一匹黑馬搶過來了。
第一個在Alpaca上超越GPT-4的模型,出現了!
今年6月,Alpaca榜單單公佈,GPT-4就以絕對領先的優勢奪得第一,勝率超過95%。
三個月後,一匹叫Xwin-LM的黑馬,居然把穩居榜首的GPT-4從TOP 1拉下來了?
而且,Xwin-LM在同參數模型的對壘中,也毫無例外地拿下了三個第一名:
Xwin-LM:700億參數打贏GPT-4
Xwin-LM是以Llama 2為基礎進行微調的,該模型旨在開發和開源大語言模型的對齊技術,包括監督微調(SFT)、獎勵模型(RM)、拒絕採樣、人類反饋強化學習(RLHF)等。
研究人員評估了Xwin-LM在805個問題上與Text-Davinci-003 、ChatGPT和GPT-4的勝率。
可以看到,Xwin-LM的70B模型完全霸榜,成為Alpaca指標上的性能評估的第一,並首次打敗了GPT-4,對GPT-4的勝率達到了60.61%。
Xwin-LM其他規模的模型,如Xwin-LM-13B-V0.1、Xwin-LM-7B-V0.1在性能上也遠超相同規模的其他模型。
Xwin-LM-7B-V0.1甚至超過了比它規模更大的Llama 2-13B-Chat。
「我把一個盤子放在蘋果上面,然後把盤子從廚房帶到餐廳。蘋果現在在哪裡?」
GPT-4的回答是:
「蘋果現在在餐廳,當你把盤子從廚房到端餐廳時,它就在盤子下面。」
這裡GPT-4給了一個缺少常識的回复,現實生活中有重力,在盤子下方的蘋果保持原來的狀態,並不會和盤子一起到餐廳。
相較之下,Xwin-LM的回答就比較符合現實情況,也給出了把蘋果帶到廚房的方法:
「蘋果還在廚房裡,因為你只是移動了盤子。
蘋果在盤子下面,所以如果你想把蘋果帶到餐廳,你應該直接移動蘋果或把蘋果放在盤子裡,然後把盤子移到餐廳。 」
在第二個案例中,研究者向GPT-4和Xwin-LM提問:
「怎麼法語說『晚上好』?」
GPT-4的回答是:
「在法語中,『晚上好』用『bonsoir』表達。」
而Xwin-LM的回答是:
「在法語中,『晚上好』被翻譯為『bonsoir』。這種問候語在晚上和夜間使用,通常在下午6 點之後。
它是『bon』(意思是好)和『soir』(意思是晚上)的組合。要發音,請說‘bone-swahr’」。
雖然GPT-4的答案是正確的,但Xwin-LM不僅正確回答了問題,還解釋了法語表達中「晚上好」的來源和發音,反饋給用戶的信息更加豐富。
3. NLP任務
下表是Xwin-LM與其他LLM在NLP基礎任務的比較。
可以看到,Xwin-LM-70B-V0.1模型在所有任務中的表現都相對較高,在MMLU 5-shot和HellaSwag 10-shot任務中更是表現出色。
並且,從綜合層面來說,Xwin-LM-70B-V0.1是表現最好的。
研究人員提出,為了在使用Xwin-LM進行推理時獲得所需的結果,需要嚴格遵守推理的對話範本。
Xwin-LM採用Vicuna建立的提示格式,並支援多回合對話。
好奇的用戶和人工智慧助理之間的聊天。助理對使用者的問題提供有用、詳細且有禮貌的回答。用戶:嗨!助理:你好。s>使用者:你是誰?助理:我是Xwin-LM.s>…
HuggingFace範例
從變壓器匯入 AutoTokenizer、AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")tokenizer = AutoTokenizer.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")( := "一場聊天好奇的使用者和人工智慧助理之間的對話。" "助手對使用者的問題給予有用、詳細且有禮貌的答案。" "使用者:你好,你能幫我嗎?" "ASSISTANT:")inputs = tokenizer(, return_tensors ="pt")samples = model.generate(**輸入,max_new_tokens=4096,溫度=0.7)output = tokenizer.decode(samples [0] [輸入[“input_ids”].shape [1] :],skip_special_tokens=True)print(output) # 當然!我是來幫忙的。請隨時提出您的問題或描述您遇到的問題,我會盡力幫助您。 VLLM範例
因為Xwin-LM是基於Llama 2微調而來,它也支援使用VLLM進行快速推理。
from vllm import LLM, SamplingParams( := "好奇的使用者和人工智慧助理之間的聊天。" "助手對使用者的問題給了有用、詳細且禮貌的答案。" "使用者:你好,你能幫我嗎?「「助理:」)sampling_params = SamplingParams(溫度= 0.7,max_tokens = 4096)llm = LLM(模型=“Xwin-LM / Xwin-LM-7B-V0.1”)輸出= llm.generate([ ,],採樣參數) 對於輸出中的輸出: = 輸出。 generated_text = 輸出.輸出 [0] .text 列印(生成的文字)
Alpaca:易使用、速度快、成本低、經過人類標註驗證
作為一款LLM自動評估工具,Alpaca把AlpacaFarm和Aviary進行了結合。
一方面使用與AlpacaFarm相同的程式碼(快取/隨機排列/超參數),另一方面則使用類似Aviary的排序提示。
同時,也對Aviary的提示進行了修改,從而減少對較長輸出的偏見。
團隊表示,Alpaca有著拔群的效果:
與人類多數票的一致性,高於單一人類標註者
勝率與人類標註高度相關(0.94)
模型的輸出在每個指令上優於text-davinci-003(即參考文字)的比例。
具體而言,首先從Alpaca資料集中收集了期望模型在每個指令上的輸出對,並將每個輸出與相同指令下的參考模型(text-davinci-003)的輸出進行配對。
隨後,把這些輸出同時餵給自動評測器,讓它去判斷哪一個比較好(也就是評測器的偏好)。
最後,將資料集中所有指令的偏好進行平均,從而得到模型相對於text-davinci-003的勝率。如果兩個模型打平,那就算半個偏好。
- 限制
雖然Alpaca為比較模型遵循指示的能力提供了一種有效的方法,但它並不是對模型能力進行全面評估的黃金標準。
正如AlpacaFarm論文中所詳述的那樣,自動標註器的勝率與長度相關。雖然人類標註也會有這種偏差,但目前還不清楚更長的答案是否會增加下游任務的效用。
此外,AlpacaFarm的評估集雖然多種多樣,但主要由簡單的指示組成。
最後,Alpaca並不評估任何模型的安全性。
參考資料: