📢 Gate廣場專屬 #WXTM创作大赛# 正式開啓!
聚焦 CandyDrop 第59期 —— MinoTari (WXTM),總獎池 70,000 枚 WXTM 等你贏!
🎯 關於 MinoTari (WXTM)
Tari 是一個以數字資產爲核心的區塊鏈協議,由 Rust 構建,致力於爲創作者提供設計全新數字體驗的平台。
通過 Tari,數字稀缺資產(如收藏品、遊戲資產等)將成爲創作者拓展商業價值的新方式。
🎨 活動時間:
2025年8月7日 17:00 - 8月12日 24:00(UTC+8)
📌 參與方式:
在 Gate廣場發布與 WXTM 或相關活動(充值 / 交易 / CandyDrop)相關的原創內容
內容不少於 100 字,形式不限(觀點分析、教程分享、圖文創意等)
添加標籤: #WXTM创作大赛# 和 #WXTM#
附本人活動截圖(如充值記錄、交易頁面或 CandyDrop 報名圖)
🏆 獎勵設置(共計 70,000 枚 WXTM):
一等獎(1名):20,000 枚 WXTM
二等獎(3名):10,000 枚 WXTM
三等獎(10名):2,000 枚 WXTM
📋 評選標準:
內容質量(主題相關、邏輯清晰、有深度)
用戶互動熱度(點讚、評論)
附帶參與截圖者優先
📄 活動說明:
內容必須原創,禁止抄襲和小號刷量行爲
獲獎用戶需完成 Gate廣場實名
羊駝進化成鯨魚,Meta把對齊「自動化」,Humpback擊敗現有全部LLaMa模型
編輯:小舟、陳萍
**來源:**機器之心
這一年來,以ChatGPT 和GPT-4 為代表的大語言模型(LLM)發展迅速,緊隨其後,Meta 開源的LLaMa、Llama 2 系列模型在AI 界也引起的了不小的轟動。但隨之而來的是爭議不斷,有人認為LLM 存在一些不可控的風險,給人類生存構成一些潛在威脅。
為了應對這些挑戰,對LLM 對齊的研究變得越來越重要,有研究者提出指令跟隨(instruction following),但這種方法需要大量的人工註釋。然而,註釋如此高質量的指令跟隨數據集耗費巨大。
本文來自Meta AI 的研究者提出了一種可擴展的方法即指令回譯(instruction backtranslation),該方法通過自動註釋相應的指令來構建高質量的指令跟隨語言模型。
具體而言,該研究從一個語言模型開始,並作為種子模型,該模型在少量的種子數據以及web 語料庫上進行了微調。種子模型的作用是用來構建訓練樣本,然後這些樣本中的一些高質量樣本將會被篩選出來,接著,這些數據被用來微調一個更強大的模型。
經過兩輪迭代的數據集對LLaMa 進行微調,所產生的模型Humpback 在Alpaca 排行榜上優於其他現有的非蒸餾模型,如LIMA、Claude、Guanaco 等。
Humpback 原意為座頭鯨,又名駝背鯨,Meta 將模型命名為Humpback,也別有深意吧。
圖靈獎得主Yann LeCun 高度概括了這項研究的方法,並稱讚Meta 這項工作為對齊研究做出重要貢獻:
該論文提出了一種需要兩個步驟完成的新的數據增強範式。首先,必須擁有一組種子(指令、輸出)對和語料庫才能生成更多好的指令數據。
方法簡介
該研究提出了一種自訓練方法(self-training),該方法通常假定可以訪問基本語言模型、少量種子數據和未標記的樣本集(例如網絡語料庫)。未標記數據往往是一大堆形態各異的文檔,由人類編寫,其中包括人類感興趣的各種話題內容,但最重要的是沒有與指令進行配對。
這裡還有兩個關鍵的假設,第一個假設是這個非常大的文本集(未標記樣本集)存在一些子集,適合作為某些用戶指令的生成樣本。第二個假設是可以預測這些候選答案的指令,這些指令可以用於形成高質量樣本對,以訓練指令遵循模型。
如下圖1 所示,該研究提出指令回譯過程包含兩個核心步驟:
實驗及結果
本文的數據集主要包括種子數據和增強數據,具體信息如表2 和圖2 所示: