✈️ Gate 廣場【Gate Travel 旅行分享官召集令】
廣場家人們注意啦!Gate Travel 已經上線~ 機票+酒店一站式預訂,還能用加密貨幣直接付款 💸
所以說,你的錢包和你的旅行夢終於可以談戀愛了 😎 💕
現在廣場開啓 #GateTravel旅行分享官# 活動,邀你來秀旅行靈感 & 使用體驗!💡
🌴 參與方式:
1️⃣ 在【廣場】帶話題 #Gate Travel 旅行分享官# 發帖
2️⃣ 你可以:
你最想用 Gate Travel 去的目的地(私藏小島 or 網紅打卡點都行)
講講用 Gate Travel 訂票/訂酒店的奇妙體驗
放放省錢/使用攻略,讓大家省到笑出聲
或者直接寫一篇輕鬆的 Gate Travel 旅行小故事
📦 獎勵安排,走起:
🏆 優秀分享官(1 名):Gate 旅行露營套裝
🎖️ 熱門分享官(3 名):Gate 旅行速乾套裝
🎉 幸運參與獎(5 名):Gate 國際米蘭旅行小夜燈
*海外用戶 旅行露營套裝 以 $100 合約體驗券,旅行速乾套裝 以 $50 合約體驗券折算,國際米蘭旅行小夜燈以 $30合約體驗券折算。
📌 優質內容將有機會得到官方帳號轉發翻牌提升社區曝光!
📌 帖文將綜合互動量、內容豐富度和創意評分。禁止小號刷貼,原創分享更容易脫穎而出!
🕒 8月20 18:00 - 8月28日 24:00 UTC+
已經有人替OpenAI把GPT-5做出來了?
原文來源:GenAI新世界
作者|薛良Neil
從理論到實踐,大語言模型LLM完全體的形態是什麼樣子的?
很多人會說是基於對自然語言的深刻理解,但這點目前OpenAI的GPT系列已經做得很好。也有人在討論AI Agent在實踐上的可能性,但目前這種討論也沒有脫離對自然語言的處理範疇。
生成式AI實際上包括了兩個方面,大語言模型是其中之一,它著重理解人類的語言,而更廣泛的所謂AIGC應用,實際上指的是以擴散模型為代表的跨模態轉換能力,也就是所謂的文生圖、文生影片等等。
那麼把這二者結合起來呢?在許多人眼中,這其實就是下一代GPT,或者說GPT完全體的樣子。最近出現在預印網站arxiv上的一篇來自新加坡國立大學計算機學院的論文引起了人們的注意,因為這篇論文設計的NExT-GPT模型試圖進行全面的模態轉換。
NExT-GPT模型的樣式其實不僅符合目前人們試圖把生成式AI的兩股力量:大語言模型和擴散模型結合起來的趨勢,甚至某種程度上說也符合人類的直覺:人類大腦正是依靠對多種模態的自由轉換和互動理解來認識這個世界的。
特別值得指出的是,所謂多模態轉換與大語言模型能力的結合,並不是簡單的用方式在彼此之間“搭橋”,而是真正把多模態數據(向量)同語言數據結合起來,這個過程被真正拉通後,等於大模型可以不僅學習從而理解人的語言,還能把這種能力擴大到更多模態去,這種結合一旦成功,將會帶來AI能力質的飛躍。
NExT-GPT結構一覽:
兩個突破點
據說Google 和OpenAI的GPT5都在進行類似的研究。在這之前,先來看看NExT-GPT模型是怎麼做到的。
總的來說,NExT-GPT模型是把大模型與多模態適配器以及擴散模型解碼器連接了起來,僅在投影層進行了1%的參數調整。論文的創新之處在於創建了一個名為MosIT的模態切換調整指令,以及一個專門針對跨模態轉換的資料集。
具體來說,NExT-GPT由三層組成,第一層是各種成熟編碼器對各種模態輸入進行編碼,然後透過投影層映射到大語言模型可以理解的形式。第二層這是一個開源的大語言模型,用來進行推理。值得一提的是,大語言模型不僅會產生文本,還會產生一個獨特的標記,用來指令解碼層輸出具體什麼模態的內容。第三層則是將這些指令訊號經過投影,對應不同的編碼器產生對應的內容。
為了降低成本,NExT-GPT利用了現成的編碼器和解碼器,為了最大限度的減輕不同模態內容轉換時出現的“噪聲”,NExT-GPT利用了ImageBind,它是一個跨模態的統一編碼器,這樣NExT-GPT不需要管理諸多異構的模態編碼器,而是可以統一將不同模態投影到大語言模型中去。
至於輸出階段,NExT-GPT廣泛使用了各種成熟的模型,包括用於影像生成的stable diffusion,視訊生成的Zeroscope,以及音訊合成的AudioLDM。下圖是論文中一個推理過程的一環,可以看到文字模式和訊號標記決定了模態被如何辨識、觸發以及生成,灰色的部分是沒有被觸發的模態選項。
考慮到需要讓NExT-GPT具備準確地跨模態生成和推理的能力,論文還引入了MosIT,也就是Modality-switching Instruction Tuning模式切換指令微調,它的訓練基於5000個高品質樣本組成的資料集。
**完全體要來了嗎? **
目前NExT-GPT還具有許多的弱點,作者在論文中也提到了不少,例如非常容易想到的,四種模態對於真正的多模態完全體大模型來說種類還是有點太少,訓練MosIT的數據集的數量同樣有限。
另外,作者也正努力試圖透過不同尺寸的大語言模型來讓NExT-GPT適應更多場景。
相比尺寸來說,另一個棘手的問題更為現實。儘管NExT-GPT展現出一種關於多模態能力的強大前景,但其實以擴散模型為代表的AIGC能力目前所能達到的水平依然有限,這影響了整個NExT-GPT的表現。
總的來說,多模態AI有著非常誘人的前景,因為它和應用場景以及用戶的需求結合的更緊密,在大模型賽道目前熱度略有下降的情況下,多模態AI 給人以巨大的想像空間。 NExT-GPT作為一個端對端的多模態大模型,實際上已經具備了多模態AI的雛形,論文中關於參數調優對齊以及使用MosIT進行模型推理能力強化的思路讓人印象深刻,因此我們甚至可以說,邁向完全體AI的道路,此刻已經有人踏出了第一步。