✈️ Gate 广场【Gate Travel 旅行分享官召集令】
广场家人们注意啦!Gate Travel 已经上线~ 机票+酒店一站式预订,还能用加密货币直接付款 💸
所以说,你的钱包和你的旅行梦终于可以谈恋爱了 😎 💕
现在广场开启 #GateTravel旅行分享官# 活动,邀你来秀旅行灵感 & 使用体验!💡
🌴 参与方式:
1️⃣ 在【广场】带话题 #Gate Travel 旅行分享官# 发帖
2️⃣ 你可以:
你最想用 Gate Travel 去的目的地(私藏小岛 or 网红打卡点都行)
讲讲用 Gate Travel 订票/订酒店的奇妙体验
放放省钱/使用攻略,让大家省到笑出声
或者直接写一篇轻松的 Gate Travel 旅行小故事
📦 奖励安排,走起:
🏆 优秀分享官(1 名):Gate 旅行露营套装
🎖️ 热门分享官(3 名):Gate 旅行速干套装
🎉 幸运参与奖(5 名):Gate 国际米兰旅行小夜灯
*海外用户 旅行露营套装 以 $100 合约体验券,旅行速干套装 以 $50 合约体验券折算,国际米兰旅行小夜灯以 $30合约体验券折算。
📌 优质内容将有机会得到官方账号转发翻牌提升社区曝光!
📌 帖文将综合互动量、内容丰富度和创意评分。禁止小号刷贴,原创分享更容易脱颖而出!
🕒 8月20 18:00 - 8月28日 24:00 UTC+
已经有人替OpenAI把GPT-5做出来了?
原文来源:GenAI新世界
作者|薛良Neil
从理论到实践,大语言模型LLM完全体的形态是什么样子的?
很多人会说是基于对自然语言的深刻理解,但这一点目前OpenAI的GPT系列已经做得很好。也有人在讨论AI Agent在实践上的可能性,但目前这种讨论也没有脱离对自然语言的处理范畴。
生成式AI实际上包括了两个方面,大语言模型是其中之一,它着重理解人类的语言,而更广泛的所谓AIGC应用,实际上指的是以扩散模型为代表的跨模态转换能力,也就是所谓的文生图、文生视频等等。
那么把这二者结合起来呢?在许多人眼中,这实际上就是下一代GPT,或者说GPT完全体的样子。最近出现在预印网站arxiv上的一篇来自新加坡国立大学计算机学院的论文引起了人们的注意,因为这篇论文设计的NExT-GPT模型试图进行全面的模态转换。
NExT-GPT模型的样式实际上不仅符合目前人们试图把生成式AI的两股力量:大语言模型和扩散模型结合起来的趋势,甚至某种程度上说也符合人的直觉:人类大脑正是依靠对多种模态的自由转换和交互理解来认识这个世界的。
特别值得指出的是,所谓多模态转换与大语言模型能力的结合,并不是简单的用方式在彼此之间“搭桥”,而是真正把多模态数据(向量)同语言数据结合起来,这个过程被真正拉通后,等于大模型可以不仅学习从而理解人的语言,还能把这种能力扩大到更多模态去,这种结合一旦成功,将会带来AI能力质的飞跃。
NExT-GPT结构一览:
两个突破点
据说Google 和OpenAI的GPT5都在进行类似的研究。在这之前,让我们首先来看看NExT-GPT模型是怎么做到的吧。
总的来说,NExT-GPT模型是把大模型与多模态适配器以及扩散模型解码器连接了起来,仅仅在投影层进行了1%的参数调整。论文的创新之处在于创建了一个名为MosIT的模态切换调整指令,以及一个专门针对跨模态转换的数据集。
具体来说,NExT-GPT由三层组成,第一层是各种成熟编码器对各种模态输入进行编码,然后通过投影层映射到大语言模型可以理解的形式。第二层这是一个开源的大语言模型,用来进行推理。值得一提的是,大语言模型不仅会生成文本,还会生成一个独特的标记,用来指令解码层输出具体什么模态的内容。第三层则是将这些指令信号经过投影,对应不同的编码器生成对应的内容。
为了降低成本,NExT-GPT利用了现成的编码器和解码器,为了最大限度的减轻不同模态内容转换时出现的“噪声”,NExT-GPT利用了ImageBind,它是一个跨模态的统一编码器,这样NExT-GPT不需要管理诸多异构的模态编码器,而是可以统一将不同模态投影到大语言模型中去。
至于输出阶段,NExT-GPT广泛使用了各种成熟的模型,包括用于图像生成的 stable diffusion,视频生成的Zeroscope,以及音频合成的AudioLDM。下图是论文中一个推理过程的一环,可以看到文本模式和信号标记决定了模态被如何识别、触发以及生成,灰色的部分是没有被触发的模态选项。
考虑到需要让NExT-GPT具备准确地跨模态生成和推理的能力,论文还引入了MosIT,也就是Modality-switching Instruction Tuning模式切换指令微调,它的训练基于5000个高质量样本组成的数据集。
完全体要来了吗?
目前NExT-GPT还具有许多的弱点,作者在论文中也提到了不少,比如非常容易想到的,四种模态对于真正的多模态完全体大模型来说种类还是有点太少,训练MosIT的数据集的数量同样有限。
另外,作者还正努力试图通过不同尺寸的大语言模型来让NExT-GPT适应更多场景。
相比尺寸来说,另一个棘手的问题更为现实。尽管NExT-GPT展现出一种关于多模态能力的强大前景,但其实以扩散模型为代表的AIGC能力目前所能达到的水平依然有限,这影响了整个NExT-GPT的性能。
总的来说,多模态AI有着非常诱人的前景,因为它和应用场景以及用户的需求结合的更紧密,在大模型赛道目前热度略有下降的情况下,多模态AI 给人以巨大的想象空间。NExT-GPT作为一个端到端的多模态大模型,实际上已经具备了多模态AI的雏形,论文中关于参数调优对齐以及使用MosIT进行模型推理能力强化的思路让人印象深刻,因此我们甚至可以说,迈向完全体AI的道路,此刻已经有人迈出了第一步。