🎉 亲爱的广场小伙伴们,福利不停,精彩不断!目前广场上这些热门发帖赢奖活动火热进行中,发帖越多,奖励越多,快来 GET 你的专属好礼吧!🚀
🆘 #Gate 2025年中社区盛典# |广场十强内容达人评选
决战时刻到!距离【2025年中社区盛典】广场达人评选只剩 1 天,你喜爱的达人,就差你这一票冲进 C 位!在广场发帖、点赞、评论就能攒助力值,帮 Ta 上榜的同时,你自己还能抽大奖!iPhone 16 Pro Max、金牛雕塑、潮流套装、合约体验券 等你抱走!
详情 👉 https://www.gate.com/activities/community-vote
1️⃣ #晒出我的Alpha积分# |晒出 Alpha 积分&收益
Alpha 积分党集合!带话题晒出你的 Alpha 积分图、空投中奖图,即可瓜分 $200 Alpha 代币盲盒,积分最高直接抱走 $100!分享攒分秘籍 / 兑换经验,中奖率直线上升!
详情 👉 https://www.gate.com/post/status/12763074
2️⃣ #ETH百万矿王争霸赛# |ETH 链上挖矿晒收益
矿工集结!带话题晒出你的 Gate ETH 链上挖矿收益图,瓜分 $400 晒图奖池,收益榜第一独享 $200!谁才是真 ETH 矿王?开晒见分晓!
详情 👉 https://www.gate.com/pos
国产语音对话大模型来了:李开复零一万物参与,中英双语多模态,开源可商用
来源:量子位
首个中英双语的语音对话开源大模型来了!
这几天,一篇关于语音-文本多模态大模型的论文出现在arXiv上,署名公司中出现了李开复旗下大模型公司01.ai——零一万物的名字。
支持文本语音输入,手机也可玩
据研究人员表示,LLaSM是第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。
那么,就来看看它的语音文本输入和中英双语能力如何。
首先来个中英文化碰撞,让它用英文评价一下李白:
可以看出,模型思考一会后给出了非常中立的评价,也具备大模型的基本“端水常识”(手动狗头)
我们试着用语音输入“给我推荐一个菜谱吧”:
可以看到模型准确地输出了一个“茄子芝士”的菜谱,就是不知道好不好吃。
不过,我们在尝试的时候也发现,这个模型有时候会出bug。
例如有时候它并不能很好地“听懂人话”。
要求输出中英混合的内容,它会假装看不懂并输出英文:
不过分开的话,它的中英文表述能力还是不错的。
那么,这样的模型究竟是怎么实现的呢?
做了个什么新模型?
从试玩来看,LLaSM主要有两个特点:一个是支持中英输入,另一个是语音文本双输入。
要做到这两点,分别需要在架构和训练数据上做一些调整。
架构上,LLaSM将当前的语音识别模型和大语言模型做了个整合。
LLaSM由三个部分构成,分别包括自动语音识别模型Whisper、模态适配器和大模型LLaMA。
其中,Whisper负责接收原始语音输入,并输出语音特征的向量表示;模态适配器负责对齐语音和文本嵌入;LLaMA则负责理解语音和文本输入的指令,并生成回复。
训练数据上,研究人员整理出了一个包含19.9万个对话和50.8万个语音-文本样本的数据集LLaSM-Audio-Instructions。
而在50.8万个语音-文本样本中,有8万个中文语音样本,42.8万个英文语音样本。
研究人员主要基于WizardLM、ShareGPT和GPT-4-LLM等数据集,通过文本转语音技术,给这些数据集生成语音包,同时过滤掉无效对话。
不过,论文暂时没有对比它和其他语音模型或文本模型的输出效果。
作者介绍
这篇论文来自LinkSoul.AI、北京大学和零一万物。
共同一作Yu Shu和Siwei Dong均来自LinkSoul.AI,此前曾经在北京智源人工智能研究院工作。
LinkSoul.AI是一家AI初创公司,之前推出过首个开源Llama 2的中文语言大模型。
Demo地址: