📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
谷歌AGI機器人大招:54人天團憋7個月,強泛化強推理,DeepMind和谷歌大腦合併後新成果
原文來源:量子位
爆火的大模型,正在重塑谷歌DeepMind的機器人研究。
最新成果之一,就是他們耗時7個月打造的機器人項目RT-2,狠狠在網上火了一把:
只需用人話下達命令,面前這個小傢伙就能揮動機械臂,思考並完成“主人的任務”。
像是給流行歌手黴黴(Taylor Swift)遞水、或是辨認明星球隊Logo:
用網友的話來說,別小看這個能力,這是實現了從“滅絕的動物”到“塑料恐龍”的邏輯飛躍。
更“要命”的是,它還能輕鬆解決“給疲憊的人選一種飲料”這種需要結合思想鏈的多階段推理問題——一聽到命令小手就直奔紅牛而去,簡直不要太聰明。
有網友看完感嘆:
將多模態大模型“塞進”機械臂
這個名叫RT-2(Robotic Transformer 2)的機器人項目,是去年年底發布的RT-1的“進化版”。
相比於其他的機器人研究,RT-2的核心優勢在於,不僅能理解“人話”,還能對“人話”進行推理,並轉變為機器人能理解的指令,從而分階段完成任務。
具體來說,它具備三大能力——符號理解(Symbol understanding)、推理(Reasoning)和人類識別(Human recognition)。
第一個能力是“符號理解”,能將大模型預訓練的知識,直接延展到機器人此前沒見過的數據上。例如機器人數據庫中雖然沒有“紅牛”,但它卻能從大模型的知識中理解並掌握“紅牛”的外貌,並拿捏物品。
第二個能力是“推理”,這也是RT-2的核心優勢,要求機器人掌握數學、視覺推理和多語言理解三大技能。
技能一,包含數學邏輯推理的命令,“將香蕉放到2+1的總和的位置”:
那麼,這三個能力是怎麼實現的?
簡單來說,就是將視覺-文本多模態大模型(VLM)具備的“推理”、“識別”、“數學”等能力,和機器人的操作能力結合起來。
例如將轉動度數、放到哪個坐標點等數據,轉變成文本“放到某個位置”。
這樣一來,機器人數據也能被用到視覺-語言數據集中進行訓練,同時在進行推理的過程中,原本的文本指令也會被重新轉化為機器人數據,實現控制機器人等一系列操作。
沒錯,就是這麼簡單粗暴(手動狗頭)
在這次的研究中,團隊主要基於谷歌的一系列基礎大模型來“做升級”,包括50億和550億的PaLI-X、30億的PaLI以及120億的PaLM-E。
為了提升大模型本身的能力,研究人員也下了不少功夫,把最近爆火的思維鏈、向量數據庫和無梯度架構(no-gradient architectures)都用上了。
這一系列操作,也讓RT-2和去年發布的RT-1相比,具有了不少新優勢。
下面就來看看具體的實驗結果。
性能可達RT-1三倍
RT-2使用上一代機器人模型RT-1的數據進行訓練(也就是說數據沒變,只是方法不同了)。
這些數據是用13個機器人在辦公室搭建的一個廚房環境中耗時17個月收集到的。
在實際測試中(一共歷經6000次),作者給了RT-2許多以前未見過的物體,需要RT-2在微調數據之外進行語義理解來完成任務。
結果完成的都相當不錯:
包括從簡單的識別字母、國旗、人物到從玩偶中識別陸生動物、選出顏色不相同的那隻,甚至是撿起快要從桌上掉下去的零食等複雜的命令。
如前文所述,這兩個變體分別在120億參數的PaLM-E和550億參數的PaLI-X上進行訓練。
而為了更好地理解RT-2的不同設置如何影響泛化結果,作者又設計了兩大類評估:
一是在模型尺寸上,僅在RT-2 PaLI-X變體分別採用50億參數與550億參數進行訓練;
二是訓練方法上,分別採用從頭開始訓練模型vs微調vs協同微調的方法。
最終結果表明,視覺語言模型預訓練權重的重要性以及模型泛化能力有隨著模型大小而提高的趨勢。
最後,由於RT-2 PaLM-E變體是一個視覺-語言-動作模型,可以在單個神經網絡中充當LLM、VLM和機器人控制器,因此RT-2還可以執行可控的思想鏈推理。
如下圖所示的5個需要推理的任務中(尤其最後一個非常有意思:選擇可以替代錘子的物品),它接到命令後會先輸出自然語言步驟,然後再給出具體的動作token。
## 還有一件事
谷歌將機器人研究的重心放在大模型上,似乎也不是“空穴來風”。
就在這兩天,他們和哥倫比亞大學合作的一篇關於“用大模型幫助獲取更多機器人操作技能”的論文,同樣很火:
再聯想到前不久李飛飛團隊的具身智能成果,可以說,用大模型帶動機器人著實成為一種研究趨勢,且已經讓我們看到了一波非常有潛力的進展。
對於這個研究方向,你有哪些期待?
項目地址:
參考鏈接:
[1]
[2]
[3]
[4]