📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
機器人ChatGPT來了:大模型進現實世界,DeepMind重量級突破
我們知道,在掌握了網絡中的語言和圖像之後,大模型終究要走進現實世界,「具身智能」應該是下一步發展的方向。
把大模型接入機器人,用簡單的自然語言代替複雜指令形成具體行動規劃,且無需額外數據和訓練,這個願景看起來很美好,但似乎也有些遙遠。畢竟機器人領域,難是出了名的。
然而AI 的進化速度比我們想像得還要快。
本週五,谷歌 DeepMind 宣布推出RT-2:全球第一個控制機器人的視覺- 語言- 動作(VLA)模型。
現在不再用複雜指令,機器人也能直接像ChatGPT 一樣操縱了。
跟機器人說,把可樂罐給泰勒・斯威夫特:
ChatGPT 等大語言模型的發展,正在為機器人領域掀起一場革命,谷歌把最先進的語言模型安在機器人身上,讓它們終於擁有了一顆人工大腦。
在DeepMind 在最新提交的一篇論文中研究人員表示,RT-2 模型基於網絡和機器人數據進行訓練,利用了Bard 等大型語言模型的研究進展,並將其與機器人數據相結合,新模型還可以理解英語以外的指令。
**RT-2 是如何實現的? **
DeepMind 這個RT-2 拆開了讀就是Robotic Transformer —— 機器人的transformer 模型。
想要讓機器人能像科幻電影裡一樣聽懂人話,展現生存能力,並不是件容易的事。相對於虛擬環境,真實的物理世界複雜而無序,機器人通常需要復雜的指令才能為人類做一些簡單的事情。相反,人類本能地知道該怎麼做。
此前,訓練機器人需要很長時間,研究人員必須為不同任務單獨建立解決方案,而藉助RT-2 的強大功能,機器人可以自己分析更多信息,自行推斷下一步該做什麼。
RT-2 建立在視覺- 語言模型(VLM)的基礎上,又創造了一種新的概念:視覺- 語言- 動作(VLA)模型,它可以從網絡和機器人數據中進行學習,並將這些知識轉化為機器人可以控制的通用指令。該模型甚至能夠使用思維鏈提示,比如哪種飲料最適合疲憊的人(能量飲料)。
其實早在去年,谷歌就曾推出過RT-1 版本的機器人,只需要一個單一的預訓練模型,RT-1 就能從不同的感官輸入(如視覺、文本等)中生成指令,從而執行多種任務。
作為預訓練模型,要想構建得好自然需要大量用於自監督學習的數據。 RT-2 建立在RT-1 的基礎上,並且使用了RT-1 的演示數據,這些數據是由13 個機器人在辦公室、廚房環境中收集的,歷時17 個月。
DeepMind 造出了VLA 模型
前面我們已經提到RT-2 建立在VLM 基礎之上,其中VLMs 模型已經在Web 規模的數據上訓練完成,可用來執行諸如視覺問答、圖像字幕生成或物體識別等任務。此外,研究人員還對先前提出的兩個VLM 模型PaLI-X(Pathways Language and Image model)和PaLM-E(Pathways Language model Embodied)進行了適應性調整,當做RT-2 的主幹,並將這些模型的視覺- 語言- 動作版本稱為RT-2-PaLI-X 以及RT-2-PaLM-E 。
為了使視覺- 語言模型能夠控制機器人,還差對動作控制這一步。該研究採用了非常簡單的方法:他們將機器人動作表示為另一種語言,即文本token,並與Web 規模的視覺- 語言數據集一起進行訓練。
對機器人的動作編碼基於Brohan 等人為RT-1 模型提出的離散化方法。
如下圖所示,該研究將機器人動作表示為文本字符串,這種字符串可以是機器人動作token 編號的序列,例如「1 128 91 241 5 101 127 217」。
由於動作被表示為文本字符串,因此機器人執行動作命令就像執行字符串命令一樣簡單。有了這種表示,我們可以直接對現有的視覺- 語言模型進行微調,並將其轉換為視覺- 語言- 動作模型。
在推理過程中,文本token 被分解為機器人動作,從而實現閉環控制。
實驗
研究人員對RT-2 模型進行了一系列定性和定量實驗。
下圖展示了RT-2 在語義理解和基本推理方面的性能。例如,對於「把草莓放進正確的碗裡」這一項任務,RT-2 不僅需要對草莓和碗進行表徵理解,還需要在場景上下文中進行推理,以知道草莓應該與相似的水果放在一起。而對於「拾起即將從桌子上掉下來的袋子」這一任務,RT-2 需要理解袋子的物理屬性,以消除兩個袋子之間的歧義並識別處於不穩定位置的物體。
需要說明的是,所有這些場景中測試的交互過程在機器人數據中從未見過。
和ChatGPT 類似,這樣的能力如果大規模應用起來,世界估計會發生不小的變化。不過谷歌沒有立即應用RT-2 機器人的計劃,只表示研究人員相信這些能理解人話的機器人絕不只會停留在展示能力的層面上。
簡單想像一下,具有內置語言模型的機器人可以放入倉庫、幫你抓藥,甚至可以用作家庭助理—— 折疊衣物、從洗碗機中取出物品、在房子周圍收拾東西。
**具身智能,離我們不遠了? **
最近一段時間,具身智能是大量研究者正在探索的方向。本月斯坦福大學李飛飛團隊就展示了一些新成果,通過大語言模型加視覺語言模型,AI 能在3D 空間分析規劃,指導機器人行動。
可見在大模型領域裡,還有大事即將發生。
參考內容: