7月29日,《紐約時報》的記者在谷歌實驗室,率先看到了谷歌最新推出的 RT-2 模型驅(qū)動的機器人。
一個單臂機器人站在一張桌子前。桌子上坐著三個塑料雕像:獅子、鯨魚和恐龍。工程師給機器人發(fā)出指令:“撿起滅絕的動物?!睓C器人呼呼地響了一會兒,然后手臂伸出,爪子張開落下。它抓住了恐龍。
這是一道智能的閃光。
(資料圖片僅供參考)
《紐約時報》描述道,“直到上周,這一演示還是不可能的。機器人無法可靠地操縱它們以前從未見過的物體,它們當然也無法實現(xiàn)從‘滅絕的動物’到‘塑料恐龍’的邏輯飛躍。”
雖然仍然存在于展示之中,且谷歌并不打算立即進行更大規(guī)模的發(fā)布或者對其進行商業(yè)化,但這一展示已經(jīng)足以展現(xiàn)大模型為機器人能夠帶來的機遇的一角。
在大模型時代到來之前,人們訓練機器人,通常針對每個任務進行優(yōu)化,比如抓取某種玩具,需要足量的數(shù)據(jù),機器人才能準確地從各個角度、各個光線下識別這種玩具,抓取成功。而讓機器人意識到自己有抓取玩具的任務,也需要對機器人進行編程才能解決。
而大模型的智能和泛化能力,讓人們看到了解決這些問題,走向通用機器人的一道曙光。
將Transformer,運用到機器人中
谷歌新的 RT-2 模型,全稱為Robotic Transformer 2,運用Transformer 架構(gòu)作為其模型的基座。
2018 年被提出的Transformer架構(gòu),是目前火遍全球的大語言模型(LLM)的最底層的基座,但事實上,作為一種架構(gòu),Transformer不止可以應用于大語言模型當中,也可以用于訓練其他類型的數(shù)據(jù)。早在今年 3 月份,谷歌就發(fā)布了PaLM-E,是當時世界上最大視覺語言模型(VLM)。
大語言模型中,語言被編碼為向量,人們?yōu)槟P吞峁┐罅康恼Z料,使其能夠預測出人類通常下一句會說什么,借此生成語言回答。
而在視覺語言模型中,模型可以將圖像信息編碼為與語言類似的向量,讓模型既能“理解”文字,又能用相同方式“理解”圖像。而研究員們?yōu)橐曈X語言模型提供大量的語料和圖像,使其能夠執(zhí)行視覺問答、為圖像添加字幕和物品識別等任務。
無論是圖像還是語言,都是相對容易大量獲取的數(shù)據(jù)。因此,模型很容易取得令人驚艷的成果。
而想使用Transformer架構(gòu)來生成機器人行為,卻有一個很大的難點?!吧婕暗綑C器人動作的數(shù)據(jù)非常昂貴?!鼻迦A大學交叉信息研究院助理教授許華哲教授告訴極客公園,“視覺和語言數(shù)據(jù)都來自于人類,是被動數(shù)據(jù),而機器人的動作數(shù)據(jù),全部是來自于機器人的主動數(shù)據(jù)。
比如我想研究機器人倒咖啡的動作,不管是寫代碼讓機器人執(zhí)行,還是利用其他的方式讓機器人執(zhí)行,都是需要機器人實際執(zhí)行一遍這個操作才能得到這個數(shù)據(jù)。因此,機器人的數(shù)據(jù)與語言和圖片的規(guī)模和量級是完全不一樣的?!?/p>
在谷歌研究的第一代機器人Transformer模型 RT-1 中,谷歌第一次開啟了這樣的挑戰(zhàn),嘗試建立一個視覺語言動作模型。
為了建立這樣的模型,谷歌使用了13個機器人,在一個搭建的廚房環(huán)境中耗時 17 個月收集到了機器人在 700 多個任務上的主動數(shù)據(jù)組建的數(shù)據(jù)集。
數(shù)據(jù)集同時記錄了三個維度:
視覺——機器人在執(zhí)行任務操作時的攝像頭數(shù)據(jù);
語言——用自然語言描述的任務文字;
和機器人動作——機器手進行任務時在 xyz 軸和偏轉(zhuǎn)數(shù)據(jù)等。
雖然當時得到了較好的實驗效果,但可想而知,想要進一步增加數(shù)據(jù)集內(nèi)數(shù)據(jù)的數(shù)量,將是一件非常難的事情。
圖片來源:谷歌 AI 介紹視頻
而 RT-2 的創(chuàng)新之處在于,RT-2 使用前面所述的視覺語言模型(VLM)PaLM-E 和另一個視覺語言模型 PaLI-X 作為其底座——單純的視覺語言模型可以通過網(wǎng)絡(luò)級的數(shù)據(jù)訓練出來,因為數(shù)據(jù)量足夠大,能夠得到足夠好的效果,而在微調(diào)(fine-tuning)階段,再將機器人的動作數(shù)據(jù)加入進去一起微調(diào)(co-finetuning)。
這樣,機器人相當于首先已經(jīng)擁有了一個在海量數(shù)據(jù)上學習過了的常識系統(tǒng)——雖然還不會抓取香蕉,但是已經(jīng)能夠認識香蕉了,甚至也知道了香蕉是一種水果,猴子會比較喜歡吃。
而在微調(diào)階段,通過再加入機器人在真實世界中看到香蕉后是如何抓取香蕉的知識,機器人就不但擁有了在各種光線和角度下識別香蕉的能力,也擁有了能夠抓取香蕉的能力。
在這種方式下,用Transformer架構(gòu)訓練機器人所需的數(shù)據(jù)顯著降低了。
RT-2 在微調(diào)階段直接使用了RT-1訓練階段使用的視覺/語言/機器人動作數(shù)據(jù)集。谷歌給出的數(shù)據(jù)顯示,在抓取訓練數(shù)據(jù)中原來出現(xiàn)過的物品時,RT-2的表現(xiàn)與RT-1同樣好。而因為有了“擁有常識的大腦”,在抓取之前沒有見過的物品時,成功率從RT-1的 32% 提升到了 62%。
“這就是大模型的妙處?!痹S華哲講道,“你沒有辦法把它拆解成因為它識別到了兩個物體是材質(zhì)相似,還是因為大小相近還是因為別的什么原因抓取的成功率提升了。它學到的東西足夠多了之后,就會涌現(xiàn)出一些能力?!?/p>
使用自然語言,與機器人交互的未來
學術(shù)上,RT-2 展現(xiàn)的很強的泛化性有可能解決機器人訓練數(shù)據(jù)不足的難題。而在此之外,RT-2 給人的直觀震撼還是來自于它所展現(xiàn)的智能的一面。
在實驗中,研究員希望它能夠拿起一個“能夠用作錘子的東西”,機器人在一堆物品中拿起了石頭,而在被要求拿起一個提供給疲憊的人的飲料時,機器人在一堆物品中選擇了紅牛。
這樣的技巧來自在進行大模型訓練時,研究員引入“思維鏈”(chain of thought)的能力。而這樣的多段語義推理在傳統(tǒng)的機器人模仿學習研究中是非常難以做到的。
不過,利用自然語言與機器人交互,并不是 RT-2 的創(chuàng)見。
在過去的機器人研究中,研究者始終需要將任務要求轉(zhuǎn)換為代碼而讓機器人能夠理解,同時一旦出現(xiàn)問題,也需要編寫代碼來糾正機器人的行為,整個過程需要多次交互,效率較低。而既然我們已經(jīng)有了非常智能的對話機器人了,下面比較自然的一步,自然是讓機器人與人類用自然語言交互。
“我們大約兩年前開始研究這些語言模型,然后我們意識到它們蘊藏著豐富的知識。”谷歌研究科學家卡羅爾·豪斯曼(Karol Hausman)表示,“所以我們開始將它們連接到機器人。”
不過,讓大模型作為機器人的頭腦,也有著自己的難題。其中最重要的一個問題之一,就是 grounding 問題,即如何使大模型通常比較天馬行空的回應,轉(zhuǎn)化成驅(qū)動機器人行動的指令。
2022 年,谷歌推出 Say-can 模型。模型正如其名,采用兩種考量來幫助機器人行動。一種考量是 say,模型通過與谷歌的大語言模型 PaLM 模型結(jié)合,可以通過自然語言和人類交互,把獲得的任務進行分解,找到最適合當前行動;另一種考量是 can,模型通過一個算法,計算出當前機器人能夠成功執(zhí)行這一任務的概率。機器人根據(jù)這兩重考量下,進行動作。
比如對機器人講“我的牛奶撒了,你能不能幫我?”機器人會首先通過語言模型進行任務規(guī)劃,這時可能最合理的方式是找到一個清潔工,其次是找一塊海綿自己擦。然后機器人會通過算法計算出作為機器人,它能夠成功找到清潔工的概率很低,而找到海綿自己擦的概率很高。在兩重考慮后,機器人就會選擇尋找海綿擦牛奶的行動。
圖片來源:Saycan 介紹視頻
雖然在這樣雙層模型架構(gòu)中,機器人能夠成功做出的動作已經(jīng)是預先設(shè)計好的,大語言模型只是能夠幫助機器人選擇合適的任務規(guī)劃。在這樣的模型中,機器人已經(jīng)展現(xiàn)出了極強的智能感。
不過,雖然從外在看起來效果是類似的,RT-2 采取的是另一種道路。通過訓練時模型就同時學習視覺、語言、機器人行為這三種數(shù)據(jù),RT-2 的模型并不是先進行任務分解,再進行任務操作,而是自然語言輸入后,通過模型的運算,直接產(chǎn)生動作的輸出。
“雙層結(jié)構(gòu)類似于我想去做一件事情,腦袋里先想好第一步干這個,第二步干那個,然后再挨個執(zhí)行這些策略?!痹S華哲教授表示,“而端到端的結(jié)構(gòu)類似于我也沒有特別仔細想第一步、第二步是什么,就把這個事情給干了?!焙笳叩囊粋€例子可以類比于我們每天在手機上打字聊天,我們打字聊天時一般不會認真思考肌肉具體要如何去動作,而是想到了要打的字,就直接打出來了。
“兩種不同的路線或者不同的方法,都還沒有證明自己是唯一正確的方式?!痹S華哲表示。但由于 RT-2 的優(yōu)秀表現(xiàn),一個模型能夠接管輸入輸出的技術(shù)方向,似乎值得探索。
“由于這一變化(RT-2 的優(yōu)秀表現(xiàn)),我們不得不重新考慮我們的整個研究規(guī)劃了,”谷歌 DeepMind 機器人技術(shù)主管文森特·范霍克(Vincent Vanhoucke)表示?!爸八龅暮芏嗍虑槎纪耆兂蔁o用功了?!?/p>
RT-2 是機器人的 GPT3 時刻嗎?
谷歌的 RT-2 機器人并不完美。在《紐約時報》記者目睹的實際演示中,它錯誤地識別了一罐檸檬味蘇打水的味道(說成“橘子味”)。還有一次被問到桌子上有什么水果時,機器人回答成“白色”(實際是香蕉)。谷歌發(fā)言人解釋說,該機器人使用了緩存的答案來回答之前測試者的問題,因為它的 Wi-Fi 曾短暫中斷過。
除此之外,利用大模型訓練機器人,不可避免地要面對成本問題。目前谷歌的機器人在進行推理和判斷的時候,需要將數(shù)據(jù)傳到云端,由多塊 TPU 一起進行計算,再將結(jié)果發(fā)回機器人,由機器人執(zhí)行操作。這樣的計算可想而知十分昂貴。
谷歌 DeepMind 機器人技術(shù)主管文森特·范霍克(Vincent Vanhoucke)認為,新的研究開啟了機器人能夠在有人的環(huán)境中使用的大門——研究者認為,內(nèi)置了語言模型的機器人可以進入倉庫、用于醫(yī)療行業(yè),甚至成為家庭助理,幫助折疊衣物、從洗碗機中取出物品、在房子周圍收拾東西。
“如果你開一個工廠,需要使用機器人,成功率一定是要求很高的。你不會希望說買了機器人后,還需要很多人去維護這個機器人,完善機器人做得不夠好的事情。那這樣成本太高了?!痹S華哲教授表示,“家居場景下的機器人可能是另一個情形,因為也許家居場景下的一些任務的成功率要求沒有那么高。比如疊衣服,疊的沒有那么好,可能在你眼中這個任務失敗了,但對你的影響也不會非常大?!?/p>
人工智能三巨頭之一的楊立昆(Yaan Lecun)有一個強調(diào)過許多次的著名論斷:人工智能還不夠聰明。任何一個孩子都能很快學會收拾桌子,把碗放進洗碗機,而機器人卻做不到。
目前的機器人研究或許確實如此,但正如不完美的 GPT-3 讓業(yè)界看到了大模型發(fā)展的方向一樣,或許今天不完美的 RT-2 也將開啟機器人進入家庭成為我們的助手的未來時代。
本文來自微信公眾號:極客公園 (ID:geekpark),作者:Li Yuan,編輯:鄭玄
關(guān)鍵詞:
免責聲明:本網(wǎng)站所有信息,并不代表本站贊同其觀點和對其真實性負責,投資者據(jù)此操作,風險請自擔。
下一篇:最后一頁
【港股內(nèi)房股持續(xù)走低龍湖集團跌超9%】港股內(nèi)房股持續(xù)走低,龍湖集團跌
【氟化工板塊午后異動聯(lián)創(chuàng)股份等多股漲超6%】午后氟化工板塊異動拉升,
從活動現(xiàn)場獲悉,參加本次戰(zhàn)略簽約儀式的銀行有10家,分別為中國農(nóng)業(yè)發(fā)
近日,壘知上??苿?chuàng)園項目迎來重要的建設(shè)節(jié)點——全面沖出正負零,地下
原標題:三江源源頭地區(qū)建立5G遠程觀測點位——生態(tài)環(huán)境監(jiān)測網(wǎng)絡(luò)體系不
原標題:三江源源頭地區(qū)建立5G遠程觀測點位——生態(tài)環(huán)境監(jiān)測網(wǎng)絡(luò)體系不
新華社石家莊8月7日電題:河北涿州:部分受災群眾逐漸返回家園穿好防護
新華社石家莊8月7日電(記者杜一方)戰(zhàn)國燕邑,以涿水得名,是為涿州。