久久精品视频一区二区三区,久久99这里只有精品国产

南棲仙策提出新型環(huán)境特征編碼器學(xué)習(xí)算法，有效提升環(huán)境識(shí)別的泛化能力

2024-01-29 16:04:37 來源：實(shí)況網(wǎng)

基于上下文的離線元強(qiáng)化學(xué)習(xí)（Context-based OMRL）通過構(gòu)建一個(gè)上下文編碼器，將收集到的上下文數(shù)據(jù)映射到任務(wù)表征，進(jìn)一步基于任務(wù)表征來自適應(yīng)的在多個(gè)環(huán)境中進(jìn)行決策。然而，在離線的情形下，任務(wù)表征的編碼器極大的依賴于用于訓(xùn)練的離線數(shù)據(jù)的豐富程度。當(dāng)數(shù)據(jù)采集有限，以至于與特定采樣策略的特點(diǎn)耦合時(shí)，學(xué)習(xí)的任務(wù)編碼器通常會(huì)難以獲得較好的泛化能力，進(jìn)而影響元強(qiáng)化學(xué)習(xí)的性能。

基于此，南京大學(xué)&南棲仙策團(tuán)隊(duì)合作提出了一種基于模型對(duì)抗樣本增強(qiáng)的環(huán)境特征編碼器學(xué)習(xí)，task Representation learning via adversarial Data Augmentation (ReDA)算法，并發(fā)表在AAMAS24會(huì)議上。這一方法可以應(yīng)用于元強(qiáng)化學(xué)習(xí)的環(huán)境特征識(shí)別上，緩解了以往算法中環(huán)境特征和采樣策略耦合的影響，從而使得我們?cè)跇颖臼芟薜膶?shí)際場(chǎng)景中可以提升環(huán)境特征編碼器的泛化能力，進(jìn)而提高元學(xué)習(xí)策略的表現(xiàn)，推進(jìn)強(qiáng)化學(xué)習(xí)在現(xiàn)實(shí)世界的應(yīng)用落地。

離線元強(qiáng)化學(xué)習(xí)環(huán)境特征耦合問題

離線元強(qiáng)化學(xué)習(xí)（Offline Meta Reinforcement Learning）是一種重要的機(jī)器學(xué)習(xí)技術(shù)，其結(jié)合了離線和元學(xué)習(xí)兩種方法優(yōu)勢(shì)，可以幫助智能系統(tǒng)從以往的多種環(huán)境的離線經(jīng)驗(yàn)中學(xué)習(xí)，以提高在新環(huán)境下的泛化能力。通過離線數(shù)據(jù)，系統(tǒng)可以更有效地利用以往的經(jīng)驗(yàn)，而無需實(shí)時(shí)與環(huán)境進(jìn)行交互，從而提高數(shù)據(jù)利用效率。并且，由于在不同的環(huán)境下進(jìn)行學(xué)習(xí)，而不僅僅是在當(dāng)前環(huán)境下，也極大的提高了策略的泛化能力。

在很多實(shí)際應(yīng)用中，實(shí)時(shí)與多種環(huán)境交互收集數(shù)據(jù)可能會(huì)很昂貴或不切實(shí)際，離線元強(qiáng)化學(xué)習(xí)為這些場(chǎng)景提供了解決方案。離線元強(qiáng)化學(xué)習(xí)可以使強(qiáng)化學(xué)習(xí)技術(shù)更易于應(yīng)用和部署，在提高泛化能力、數(shù)據(jù)效率、穩(wěn)健性以及降低成本等方面具有重要意義，尤其是在實(shí)際應(yīng)用中，如機(jī)器人控制與路徑規(guī)劃、自動(dòng)駕駛系統(tǒng)、智能游戲角色、智能物流和倉儲(chǔ)以及工業(yè)自動(dòng)化等方面具有廣泛的用途。

離線元強(qiáng)化學(xué)習(xí)中，主要的方法是基于上下文的離線元強(qiáng)化學(xué)習(xí)。該類方法將策略建模為兩部分：第一部分是環(huán)境特征提取器，可以將歷史收集到的上下文數(shù)據(jù)映射到環(huán)境特征上；第二部分是基于環(huán)境特征的條件策略，在給定的當(dāng)前狀態(tài)和得到的環(huán)境特征的條件下進(jìn)行決策。第一部分的任務(wù)編碼器是非常重要的，提取的環(huán)境特征將直接決定了下游的元策略的學(xué)習(xí)質(zhì)量和泛化能力。

然而，以往的環(huán)境特征編碼學(xué)習(xí)需要依賴非常豐富且多樣的數(shù)據(jù)進(jìn)行學(xué)習(xí)，這在很多真實(shí)的物理場(chǎng)景中是不現(xiàn)實(shí)甚至存在一定危險(xiǎn)的，比如機(jī)器人等。以往的工作中，環(huán)境特征提取是基于對(duì)比學(xué)習(xí)直接在離線數(shù)據(jù)集上進(jìn)行訓(xùn)練的：

由于對(duì)比學(xué)習(xí)直觀上就是減小相同任務(wù)的上下文表征的距離，增大不同環(huán)境的上下文表征的距離，通常需要收集到非常豐富的離線數(shù)據(jù)集來獲得一個(gè)魯棒且可泛化的環(huán)境表征，例如CORRO[1]需要使用整個(gè)訓(xùn)練期間的所有策略檢查點(diǎn)來收集數(shù)據(jù)，這在真實(shí)場(chǎng)景中是不現(xiàn)實(shí)的，顯然整個(gè)訓(xùn)練流程中的數(shù)據(jù)對(duì)于現(xiàn)實(shí)任務(wù)例如機(jī)器人控制任務(wù)是很難獲取的，甚至獲取過程中存在一定的不安全因素。因?yàn)楹芏鄷r(shí)候我們無法獲取如此豐富的樣本來訓(xùn)練一個(gè)好的環(huán)境特征編碼器，所以我們需要去關(guān)注數(shù)據(jù)集有限時(shí)環(huán)境編碼器的學(xué)習(xí)問題。

簡(jiǎn)單以倒立桿任務(wù)（InvertedPendulum）為例，我們的訓(xùn)練數(shù)據(jù)是重力1.0下的高質(zhì)量數(shù)據(jù)和重力2.0下的低質(zhì)量數(shù)據(jù)，然后使用上下文數(shù)據(jù)是1.0倍重力下的低質(zhì)量的數(shù)據(jù)進(jìn)行測(cè)試（圖1-a），對(duì)數(shù)據(jù)集的分布進(jìn)行降維可視化展示（圖1-b），發(fā)現(xiàn)測(cè)試數(shù)據(jù)到同樣環(huán)境下的訓(xùn)練數(shù)據(jù)的距離，并沒有相對(duì)其他環(huán)境的訓(xùn)練數(shù)據(jù)的距離更加接近（圖1-c），這樣的情況下，僅僅依賴于數(shù)據(jù)集的對(duì)比學(xué)習(xí)，由于缺少足以代表環(huán)境任務(wù)特征的樣本，將很難保證任務(wù)表征的泛化能力。

圖1. (a). 訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù) (b). 數(shù)據(jù)分布的可視化 (c). 測(cè)試數(shù)據(jù)到不同任務(wù)的訓(xùn)練數(shù)據(jù)的相對(duì)距離

基于模型的對(duì)抗樣本增強(qiáng)

為了讓環(huán)境特征編碼器更好地捕捉到環(huán)境特征而非采樣策略本身的特征，我們提出了一種基于模型的對(duì)抗樣本增強(qiáng)的方法，產(chǎn)生更多的不同于數(shù)據(jù)集的數(shù)據(jù)來訓(xùn)練環(huán)境特征編碼器。

首先我們基于每個(gè)任務(wù)的數(shù)據(jù)集，分別學(xué)習(xí)各個(gè)任務(wù)上的轉(zhuǎn)移模型：

在學(xué)習(xí)好可以用來交互的環(huán)境模型后，接下來我們需要面臨的問題是：1.采集什么樣的樣本來有效增強(qiáng)任務(wù)編碼器的能力？2.如何緩解環(huán)境模型誤差帶來的影響？

對(duì)于這兩個(gè)問題，我們引入了一個(gè)對(duì)抗采樣策略，該策略的優(yōu)化目標(biāo)主要由三部分組成：

·最小辨識(shí)度的樣本：我們需要采集讓任務(wù)編碼最難區(qū)分的樣本，即該樣本到相同任務(wù)的距離和到其他任務(wù)的距離差距不大。所以我們考慮這樣的樣本需要具備的特點(diǎn)是，當(dāng)它被加入上下文之后，會(huì)導(dǎo)致基于上下文的對(duì)比學(xué)習(xí)的損失函數(shù)上升。所以我們使用該損失函數(shù)變化的程度來作為優(yōu)化的獎(jiǎng)勵(lì)信號(hào)，如果對(duì)比損失上升越大，說明該樣本的引入使得任務(wù)編碼器更加難以識(shí)別環(huán)境了。定義該樣本加入前的任務(wù)表征為z_t，加入該樣本后的任務(wù)表征為z_t+1，單步的獎(jiǎng)勵(lì)定義為：

·模型不確定性懲罰：我們并不希望對(duì)抗策略去搜索模型中誤差過于大的區(qū)域，所以參考MOPO我們基于不確定性度量給出對(duì)樣本的懲罰。

·任務(wù)相關(guān)獎(jiǎng)勵(lì)：我們使用了任務(wù)的獎(jiǎng)勵(lì)函數(shù)來避免對(duì)抗策略去搜索和任務(wù)無關(guān)的樣本。

綜上所述，我們最終得到了在模型上搜索對(duì)抗樣本的對(duì)抗策略的優(yōu)化目標(biāo)：

基于該對(duì)抗策略搜索到的增強(qiáng)樣本，我們得到了新的環(huán)境特征編碼器的優(yōu)化目標(biāo)：

該目標(biāo)是一個(gè)標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)的定義，所以可以使用SAC等算法求解。

整體的算法流程如下圖所示，首先基于離線數(shù)據(jù)集學(xué)習(xí)轉(zhuǎn)移模型，然后在轉(zhuǎn)移模型上獲得對(duì)抗策略，并產(chǎn)生對(duì)抗數(shù)據(jù)訓(xùn)練任務(wù)編碼器，再基于任務(wù)編碼器訓(xùn)練最終的元策略。

圖2. 算法流程

整體訓(xùn)練的算法描述如下：

技術(shù)驗(yàn)證

基于倒立桿的環(huán)境與數(shù)據(jù)集，我們對(duì)我們的方法進(jìn)行了簡(jiǎn)單的驗(yàn)證，首先定義相對(duì)距離：

該距離描述了相同任務(wù)下訓(xùn)練集和測(cè)試集的距離與不同任務(wù)下訓(xùn)練集和測(cè)試集的距離的差異，如果該距離越小，說明我們的表征訓(xùn)練的泛化能力越好，通過和FOCAL[2]等基礎(chǔ)算法進(jìn)行對(duì)比，我們發(fā)現(xiàn)ReDA顯著的提升了表征的泛化能力（圖3-b），并且取得了更好的測(cè)試性能（圖3-a）。這一結(jié)果表明，我們學(xué)習(xí)到的環(huán)境表征解耦了采樣的策略特征，從而更好的泛化到了更多數(shù)據(jù)上。

圖3. 倒立桿多種方法下的表征與性能

整體性能

我們?cè)O(shè)計(jì)了兩種模式進(jìn)行測(cè)試，第一種是on-policy模式，上下文的樣本來源于當(dāng)前策略的采樣；另一種是off-policy模式，策略來源于數(shù)據(jù)集以外的其他樣本。這兩者都是在實(shí)際部署時(shí)最常需要使用的上下文樣本，并且都存在和訓(xùn)練集存在一定的偏差。我們參考以往的工作構(gòu)建了MuJoCo上的多任務(wù)數(shù)據(jù)集，包括HalfCheetah、Hopper、Walker2d、Ant在Gravity、Dof-Damping等模擬器參數(shù)變化下的多任務(wù)數(shù)據(jù)集。在訓(xùn)練過程中我們只使用幾個(gè)檢查點(diǎn)的數(shù)據(jù)，然后使用其他檢查點(diǎn)的數(shù)據(jù)作為off-policy模式下的測(cè)試數(shù)據(jù)。實(shí)驗(yàn)結(jié)果如下：

圖4. on-policy模式下的性能

其中[任務(wù)] [參數(shù)類型]-[數(shù)字]的格式表示使用的訓(xùn)練數(shù)據(jù)集是哪個(gè)任務(wù)的哪類參數(shù)，總共使用了幾個(gè)檢查點(diǎn)的數(shù)據(jù)去訓(xùn)練。

圖5. off-policy模式下的性能

可以看到，通過引入基于模型的方法，學(xué)習(xí)一個(gè)泛化能力更強(qiáng)的環(huán)境特征提取器，極大地提高了元策略的表現(xiàn)，使離線元強(qiáng)化學(xué)習(xí)得以在樣本受限的情況下仍然取得一個(gè)不錯(cuò)的性能。

本文關(guān)注低數(shù)據(jù)情境下的離線元強(qiáng)化學(xué)習(xí)（OMRL），強(qiáng)調(diào)了環(huán)境表示學(xué)習(xí)與數(shù)據(jù)收集策略分離的重要性，并提出了對(duì)抗數(shù)據(jù)增強(qiáng)的實(shí)際解決方案；訓(xùn)練了轉(zhuǎn)移模型和對(duì)抗性策略來增強(qiáng)離線數(shù)據(jù)集，以應(yīng)對(duì)數(shù)據(jù)集受限的情況。希望這項(xiàng)研究能夠激發(fā)對(duì)數(shù)據(jù)采樣策略在元強(qiáng)化學(xué)習(xí)中的影響，以及OMRL測(cè)試基準(zhǔn)標(biāo)準(zhǔn)化的進(jìn)一步探索。

免責(zé)聲明：市場(chǎng)有風(fēng)險(xiǎn)，選擇需謹(jǐn)慎！此文僅供參考，不作買賣依據(jù)。

關(guān)鍵詞：

免責(zé)聲明：本網(wǎng)站所有信息，并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)，投資者據(jù)此操作，風(fēng)險(xiǎn)請(qǐng)自擔(dān)。

上一篇： Dbank超級(jí)比特幣礦場(chǎng)投產(chǎn) BitGood智能算力上線

下一篇：最后一頁

相關(guān)閱讀

南棲仙策提出新型環(huán)境特征編碼器學(xué)習(xí)算...

基于上下文的離線元強(qiáng)化學(xué)習(xí)（Context-based OMRL）通過構(gòu)建一個(gè)上下文編碼器，將收集到的上下文數(shù)據(jù)映射到任務(wù)表征，進(jìn)一步基于任務(wù)表征

2024-01-29 16:04:37
Dbank超級(jí)比特幣礦場(chǎng)投產(chǎn) BitGood智能算力上線

Dbank鏈銀集團(tuán)在美國(guó)德克薩斯州投資的超級(jí)比特幣礦場(chǎng)一期于2023年10月竣工通電，上面已運(yùn)行近萬臺(tái)比特大陸最新型的XP螞蟻礦機(jī)，還有另外三

2024-01-19 17:01:25
“領(lǐng)航企業(yè)”名單公布！博威合金母公司...

近日，浙江省商務(wù)廳公布了2023年度浙江本土民營(yíng)跨國(guó)公司領(lǐng)航企業(yè)名單，共60家企業(yè)上榜。其中，博威合金（601137 SH）母公司博威集團(tuán)有限公

2024-01-18 17:56:40
維視智造榮膺2023光能杯“最具影響力智...

1月11日，由索比光伏網(wǎng)主辦的2023年度第十一屆光能杯光伏行業(yè)頒獎(jiǎng)盛典在蘇州圓滿舉辦。相關(guān)部門領(lǐng)導(dǎo)、光伏行業(yè)全產(chǎn)業(yè)鏈代表性企業(yè)家、行業(yè)

2024-01-12 17:01:19
尼得科動(dòng)力系統(tǒng)研發(fā)出混合動(dòng)力電動(dòng)汽車...

此次,尼得科株式會(huì)社的集團(tuán)公司——尼得科動(dòng)力系統(tǒng)(舊日本電產(chǎn)東測(cè))

2023-12-28 16:17:51
匯川技術(shù)榮獲CMCD2023年度運(yùn)動(dòng)控制領(lǐng)域...

12月22日，由中國(guó)傳動(dòng)網(wǎng)主辦的2023中國(guó)運(yùn)動(dòng)控制直驅(qū)技術(shù)產(chǎn)業(yè)發(fā)展高峰論壇暨頒獎(jiǎng)典禮在深圳召開。匯川技術(shù)驅(qū)動(dòng)產(chǎn)品線營(yíng)銷總監(jiān)郭廣東

2023-12-26 16:07:16
寶驪為意大利機(jī)械“高手”打造全新搬運(yùn)車隊(duì)

凱傲寶驪電車專家,以新一代電動(dòng)平衡重叉車以及電動(dòng)托盤車等多元產(chǎn)品,為意大利知名高空平臺(tái)制造高手Socage提供了高效的物料搬運(yùn)解決方案。So

2023-12-26 15:32:27
優(yōu)化軸承性能：球軸承的表面質(zhì)量

在滾動(dòng)軸承的領(lǐng)域中，球體成為降低內(nèi)外圈摩擦阻力的主要元素，因而得名球軸承。要確保軸承的長(zhǎng)期理想運(yùn)行性能，表面質(zhì)量必須達(dá)到卓越水平。

2023-12-26 10:45:41
專訪指令集CEO 宋楊博士：堅(jiān)持創(chuàng)新驅(qū)動(dòng)...

隨著浙江創(chuàng)新深化大會(huì)的召開，2022年度浙江省科學(xué)技術(shù)獎(jiǎng)獲獎(jiǎng)名單出爐。杭州指令集智能科技有限公司參與研究的《聚合異構(gòu)算力資源的智能計(jì)算

2023-12-22 15:27:31
京東工業(yè)發(fā)布太璞數(shù)智供應(yīng)鏈解決方案 ...

近年來,隨著國(guó)內(nèi)外形勢(shì)的變化,供應(yīng)鏈安全對(duì)國(guó)民經(jīng)濟(jì)穩(wěn)定運(yùn)轉(zhuǎn)的影響愈發(fā)突出。打造有韌性的數(shù)智供應(yīng)鏈不僅是實(shí)體經(jīng)濟(jì)高質(zhì)量發(fā)展的必要條件,

2023-12-20 14:28:21
中信泰富特鋼（興澄特鋼）全球特鋼行業(yè)...

馭光前行！中信泰富特鋼（興澄特鋼）全球特鋼行業(yè)首家燈塔工廠發(fā)布

2023-12-20 13:03:58
全球特鋼行業(yè)首家！中信泰富特鋼入選全...

12月14日，世界經(jīng)濟(jì)論壇公布最新一批燈塔工廠名單，中信泰富特鋼旗下江陰興澄特種鋼鐵有限公司（簡(jiǎn)稱興澄特鋼）在全球上千家入選工廠中脫穎

2023-12-18 14:47:38
MACART馬牌機(jī)電落戶河南長(zhǎng)垣市，攜手打...

近日,全球領(lǐng)先的智慧搬運(yùn)設(shè)備制造商MACART馬牌機(jī)電宣布,經(jīng)過長(zhǎng)時(shí)間的洽談,公司決定在中國(guó)河南省長(zhǎng)垣市投資建設(shè)新的生產(chǎn)基地,以滿足全球市場(chǎng)

2023-12-15 13:46:50
柯馬為蜂巢傳動(dòng)部署高效混動(dòng)專用變速器...

● 柯馬開發(fā)并部署了一條大批量自動(dòng)化生產(chǎn)線,用于檸檬混動(dòng)DHT生產(chǎn)● 端到端解決方案可確保每條生產(chǎn)線的年產(chǎn)能達(dá)15萬臺(tái),同時(shí)控制生產(chǎn)節(jié)拍

2023-12-14 14:04:35
尼得科儀器株式會(huì)社開發(fā)出適用于真空環(huán)...

尼得科株式會(huì)社的集團(tuán)公司尼得科儀器株式會(huì)社(舊日本電產(chǎn)三協(xié))開發(fā)出了能夠在真空環(huán)境下工作的液晶基板搬運(yùn)機(jī)器人,該機(jī)器人具有與在大氣環(huán)

2023-12-11 16:05:38
博威合金出席第三屆中國(guó)互連技術(shù)與產(chǎn)業(yè)...

2023年12月8日，以大數(shù)據(jù)、人工智能時(shí)代的高速互連技術(shù)為主題的第三屆中國(guó)互連技術(shù)與產(chǎn)業(yè)大會(huì)，在無錫盛大舉辦！大會(huì)由CCITA聯(lián)盟、深圳市連

2023-12-11 10:49:25
直擊匯川技術(shù)生態(tài)鏈雙選會(huì)南昌站｜恰同...

12月2日上午，匯川技術(shù)生態(tài)鏈人才雙選會(huì)在江西軟件職業(yè)技術(shù)大學(xué)順利舉辦，共計(jì)15家匯川技術(shù)生態(tài)鏈企業(yè)、43名在前期培訓(xùn)與考核中脫穎而出的

2023-12-08 09:59:21
直擊匯川技術(shù)生態(tài)鏈雙選會(huì)南昌站｜恰同...

12月2日上午，匯川技術(shù)生態(tài)鏈人才雙選會(huì)在江西軟件職業(yè)技術(shù)大學(xué)順利

2023-12-07 19:06:44
抵達(dá)廣東！“匯川號(hào)”為“制造之都”賦...

東莞，加工出奇跡有家就有佛山造……廣東制造業(yè)的發(fā)達(dá)程度，從市面上流傳的打趣話語中便可一窺究竟。近日，匯川技術(shù)智能制造領(lǐng)先...

2023-12-06 16:31:33
《中國(guó)品牌檔案》聚焦地下安全的守護(hù)者...

《中國(guó)品牌檔案》聚焦地下安全的守護(hù)者——新能正源12月5日，《中國(guó)品牌檔案》推出名為《地下安全的守護(hù)者》的紀(jì)錄片，深入探訪一家國(guó)家...

2023-12-06 10:02:42

全球

經(jīng)濟(jì)

以“釘釘子”精神答好鄉(xiāng)村振興“必答題”
2023-09-12
鄉(xiāng)村振興有效銜接考核評(píng)估反饋問題整改工作開展以來，海東市樂都區(qū)把整

好生活在“路”上好日子甜心上
2023-09-12
村民送水給施工人員。收邊。運(yùn)輸混凝土。施工現(xiàn)場(chǎng)。施工現(xiàn)場(chǎng)。農(nóng)村道路

全省公安機(jī)關(guān)重拳打擊“兩卡”違法犯罪行為
2023-09-12
青羚網(wǎng)訊9月1日至10日，省公安廳在全省范圍內(nèi)組織開展“百日破案攻堅(jiān)”

要聞

查看更多新聞

關(guān)注

器械

1
/ 螺旋測(cè)微器有哪些分類？螺旋測(cè)微器是否...
2
/ 鏜床主要用于哪些領(lǐng)域？鏜床和銑床的區(qū)...
3
/ X射線熒光光譜儀有哪些種類？X射線熒光...
4
/ 氣動(dòng)元件有哪些應(yīng)用？氣動(dòng)快速接頭的連...
5
/ 消防泵怎么維護(hù)保養(yǎng)？消防泵房里都有哪...
6
/ 熱風(fēng)爐的工作原理是什么？熱風(fēng)爐屬于鍋...
7
/ 能耗計(jì)量系統(tǒng)適用于哪些領(lǐng)域？什么是能...
8
/ 探測(cè)器有哪些分類？紅外探測(cè)器是干什么...
9
/ 鑿巖機(jī)的工作原理是什么？液壓鑿巖機(jī)的...
10
/ 視覺傳感器的工作原理是什么？傳感器分...

南棲仙策提出新型環(huán)境特征編碼器學(xué)習(xí)算法，有效提升環(huán)境識(shí)別的泛化能力