關(guān)鍵詞:強化學(xué)習(xí) 水下滑翔蛇形機器人 馬爾可夫決策過程 循環(huán)神經(jīng)網(wǎng)絡(luò)
摘要:研究了一種強化學(xué)習(xí)算法,用于水下滑翔蛇形機器人的滑翔運動控制.針對水動力環(huán)境難以建模的問題,使用強化學(xué)習(xí)方法使水下滑翔蛇形機器人自適應(yīng)復(fù)雜的水環(huán)境,并自動學(xué)習(xí)僅通過調(diào)節(jié)浮力來控制滑翔運動.對此,提出了循環(huán)神經(jīng)網(wǎng)絡(luò)蒙特卡洛策略梯度算法,改善了由于機器人的狀態(tài)難以完全觀測而導(dǎo)致的算法難以訓(xùn)練的問題,并將水下滑翔蛇形機器人的基本滑翔動作控制問題近似為馬爾可夫決策過程,從而得到有效的滑翔控制策略.通過仿真和實驗證明了所提出方法的有效性.
機器人雜志要求:
{1}參考文獻必須在文中用[數(shù)字]標出對應(yīng)標號,參考文獻統(tǒng)一列在文后。
{2}著作類:作者(譯者)姓名、書名、出版地、出版社名稱、出版年份、頁碼(直接引文時標明)。論文類:作者姓名、文章名、所載報刊名稱、年份、期號、頁碼。
{3}如一旦發(fā)現(xiàn)一稿兩用,本刊將刊登該文系重復(fù)發(fā)表的聲明,并在3年內(nèi)拒絕以該文第一作者和通訊作者的任何來稿。
{4}論文題目應(yīng)當簡潔明了,反映論文的主旨。論文題目應(yīng)便于讀者檢索、轉(zhuǎn)抄和引用,中文題名不宜超過20個字;外文題名不超過10個實詞。不宜采用抒情意味、反問意味的主標題和副標題。
{5}任何來稿視為作者、譯者已經(jīng)閱讀或知悉并同意本須知約定。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社