NAIST Robotics Laboratory

DCOB: 高自由度ロボットの運動学習ための行動空間

強化学習手法は,報酬(目的)関数によって表現された目的のみから,ロボットが自律的に行動を獲得することを可能にします.しかしながら,ヒューマノイドのような高次元の制御入力空間への対処は,未解決問題のひとつです.

この研究のねらいは,ロボットが高速に高パフォーマンスな動作を学習できる,強化学習手法にとって最適な行動空間を開発することです.

私たちは,DCOBという離散行動集合を提案しました.DCOB は “an action Directed to the Center Of a Basis function”(基底関数の中心に向かう行動)を意味します.DCOB は価値関数を近似するために与えられた基底関数の集合から生成されます.DCOB は離散集合ですが,高いパフォーマンスの動作を獲得できます.

跳躍の学習


シミュレーション上のヒューマノイドロボットの跳躍タスクに DCOB を適用しました.強化学習手法としては,Peng の Q(λ)-learning を用いました.

学習の初期段階では,ロボットはランダムに振る舞います.これは,スクラッチ(事前知識を与えない)から学習したからです.


学習後,ロボットは跳躍を獲得できました

匍匐(ほふく)の学習


学習前:


学習後:

実ロボットの匍匐


ROBOTIS社製のBioloidの匍匐学習に適用した例です.

この動画は学習段階です.ロボットは同様にスクラッチから学習します(シミュレーションなし).


学習後,ロボットは匍匐の獲得に成功しました(約30分ほどです).


ほかの視点から:

メンバー


  • 山口明彦


主要関連論文


  • 山口 明彦, 高松 淳, 小笠原 司: 強化学習によるロボットの動作獲得のための基底関数に基づく行動空間生成手法, 日本ロボット学会誌, Vol.29, No.1, pp.55-66, 2011.
  • 山口 明彦, 高松 淳, 小笠原司: 強化学習によるロボットの動作獲得のための基底関数に基づく行動空間生成手法DCOB —実機多自由度ロボットの匍匐動作への適用—, 日本機械学会ロボティクス・メカトロニクス講演会2010(ROBOMEC2010), 2P1-G10, 旭川, 2010年6月.
  • Akihiko Yamaguchi, Jun Takamatsu, and Tsukasa Ogasawara: Constructing Action Set from Basis Functions for Reinforcement Learning of Robot Control, in Proceedings of the 2009 IEEE International Conference on Robotics and Automation (ICRA2009), pp.2525-2532, Kobe, Japan, May, 2009.