Ryukoku University
Faculty of Science and Technology
Department of Electronics and Informatics
Wataru UEMURA
Sitemap

Main Menu
矢印メインメニュー
矢印ログイン
ユーザ名:

パスワード:


パスワード紛失

新規登録
Informatiom

理工ジャーナル-「人工知能」の研究とは?: Profit Sharing法  
執筆者: wataru
発行日付: 2006/12/14
閲覧数: 10374
サイズは 1.42 KB
印刷用ページ 友達に教える
 
強化学習の中でも,Profit Sharing法と呼ばれる学習方法に魅力を感じました.硬い説明としては,目標状態に至るまでの行動選択をエピソードと呼び,目標状態に到達したときに得られる報酬$r$を,それまでのルールに割り振ることで選択確率を高め,ゴールに到達できるルールを強く選択する(=学習する)方法です.

実は,この一連の流れは,「餌付け」の作業に類似しています.ねずみが迷路を走行し,ゴールに着いた時に餌を与えます.すると,ねずみはその経路を覚え,何度か試行し学習することで,素早くゴールに到達できるようになります.そう.Profit Sharing法は,生体の知的作業にかなり類似しています.

幸いなことに,私が最初に興味を持った強化学習がProfit Sharing法でした.しかし,強化学習の代表的な手法は,Q-Learningと呼ばれる手法であり,Profit Sharing法とはかなり本質の異なる方法でした.Q-Learningでは,将来的に獲得できる期待報酬値を各ルールの価値として定義し,何度も思考することで,各ルールの価値が期待値に近づくように更新をします.簡単に分類すると,強化学習の王道のQ-Learningなどの手法では,「将来,どれだけの報酬が得られるか」を求めようとし,Profit Sharing法では,「今まで,どれだけの報酬が得られたか」を基に行動を選択する方法となります.Q-Learningでは,将来の獲得報酬値を得ようとしますので,条件がそろえば,最適解を学習することができます.それに対して,Profit Sharing法では,過去の経験にのみ目を向けているため,獲得した解の最適性は保証されません.ただし,今までの経験から,よい行動選択を考えますので,確実性が高く,学習の立ち上がりが早いという特徴があります.
 
評価された記事: 0.00 (0 件の投票)
このファイルの評価
カテゴリに戻る | カテゴリの一覧に戻る




Powered by XOOPS Cube 2.0 © 2005-2006 The XOOPS Project