この前のSOMからHMMのパラメータ学習はやめ。
バッチ学習してるらしい。ちゃんと読めよ。というか翻訳してるときに気づけよ。
やっぱ逐次学習でしょ。うん。
オフライン学習とか面白くないし。
で、強化学習へ。
どっちにしてもロボットを動かそうと思ったらまず強化学習だし。
今はBESOMとHTMの合成を考えてるわけだけど、どっちもベイジアンネット。
というわけでベイジアンネットに使える強化学習を探してみた。
山村雅幸:“Bayesian Network 上の強化学習”,第 24 回知能システムシンポジウム,. pp.61-66,(1997)
これ読みたい。でもネット上に落ちてない。論文取り寄せとかしたことない。
しかたないから
山村研究室にあった
修士論文でガマン。
これでも十分にわかる。かなりよい。
これでBESOMの強化学習の部分いけるんじゃないかな?
以前からCPTは強化学習の対象になると思ってたけど、Q-Tableで考えてた。
まさかactor-criticだとは。でも、こっちのほうがいい感じ。
すごいね、山村先生って。
[0回]
PR