強化学習　東裏通

この前のSOMからHMMのパラメータ学習はやめ。
バッチ学習してるらしい。ちゃんと読めよ。というか翻訳してるときに気づけよ。

やっぱ逐次学習でしょ。うん。
オフライン学習とか面白くないし。

で、強化学習へ。
どっちにしてもロボットを動かそうと思ったらまず強化学習だし。

今はBESOMとHTMの合成を考えてるわけだけど、どっちもベイジアンネット。
というわけでベイジアンネットに使える強化学習を探してみた。

山村雅幸：“Bayesian Network 上の強化学習”，第 24 回知能システムシンポジウム，. pp.61-66，(1997)

これ読みたい。でもネット上に落ちてない。論文取り寄せとかしたことない。
しかたないから山村研究室にあった修士論文でガマン。

これでも十分にわかる。かなりよい。
これでBESOMの強化学習の部分いけるんじゃないかな？

以前からCPTは強化学習の対象になると思ってたけど、Q-Tableで考えてた。
まさかactor-criticだとは。でも、こっちのほうがいい感じ。
すごいね、山村先生って。

[0回]