Miyamoto
1 はじめに
以前、弊社ニュースにて報告させていただきました、arXivにプレプリントをアップロードしていた論文[1]が、国際会議IDS-2020に採択されました。\(^{\ast 1}\)
そのため、本記事ではこの論文の中身について、概要を簡易的にお話させていただきます。
【 論文 URL 】
https://arxiv.org/abs/2003.03526
【 国際会議 URL 】
\(^{\ast 1}\)採択のメールと共に、「各種締め切りや学会日程がすべて延期されます。詳細は追って連絡します」というメールが来て、それ以来一切音沙汰がありません。トルコは今大変みたいです。
2 論文でやったこと
2.1 既存研究について
(1)
\[||Q_{n}-Q^{*}|| \rightarrow 0 a.e.\]
これを証明する\(Q\)関数収束証明の歴史は古く、最初は1989年に出た[2]に始まります。最近だと広く理論解析をまとめた[3]といった論文があります。
これらに共通する問題点として、「即時報酬に\( L^\infty \)という条件を課している」という問題が挙げられます。すなわち、ある\(R_{\max}\)が存在し、
(2)
\[|X(s, a)| \leq R_{\max }\]
がなりたつ場合にしか言えません。
しかし、近年はベイズ論的な強化学習や、分布型強化学習の台頭、連続時間強化学習の登場などにより、報酬に正規分布を仮定したい状況が出てきます。
\(X\)が正規分布に従う時、\( R_{\max } = \infty \)となるので、これを用いた収束証明や誤差評価は通用しません。
3 今回の論文の内容
今回、我々の論文では、この制限を\(L^2\)空間にまで緩和し、厳密な証明を行いました。
\(L^2\)空間 とは 、関数解析学の基礎的な概念で
(3)
\[E\left[X^{2}\right]<\infty\]
が成り立つ確率変数の集合です。
正規分布を入れるだけならもっと厳しい条件を課していいのですが、なんだかんだ \(L^2\) まで緩めることができたので、 \(L^2\) まで拡張したという形で発表しました。
4 今後の展望について
今後やらねばならない点の一つに、[3]におけるDQNでの近似誤差を表す不等式の改良があります。
(4)
\[||Q^{*}-Q_{n}| | _{W} \leq C_{1} \cdot(\log n)^{\xi} n^{-\alpha}+C_{2} R_{\max }\]
これは先述の通り、正規分布を想定すると\( R_{\max } \)が無限大となり、意味を持ちません。より強い不等式を証明し、対応していく必要があります。
また、POMDPや分布型強化学習を統一的に扱う大理論や、飛躍型確率微分方程式・離散マリアヴァン解析を用いた連続時間強化学習の理論展開も研究しています。
次こそはCOLTやNeurlIPS,ICMLといったトップカンファレンスに通したいところ。続報をお待ちください。
参考文献
[1] Konatsu Miyamoto, Masaya Suzuki, Yuma Kigami, Kodai Satake,”Convergence of Q-value in case ofGaussian rewards”, arXiv:2003.03526
[2] Watldns, C.J.C.H. . Learning from delayed rewards. PhD Thesis, University of Cambridge, England. 1989
[3] Zhuoran Yang,Yuchen Xie,Zhaoran Wang,A Theoretical Analysis of Deep Q-Learning,arXiv preprintarXiv:1901.00137v2.2019