Miyamoto
1 はじめに
この記事では強化学習における手法の一つであるDDPGについて紹介します。対応するワードはDQNやQテーブルなどです。これらと並列の単語として、DDPGが存在します。
Deep Deterinistic Policy Gradientの略で、その名の通り決定論的(Deterministic)(Policy Gradient)を、深層ニューラルネット(Deep)で行います。
DQN(Deep Q Network)については解説しません。DQNについては下記リンクをご覧ください。
確率要素のない。
2 方策勾配について。DQN等との比較
DQNなどでは、状態行動価値関数と方策関数はひとまとめにされていました。すなわち、
(1)
という形で方策関数が定義されました。すなわち関数の構成が即方策関数の構成になっていたわけです。しかし、方策勾配型は異なります。
という関数を、行動ごとの確率が出力される関数ではなく、という、行動(今回は決定された値段)し、何らかの手段(一般的には深層ニューラルネット)を用いて構成します。
2.1 DDPGにおけるランダム性
リンクでも解説した通り、強化学習においては、ランダムな行動決定の導入が必要となります。これを探索という。DDPGにおける探索は、毎回生成した正規乱数を使います。
(2)
はあらかじめ固定しておいた数字です。ややくらいがおすすめです
2.2 学習について
関数の更新についてはリンクをご覧ください。DQNと同じく関数を更新していきますが、今回は と独立したという関数を用意したため、こちらについても更新をしていく必要があります。最大化したいのは当然 値
(3)
ですので、 関数を利用して更新していきます。
のパラメータをと置きます。通常の回帰や分類問題は、これを損失関数という、パラメータの悪さを評価する関数と学習率を用いて
(4)
という形でパラメータを更新していきます。これは数学的な感覚になってしまうのですが、が小さくなる方向に関数を更新していきます。
一方で、この方策関数のパラメータを更新するときはという、のよさを評価する関数を用いて、
(5)
という形で更新していきます。これは上の逆で、が大きくなるようにパラメータを更新していきます。
累積報酬和の期待値。
GANと同じように交互に二段階最適化していきます。
(分類問題などでは悪さを評価するのに、強化学習では良さを評価するのは、タスクの特徴によって、それぞれ悪さと良さを評価しやすいからです。
2.21 J の構成について
パラメータの良さを評価する関数については、最大化したいタスクに合わせて構成します。
今の状態をとして
(6)
とするのが妥当でしょう。
2.21 方策勾配定理
実際に勾配を計算するときは、この定理を使います。
定理1 方策勾配定理
(7)
この期待値というのはReply Memoly などの確率要素に対するものです。ぱっとみただの連鎖律ですが、確率要素が入るため結構ややこしくなります。
3 専門:方策勾配定理について
方策勾配定理について、いくら調べてもろくな証明が出てこなかったので、我々が自力で証明しました。
たぶんこれは見つけられなかっただけであり、すでに厳密な証明がされているはずなので、関数収束に関する論文のふろくにおまけという形で書いています。[2]
国際学会IDS-2020 に弊社が出したこの論文が採択されました!
定理2 方策勾配定理の厳密な証明
関数とはニューラルネットによる構成をされているものとする。すなわち
(8)
ただし は行列。 はベクトル、 は活性化関数であるとする。
、 も別 のを用いて同様の定義がなされているものとする。このとき、次が成り立つ。
(9)
ルベーグ積分論に基づく実解析の見地から厳密な証明を行いました。ぜひご覧ください。
ニューラルネットで実装が行われているということが重要。これにより入力や各パラメータに対して、各々の関数がリプシッツ連続になります。ここが証明のカギ。
4 弊社における取り組み

throough(スルー)
弊社ソフトウェアthroough(スルー)に、このDDPG の技術を用いた強化学習アルゴリズムを準備中です。このDDPG を用いることにより、1円単位での値付けが可能となります。
DQN と比べて大きなメリットは「ネットワークが順番を認識できる」という点にあります。
例えば、100円と120円と140円という選択肢があったとして、DQN では100円と120円、100円と140円の差の違いを認識できませんが、DDPG はそれを認識して最適化することができます。
参考文献
[1] Timothy P Lillicrap, Jonathan J Hunt, Alexander Pritzel, Nicolas Heess, Tom Erez, Yuval Tassa,
David Silver, and Daan Wierstra. Continuous control with deep reinforcement learning. arXiv preprint
arXiv:1509.02971, 2015.
[2] Konatsu Miyamoto, Masaya Suzuki, Yuma Kigami, Kodai Satake,Convergence of Q-value in case of Gaus-
sian rewards,arXiv preprint arxiv:2003.03526,2020