Miyamoto 1 はじめに この記事では、一般的な機械学習エンジニアやビジネスエンジニア向けに、確率論の入門解説を行いたいと思います。 前提知識は、大学理系教養レベルの確率統計の計算です。「確率密度関数の計算なんかは […]
カテゴリー: ブログ
実店舗型小売店における電子棚札及びダイナミックプライシングの事例と考察
1 はじめに 今回は、実店舗での販売における、ダイナミックプライシングと、その導入に必要不可欠な電子棚札について、事例紹介および考を行います。 2 ダイナミックプライシングの意義 2.1 原始的なダイナミックプライシング […]
連続時間強化学習(中編)
Miyamoto 1 はじめに 今回は、予告通り連続時間強化学習の続きを解説します。非常に難易度が高くなってしまいました。前回難解なと言っていたPOMDPよりも遥かに上であると言えるでしょう。 確率解析の修士の学生のうち […]
DQN (Deep Q Network)を用いた陣取りゲームAIの学習について
Takahashi Section1 はじめに(背景と目的) 弊社で開発したDQN (Deep Q Network)アルゴリズムを「陣取りゲーム」を用いて検証した 。 本取り組みで用いた「陣取りゲーム」について 下図のよ […]
深層強化学習を利用したオンラインショッピングにおけるダイナミックプライシング
Masanari Kida 本記事について ダイナミックプライシングをオンラインショッピングに導入した事例について、論文が発表されています。今回はそれについて解説していきたいと思います。 論文名:Dynamic Pric […]
強化学習(DQN)のゲームへの応用
kanou はじめに 今回は強化学習の⼿法DQN(Deep Q Network)を使ってゲームAI をつくり、強化学習がどのようなものなのかを説明したいと思います。 DQN についての詳細な説明に関しては下記のリンクを参 […]
【論文投稿のお知らせ】弊社の宮本研究員の論文”Convergence of Q-value in case of Gaussian rewards”が、国際会議IDS-2020(The 4-th International Conference on Intelligent Decision Science)に採択されました。
Miyamoto 1 はじめに 以前、弊社ニュースにて報告させていただきました、arXivにプレプリントをアップロードしていた論文[1]が、国際会議IDS-2020に採択されました。\(^{\ast 1}\) そのため、 […]
連続時間強化学習(前編)
Miyamoto 1 はじめに 今回の記事では、[1] を基盤として連続時間の強化学習(IRL)について取り扱います。 その名の通り、時間軸を離散ではなく連続でとらえるもので、\([0, T]\) 上で定義されます。 で […]
throough(スルー)に導入予定の深層強化学習 DDPG (Deep Deterinistic Policy Gradient)の解説
Miyamoto 1 はじめに この記事では強化学習における手法の一つであるDDPGについて紹介します。対応するワードはDQNやQテーブルなどです。これらと並列の単語として、DDPGが存在します。 Deep Deteri […]