強化学習を用いた食品ロス削減について - ダイナミックプライシングテクノロジー developers lab

Miyamoto

コンテンツ

1 はじめに

世界におけるダイナミックプライシングの事例として、イスラエル企業が行っている、食品ロスを改善するためのダイナミックプライシングについて紹介し、最後に弊社が導入中の事業についてお話します。

2 食品ロス問題

この章では、消費者庁消費者政策課の平成30年6月21日版資料をもとに、食品ロス問題について簡単に解説します。

2.1 世界における食品ロス問題

世界の年間食料廃棄量は13億トン。これは、人間が食べるために作られた食料の30 ％を超えており、世界の貧困や飢餓に苦しむ人たちが必要とする量を遥かに上回ります。食品が適切に割り当てられれば、飢餓問題はなくなります。

また、世界の人口は2050年には97億人になると考えられており、ますます無駄にできなくなります。

2.2 日本における食品ロス問題

日本における食品ロスは646万トン。\(^{\ast1}\)そのうち、事業系廃棄物が357万トンで、家庭系廃棄物は289万トンに登ります。

この記事で解説したいダイナミックプライシングの事例は、この事業系廃棄物のうち、「売れ残り」の問題です。\(^{\ast2}\)

賞味期限が切れた商品は、原則として販売できません。\(^{\ast3}\)

2.2.1 賞味期限と消費期限

賞味期限とは「品質（おいしさ）の保証期間」で、消費期限とは「安全性の保障期間」です。そのため、賞味期限は少しくらいオーバーしても全く問題ありませんが、消費期限を過ぎたものは食べてはいけません。

3 世界のダイナミックプライシングによる事例

売れ残り破棄を防ぐための値下げは、古くより行われてきました。これを読んでくださる皆様も、夜のスーパーで一枚ずつ「半額」といったシールを貼っていく店員さんをご覧になられたことがあるでしょう。

あれも、極めて原始的ながら、「食品ロスを防ぐためのダイナミックプライシング」です。

店側からすると、過剰な値下げのリスクや廃棄コスト\(^{\ast4}\)を下げることができ、消費者は需要がないであろう日や時間に行くことで安く手にすることができます。

しかし、現状だと適当に決めた価格を適当に適応していっているだけで、この記事で紹介する事例は、需要に合わせ、AI の力を用いて細かい単位（理想は1 円単位）での値付けを行うという話です。

\(^{\ast1}\) 可食部分だけの数字。豚の骨やミカンの皮といった、食べられない食品廃棄物はカウントされない数値です。それらも含めると年間2842万トン
\(^{\ast2}\)イレギュラーな形になった野菜など、そもそも売れない商品については、現在日本でも広まりつつある「フードバンク」などの事業が貢献しているようです。
\(^{\ast3}\)実は法的には賞味期限書き換えなどの不正を行っていない限り、賞味期限切れ商品の販売自体問題ありません。ただし、それで食中毒のような問題が起きれば、消費者がたとえ賞味期限切れを承諾して買ったとしても、生産者・販売者の責任となります。そのため、原則としてどこの食品会社も小売店も、賞味期限切れは破棄というのが通例となっています。
\(^{\ast4}\)大型小売店の毎日のゴミ代は洒落にならない金額です。筆者は過去のスーパーでのバイトでふと尋ねたとき、帰ってきた金額の高さに驚嘆しました。

3.1 イスラエルの事例

イスラエルのWasteless社は、スペインで食品ロスを削減するために強化学習を用いたダイナミックプライシングの実証実験を行ったところ、食品ロスが33％も削減されたようです。

使われている手法は、公開範囲では「強化学習」という点のみであり、おそらく手法そのものは普通の強化学習で、特徴量や報酬設計が企業秘密であると考えられます。

3.2 日本における試験導入

日本では、経済産業省主導で食品ロス削減に取り組んでおり、その一環で食品のダイナミックプライシングも行われています。

今からやや1 年前、経済産業省のプロジェクトとして、都内五店舗\(^{\ast5}\)にて、電子タグを使用したダイナミックプライシングの実証実験が行われました。

対象店舗も対象商品も少ないため、まだ統計的な分析は行われていないようですが、店員さんの実感としては「対象商品は多めに入荷しても問題なく売れる」という声があるそうです。\(^{\ast6}\)

しかし、Wasteless 社とは異なり、単純に賞味期限を割引率で決定する、つまり店員さんが割引シールを張り付けていたものを電子化したに過ぎないと考えられます。強化学習はおろか、通常の教師あり機械学習すら使われていません。

4 弊社での取り組みについて

弊社のソフトウェアであるスルーに導入予定の「在庫処分モデル」は、主にこの食品ロス削減への応用に主軸を置いて開発を進めています。

具体的には、期日までに売り切ることを重視しつつ、過剰な値下げでの利益低下も防ぐことを念頭に置いております。

ここで、通常の強化学習と異なるポイントは「期待値よりもリスクの低さが大事」という点です。通常の強化学習は状態行動価値関数の定義からもわかる通り、積極的に期待値の最大化を狙っていきます。

しかし、実社会での応用は前々回の記事でも解説した通り、リスク回避のほうが重要になる場面も多々あります。適切な報酬を設計すればある程度対処できますが、このような精巧な報酬設計は職人芸に近く、限度があります。

弊社の株式会社ダイナミックプライシングテクノロジーでは、この「リスクを考慮した強化学習」を得意分野としております。

リスク回避のカギとなるのは「分布型強化学習」と呼ばれる手法で、累積報酬和の確率分布を丸ごと見ることで、リスクにも対応できるようにしています。

現在は「イプシロン-ゼロ」という、分布型強化学習を非常に簡単に行えるようになる手法も実践中です。うまくいったら論文を出す所存。続報をお楽しみに。

\(^{\ast5}\)ウェルシア御茶ノ水店、ミニストップ神田錦町三丁目店など
\(^{\ast6}\)常連客にはLINE で割引情報が通達される模様。電子タグだとこういうことが可能になります。

この記事をシェアする