Skip to main content
エンジニア・ビジネスエンジニア向け数学シリーズ1

エンジニア・ビジネスエンジニア向け数学シリーズ1:確率論入門

Miyamoto


1 はじめに

この記事では、一般的な機械学習エンジニアやビジネスエンジニア向けに、確率論の入門解説を行いたいと思います。

前提知識は、大学理系教養レベルの確率統計の計算です。「確率密度関数の計算なんかはできるけど、これが何者なのかわからない」「測度諭が実は必要と聞くけど、よくわからない」といった方向けの記事です。

1.1 測度論的確率論は、機械学習に必要なのか

この問題は、2017頃からtwitter などで度々議論される問題です。

これについて、機械学習の数学的研究を生業にしている私から明確に言わせていただくと、「人による」といった結論になります。

どのレベルで機械学習をやりたいのか、によって、結論は大きく変わってきます。

1.1.1 機械学習の数学的研究をしたい人

必須です。手足のように自由自在に扱えなければ、正直言ってお話にならないと言えるでしょう。

よほど狭い領域を扱うのでない限り、完璧に身に着けていなければ問題外です。

1.1.2 自分で研究したいわけではないが、そういった研究にも興味は持っている人

きっちり学んで、きっちり習得したほうがいいのは間違いないですが、やんわりと雰囲気を掴むだけでも、数学的研究の世界を覗いてみることはできるでしょう。

1.1.3 数学的研究に興味がない人

特に必要ありません。個人的には、学んでおくと見識が広がると思いますが、その程度です。

興味をお持ちの方は、ぜひ学んでみてください。勉強しているうちに、数学的研究にも興味が出てくる可能性もあるでしょう。

1.2 集合の基礎

本記事で用いる集合論の記号について、高校レベル+アルファですが、復習しておきましょう。

まず集合とはなにか、それは「ものの集まり」です。

集合の具体例としては、

  • 社員リスト:A さん、B さん、C さん、……
  • 買い物リスト:人参、玉ねぎ、カレールー、……
  • 駅の名前:梅田、中津、十三、豊中、蛍池、石橋、池田、雲雀丘花屋敷、……

おおむね、「〇〇リスト」と呼べるものは、集合であると言えます。配列のように、順番が決まっているものは「順序集合」といいます。

配列はすべて集合と見做せます。空の配列も配列であるように、中身の何もないものも、集合であると言え、これを「空集合」と呼び、\(\phi\)と呼びます。

ある要素\(a\)が集合\(A\)に含まれるとき\(a \in A\)と書きます。例えば、上の買い物リストという集合なら、玉ねぎ\(\in\)買い物リストというわけです。

集合\(A\)の要素がすべて集合\(B\)に含まれるとき、\(A\)は\(B\)の部分集合といいます。

では、パソコンで言う二次元配列のようなものはどうでしょうか。これも当然集合なのですが、集合族という別の呼び方があります。

これは例えば集合のリスト、といえばわかりやすいでしょう。\(^{\ast 1}\)
さらに、集合\(X\)の部分集合ばかりが集まった集合族を、\(X\)の部分集合族といいます。


\( ^{\ast 1} \)集合族は集合の集合、といえばわかりやすいのですが、厳密にはこれは不良設定となってしまいます。

1.2.1 部分集合族の具体例

集合\(X\)を、ある2年B組の生徒名簿とします。生徒は\(a\)さんから\(z\)さんまでいるとしましょう。
そして、集合\(A,B,C,D,E\)を、それぞれ「美化委員」「文化祭実行委員」「学級委員」「風紀委員」「保健委員」とします。

文化祭実行委員だけは、その任期の短さから、他の委員と兼任できるとしましょう。

そしてそれぞれのメンバーを

\(A:d,e,o,y\)
\(B:p,t,s\)
\(C:l,q,w,z\)
\(D:\phi \)
\(E:t,n,m\)

・\(A:d,e,o,y\)
・\(B:p,t,s\)
・\(C:l,q,w,z\)
・\(D:\phi \)
・\(E:t,n,m\)

\(t\)さんはとてもエネルギッシュな生徒で、保健委員でありながら文化祭実行委員も兼任しています。

風紀委員はその嫌われぶりから成り手がおらず、このクラスの名簿では空集合、つまり該当する生徒なしとなっています。\(^{\ast 2}\)

さて、ここでクラス委員のリスト\(\{A,B,C,D,E\}\)を考えてみましょう。これは、クラス名簿\(X\)の部分集合族です。

それぞれの集合同士の要素が被っていてもいいですし、空集合が存在してもかまいませんし、どの集合にも入らない生徒がいても構いません。\(^{\ast3}\)

ここで注意していただきたいのが、各生徒は部分集合族には含まれないということです。

\(E \in\)クラス委員リスト で、\(n \in E\)ですが、\(n \in \)クラス委員リストではありません。クラス委員リストとは、あくまで「各委員のメンバーの集合」であって、属する生徒の集合ではないからです。\(^{\ast 4}\)

さらに、集合の合算を考えます。\(A \cap B\) で、\(A\)か\(B\)どちらかに含まれる人のリスト、となります。つまり、\(A \cap B\)に含まれる生徒は、\(d, e, o, p, t, s, y\)となります。

次に、集合の共通部分を考えます。\(A \cup B\) で、\(A \)にも\(B\)にも含まれる人の集合となります。そのような生徒は存在しないので、\(A \cup B = ϕ\)です。\(B \cap E\)に含まれる生徒は\(t\)のみです。


  • \( ^{\ast 2} \)現実的には先生が誰かに押し付けるのでしょうが、部分集合族の説明のためになり手がいないクラスからは輩出しないことにします。
  • \( ^{\ast 3} \)現実的にそういったことが許される学校が存在するのかどうかはわかりません。これも部分集合族の説明をするための設定です。
  • \( ^{\ast 4} \)例えば美化委員が\(d\)さん一人であったとしても、\(d \in \)クラス委員リスト ではありません。「\(d\)さんという一人の生徒」と、「\(d\)さんのみを要素に持つ集合」は数学的には別物だからです。

2 確率空間の定義

上記の集合論を踏まえて、確率空間の定義、そのために必要な三要素の解説を行っていきましょう。

2.1 \(\Omega\):標本空間

いきなり三つの中で一番説明も理解も難しいものが出現しましたが、後の二つは先にこれがないとどうにもならないので仕方ありません。

\(\Omega\)は何かしらの集合です。集合であればなんでもいいです。自由度が高すぎて、初心者の方には逆にわかりにくいでしょう。

なんなら、それで意味のある数学的議論ができる状況であれば、先ほど出てきた駅名やクラス名簿などでも構いません。


2.2 \(\mathcal{F}:\sigma-\)加法族

\(\Omega\)のどんな集合でもその確率を計算することができるかというと、必ずしもそうではありません。そこで\(\mathcal{F}\)は、確率が計算できる集合の集まりであるとします。

これは\(\Omega\)の部分集合族です。部分集合族であればなんでもいいかというとそうではなく、次の3条件を満たす必要があります。

\(\mathcal{F}\)がこれらを満たすとき、これをσ加法族といい、この要素を可測集合といいます。

2.2.1 条件1全体集合

\(\Omega \in \mathcal{F} \)である必要があります。

これは、のちに確率測度の場で解説しますが、「全体の確率は1 固定だから」です。
これは確定しているので、この集合は必ず値が図れます。

2.2.2 条件2補集合

\(A \in \mathcal{F}\)なら\(A^c\mathcal{F}\)です。\(c\)はコンプリメントという記号で、\(X\)の要素のうち、\(A\)に入らない要素の集合です。

\(A\)である確率が例えば0.4 とわかったら、\(A\)でない確率は必然0.6 と確定します。そのため、\(A\)が\(\mathcal{F})\)に入らないのはおかしいのです。

上の全体集合が可測という性質から、\(\phi\)も可測になります。

2.2.3 条件3可算和可測性

\(\mathcal{F}\)の要素に番号をつけましょう。

\(A1,A2,……\)はすべて\(\mathcal{F}\)の要素です。

この時、それらすべての\(\cup\)、\(A_1 \cup A_2 \cup A_3…..\)は\(\mathcal{F}\)の要素です。

このすべての和集合を、\(\cup_{n=1}^\infty A_n\)と書く事にします。\(\Sigma\)の集合バージョンです。

2.2.4 可測集合の共通部分は可測

とても重要な性質です。つまり、\(B,C\)が可測集合なら、\(B \cap C\)も可測集合です。ぱっとみ、上の条件とは関係なさそうですが、上の条件を満たすならこれも満たされることが証明できます。

\(A_1 = B^c,A_2=C^c,n\)が3以上の時は、\(A_n = \phi \)とすると、条件3から\(B^c \cap C^c\)が可測であることがわかります。

こへ条件2を使うと、ドモルガンの定理\(^{\ast 5}\)から\(B\cap C\)も可能です。

2.3 P:確率測度

次に、\(\mathcal{F}\)から実数\(\mathbb{R}\)への写像を考えます。

写像とは要するに、集合と集合の間の橋みたいなもので、formのほうの写像を定義域、toのほうの集合を値域といいます。

すなわち定義域の要素を一つ入れたら、値域の要素が一つ出てきます。値域が関数や数字などの場合、このような写像を「関数」といいます。

すなわち、ある可測集合\(A\)に対して、\(0\)から\(1\)のある数字が決まるような関数の中で、次の\(2\)条件を満たす\(P\)を「確率測度」といいます。

2.3.1 条件1全確率は1

数式で書くと、\(P(\Omega) = 1\)です。

例えば、ニュースで「犯人の年齢は50 歳以下、もしくは50 歳以上」といった曖昧過ぎる推測を見たことはないでしょうか。

「そんなの当たるに決まってるだろ!」と言いたくなる人もいるでしょう。

その通りです。「犯人は全人類の中にいる!」といえば、確率1で当たります。
そういった当たり前すぎることを言っているのが、この定義です。


\( ^{\ast 5} \)数学Aで習うやつです。

2.3.2 条件2可算加法性

可測集合\(A1,A2,……\)に対して、\(i=j\)でないなら

\(A_i \cap A_j=\phi\)とします。

この\(\Sigma ^{\infty} _{n=1} P(A_n) = P(\cup ^\infty _{n=1} A_n) \)が成り立つ。\(^{\ast 6}\)

これもすごく当たり前のことで、かみ砕くと「同時に起こりえない事象同士のどちらかが起きる確率はそれぞれの確率の和」と言っているだけです。

例えば、サイコロの「6が出る確率」は1/6 で、「奇数が出る確率」は1/2 です。

どちらも同時には起こらないので、「6か奇数が出る確率」はそのまま足し合わせて2/3 です。

条件1がなく、条件2のみを満たすとき、これを「確率測度」ではなく「測度」といいます。\(P\)とは書かず、\(m\)や\(\mu \)と書くことが多いです。


\( ^{\ast 6} \sigma\)加法族の条件3から\(\cup^\infty_{n=1}A_n\)は可測です。

2.4 確率空間

ここまでに定義した\((\Omega,\mathcal{F},P)\)のタプルを、「確率空間」といいます。

また、確率測度ではなく測度の場合、\((\Omega,\mathcal{F},\mu\))のことを、「測度空間」といいます。

2.5 確率変数

この確率空間の上で、確率変数\(X\)というものを定義しましょう。

\(\Omega\)から実数への写像を、可測性の条件を満たすとき「確率空間\((\Omega,\mathcal{F},P)\) 上で定義された確率変数」といいます。

可測性というワードは先ほど\(\Omega\)の部分集合に対しても出てきた単語です。写像・関数に対する可測性の定義は次のようになります。

定義1 可測関数

\(\Omega\)から実数\( \mathbb{R} \)への写像\(X\)で、次の条件を満たすとき、可測関数という。

任意の\(x \in \mathbb{R}\)に対して、


(1)

\[\{ \omega:X (\omega) \leq x\} \in \mathcal{F}\]


つまり、「\(X(\omega) \)が\(x\)以下になるような\(\omega\) の集合」が、どんな\(x\)に対しても可測集合になるなら、そのような\(X\)のことを可測関数といい、確率空間上で定義された可測関数は、確率変数といいます。

2.6 どうしてこんな定義が必要なのか

ここまで読まれた方は、なんでこんなめんどくさい定義が必要なのか、と思われたかもしれません。もっと簡単に扱えないのかと

もちろん、そういった状況も数多くあります。一方で、ここまでめんどくさい定義をしなければ、数学的にちゃんと扱えない状況が多々あるのもまた、事実なのです。

それを見るために、簡単な確率空間を考えてみましょう。

2.6.1 確率空間の例

まず、\(\Omega\)として、[0,1]を置きます。これは、「0 以上1 以下の実数」という意味です。\(^{\ast 7}\)

次に\(\mathcal{F}\)を、\(B[0,1]\)とします。これは、\(\Omega\)の開区間をすべて最小の\(\sigma\)加法族です。\(^{\ast 8}\)

測度P は、「区間の長さ」と定義します。\(^{\ast 9}\)

次に、確率変数\(X\)を\(X(\omega) = 2\omega + 1\)とします。

期待値・確率密度関数の厳密な定義は、次回行いますが、今回はとりあえず確率密度関数をお教えします。


(9)

f ( x ) = 1 2 1 [ 1 , 3 ] ( x )

\(1_A(x)\) は、\(x\)が\(A\)に含まれるときは1、それ以外は0 という関数で、定義関数といいます。これを使うと、期待値は2 だとわかります。

確率密度関数とは、「確率変数から生成される確率測度と、ルベーグ測度のラドンニコディム導関数」というのが本来の定義です。

確率密度関数を使う事例では、実はすべてこのような確率空間の理論の恩恵を受けています。


  • \( ^{\ast 7} \)このような無限集合の場合こそが、このような難解な定義が活きる状況です。
  • \( ^{\ast 8} \)ここの詳しい解説は次回以降。

3 次回予告

次回は位相空間や生成される\(\sigma\)加法族、ルベーグ積分の簡単な解説を行い、最後には確率密度関数をちゃんと定義するところまで行こうと思います。

この記事をシェアする