3. Sum Rule, Product Rule, and Bayes' Theorem

 

Sum Rule, Product Rule, and Bayes’ Theorem

확률은 논리적 추론(logical reasoning)이라고 생각할 수 있습니다. 6.1.1장에서 살펴본 확률의 규칙은 원하는 바를 충족하는 것으로부터 자연스럽게 따라옵니다. 8.4장에서 살펴볼 probabilistic modeling은 머신러닝 방법들을 설계하기 위한 원칙적인 토대를 제공합니다.

데이터와 문제의 불확실성에 대응되는 확률 분포가 정의되면, 오직 두 가지 기본적인 규칙, the sum rule과 the product rule 만이 있다는 것이 밝혀졌습니다.

식 (6.9)로부터 $p(\boldsymbol{x},\boldsymbol{y})$ 는 두 확률 변수 $\boldsymbol{x},\boldsymbol{y}$ 의 결합 확률(joint distribution) 입니다. $p(\boldsymbol{x})$ 와 $p(\boldsymbol{y})$ 는 이에 대응되는 marginal distributions 이고, $p(\boldsymbol{y}|\boldsymbol{x})$ 는 $\boldsymbol{x}$ 가 주어졌을 때 $\boldsymbol{y}$ 의 조건부 분포(conditional distribution) 입니다. 이산 확률 변수와 연속 확률 변수에 대한 marginal/conditional probability의 정의가 주어진다면, 확률 이론에서 2가지 기본 규칙을 표현할 수 있습니다.

Sum Rule

첫 번째 규칙은 sum rule 이며, 다음과 같습니다.

\[p(\boldsymbol{x}) = \left\lbrace\begin{align*} \sum_{\boldsymbol{y}\in\mathcal{Y}}p(\boldsymbol{x},\boldsymbol{y}) \qquad& \text{if }\boldsymbol{y}\text{ is discrete} \\ \int_{\mathcal{Y}} p(\boldsymbol{x},\boldsymbol{y})\mathrm{d}\boldsymbol{y} \qquad& \text{if }\boldsymbol{y}\text{ is continuous} \end{align*}\right. \tag{6.20}\]

위 식에서 $\mathcal{Y}$ 는 확률 변수 $Y$ 의 target space의 states 입니다. 위 식은 확률 변수 $Y$ 의 states 집합을 다 더한다는 것을 의미합니다. Sum rule은 marginalization property 라고도 알려져 있습니다. Sum rule은 joint distribution을 marginal distribution과 연결시킵니다. 일반적으로, joint distribution이 둘 이상의 확률 변수를 포함할 때, sum rule은 확률 변수들의 모든 부분 집합에 적용할 수 있고, 그 결과 잠재적으로 둘 이상의 확률 변수의 marginal distribution이 생성됩니다. 구체적으로 설명하자면, 만약 $\boldsymbol{x} = \lbrack x_1,\dotsc,x_D\rbrack^\top$ 일 때, 아래와 같이 marginal 을 얻을 수 있습니다.

\[p(x_i) = \int p(x_1, \dotsc, x_D)\mathrm{d}\boldsymbol{x}_{\backslash i} \tag{6.21}\]

위 식은 $x_i$ 를 제외한 모든 확률 변수에 대해 sum rule을 반복적으로 적용합니다. $\backslash i$ 는 $i$ 를 제외한 모든 것이라는 의미입니다.

Remark. Probabilistic modeling 많은 연산적 문제는 sum rule의 적용 때문입니다. 많은 변수나 state가 많은 이산 변수가 있을 때, sum rule은 일반적으로 고차원의 sum 또는 integral 을 수행하게 됩니다. 이러한 연산은 일반적으로 계산적으로 어려우며, 정확히 계산할 수 있는 다항식 시간 알고리즘이 알려져 있지 않습니다.


Product Rule

두 번째 규칙은 product rule 입니다. 이는 joint distribution을 conditional distribution을 아래의 식처럼 연관시켜 줍니다.

\[p(\boldsymbol{x},\boldsymbol{y}) = p(\boldsymbol{y}|\boldsymbol{x})p(\boldsymbol{x}) \tag{6.22}\]

Product rule은 두 확률 변수의 joint distribution이 두 개의 distribution으로 인수분해될 수 있다는 것을 의미합니다. 나누어지는 두 factor는 첫 번째 확률 변수의 marginal distribution $p(\boldsymbol{x})$ 와 두 번째 확률 변수의 conditional distribution $p(\boldsymbol{y}|\boldsymbol{x})$ 입니다. $p(\boldsymbol{x},\boldsymbol{y})$ 에서 확률 변수는 임의의 순서를 가지고 있으므로 product rule은 $p(\boldsymbol{x},\boldsymbol{y})=p(\boldsymbol{x}|\boldsymbol{y})p(\boldsymbol{y})$ 도 성립합니다.

정확하게는 식 (6.22)는 이산 확률 변수에 대한 PMF로 표현된 것입니다. 연속 확률 변수에서 product rule은 PDF(probability density functions)의 term으로 표현됩니다. 이는 6.2.3장에서 살펴봤습니다.


Bayes’ Theorem

머신러닝과 베이지안 통계(bayesian statistics)에서는 종종 다른 확률 변수를 관측이 주어졌을 때, 관측되지 않은 (잠재) 확률 변수를 추론하는 것에 관심이 있습니다.

관측되지 않은 확률 변수 $\boldsymbol{x}$ 에 대한 사전 지식(prior knowledge) $p(\boldsymbol{x})$ 과 $\boldsymbol{x}$ 와 두 번째 확률 변수 $\boldsymbol{y}$ 간의 어떤 관계 $p(\boldsymbol{y}|\boldsymbol{x})$ 가 있다고 가정해봅시다. 만약 우리가 $\boldsymbol{y}$ 를 관측하면, $\boldsymbol{y}$ 의 관측 값이 주어졌을 때 우리는 Bayes’ theorem 을 사용하여 $\boldsymbol{x}$ 의 몇 가지 결론을 이끌어낼 수 있습니다.

Bayes’ theorem (also Bayes’ rule or Bayes’ law) 는 아래와 같습니다.

\[\underbrace{p(\boldsymbol{x}|\boldsymbol{y})}_{\text{posterior}} = \frac{\overbrace{p(\boldsymbol{y}|\boldsymbol{x})}^{\text{likelihood}}\overbrace{p(\boldsymbol{x})}^{\text{prior}}}{\underbrace{p(\boldsymbol{y})}_{\text{evidence}}} \tag{6.23}\]

위 식은 다음과 (6.22)의 product rule을 통해서 얻은 결과 입니다.

\[\begin{align*} p(\boldsymbol{x},\boldsymbol{y}) &= p(\boldsymbol{x}|\boldsymbol{y})p(\boldsymbol{y}) \tag{6.24} \\ p(\boldsymbol{x},\boldsymbol{y}) &= p(\boldsymbol{y}|\boldsymbol{x})p(\boldsymbol{x}) \tag{6.25} \end{align*}\] \[p(\boldsymbol{x}|\boldsymbol{y})p(\boldsymbol{y}) = p(\boldsymbol{y}|\boldsymbol{x})p(\boldsymbol{x}) \Longleftrightarrow p(\boldsymbol{x}|\boldsymbol{y}) = \frac{p(\boldsymbol{y}|\boldsymbol{x})p(\boldsymbol{x})}{p(\boldsymbol{y})} \tag{6.26}\]

(6.23)에서 $p(\boldsymbol{x})$ 는 prior(사전 확률) 이며, 어떤 데이터를 관측하기 전에 관측되지 않은 (잠재적인;latent) 변수 $\boldsymbol{x}$ 의 주관적인 사전 지식(prior knowledge) 입니다. 의미있는 어떠한 prior를 선택할 수도 있지만, 드물더라도 all plausible $\boldsymbol{x}$ 에 대해 prior가 nonzero PDF(or PMF)를 갖도록 하는 것이 중요합니다.

Likelihood $p(\boldsymbol{y}|\boldsymbol{x})$ 는 $\boldsymbol{x}$ 와 $\boldsymbol{y}$ 가 얼마나 연관되어 있는지를 나타냅니다. 이산 확률 분포의 경우에는 latent variable $\boldsymbol{x}$ 를 알고 있을 때 data $\boldsymbol{y}$ 의 확률이 됩니다. 주의해야 할 점은 Likelihood가 $\boldsymbol{x}$ 의 분포가 아니라 $\boldsymbol{y}$ 의 분포입니다. 여기서 $p(\boldsymbol{y}|\boldsymbol{x})$ 를 “likelihood of $\boldsymbol{x}$ (given $\boldsymbol{y}$)” 또는 “probability of $\boldsymbol{y}$ given $\boldsymbol{x}$” 라고 부르지만, likelihood of $\boldsymbol{y}$ 라고는 부르지 않습니다.

Posterior $p(\boldsymbol{x}|\boldsymbol{y})$ 는 Bayesian statistics에서 quantity of interest 인데, 이는 우리가 관심있는 것, 즉, $\boldsymbol{y}$ 를 관측한 이후에 $\boldsymbol{x}$ 에 대해 아는 것을 정확히 표현하기 때문입니다. 그 양(quantity)은 다음과 같으며,

\[p(\boldsymbol{y}) := \int p(\boldsymbol{y}|\boldsymbol{x})p(\boldsymbol{x})\mathrm{d}\boldsymbol{x} = \mathbb{E}_X\lbrack p(\boldsymbol{y}|\boldsymbol{x})\rbrack \tag{6.27}\]

이는 margianl likelihood/evidence 입니다. (6.27)의 우항은 기댓값(expectation value) 를 사용하며, 이는 6.4.1장에서 살펴봅니다. 정의에 의해, marginal likelihood는 (6.23) 식의 분자를 latent variable $\boldsymbol{x}$ 에 대해 적분합니다. 그러므로, marginal likelihood는 $\boldsymbol{x}$ 에 독립적이고, 이는 posterior $p(\boldsymbol{x}|\boldsymbol{y})$ 를 정규화(normalization)되도록 합니다. Marginal likelihood는 prior $p(\boldsymbol{x})$ 에 대한 expectation을 취하는 expected likelihood로 해석될 수도 있습니다. Posterior의 normalization 이외에도 marginal likelihood는 Bayesian model selection에서도 중요한 역할을 하며, 이는 8.6장에서 논의합니다. ((8.44) 식의 적분 때문에, 이는 종종 계산하기에 어렵습니다)

Bayes’ theorem (6.23)은 likelihood에 의해 주어진 $\boldsymbol{x}$ 와 $\boldsymbol{y}$ 사이의 관계를 뒤집을 수 있도록 해줍니다. 따라서, Bayes’ theorem을 때때로 probabilisic inverse 라고도 부릅니다. 베이즈 정리(bayes’ theorem)은 8.4장에서 조금 더 논의하겠습니다.


Remark. Bayesian statistics에서, posterior distribution(사후 분포)는 prior(사전 확률) 및 데이터로부터 이용가능한 모든 정보를 캡슐화하므로 quantity of interest 입니다. Posterior(사후 확률)을 따르는 대신, posterior의 최댓값과 같은 통계에 초첨을 맞추는 것도 가능합니다 (8.3장에서 논의). 그러나, posterior의 통계에 초점을 맞추는 것은 정보의 손실을 초래합니다. 더 큰 맥락에서 생각한다면, posterior는 decision-making system 내에서 사용될 수 있고, full posterior를 갖는 것은 매우 유용하고 disturbances에 견고한 결정을 내릴 수 있습니다. 예를 들어, 모델 기반의 강화학습에서 plausible transition functions의 full posterior를 사용하여 아주 빠른 학습이 가능한데, posterior의 최댓값에 초점을 맞추면 일관된 실패를 일으킵니다. 따라서, full posterior를 갖는 것은 downstream task에서 매우 유용합니다.