5. Directed Graphical Models

 

Directed Graphical Models

이번 장에서는 확률 모델(probabilistic model)을 지정하기 위한 directed probabilistic models 라고 부르는 graphical language에 대해 살펴봅니다. 이는 확률 모델을 구체화하기 위한 간결한 방법을 제공하고, 독자들이 확률 변수간의 종속성을 시각적으로 분석할 수 있도록 합니다. 그래프 모델(graphical model)은 모든 확률 변수에 대한 결합 분포(joint distribution)가 이러한 변수들의 하위 집합에 의존하는 factor들의 곱으로 분해될 수 있는 방식을 시각적으로 포착합니다. 8.4장에서는 확률 모델의 결합 분포가 prior, likelihood, posterior에 대한 정보를 포함하기 때문에 관심 있는 key quantity라고 했습니다. 그러나 결합 분포 자체는 매우 복잡할 수 있고, 확률 모델의 구조적인 속성에 대해서 알려주는 것은 없습니다. 예를 들어, 결합 분포 $p(a, b, c)$ 는 독립 관계에 대해 아무것도 알져주지 않습니다. 이 부분에서 그래프 모델이 도움이 됩니다.

그래프 모델(graphical models)에서 노드(nodes)는 확률 변수입니다.

Figure 8.9(a)에서 노드들은 확률 변수 $a,b,c$ 를 나타냅니다. 간선(edges)들은 변수 간의 확률적 관계(probabilistic relations), 예를 들어, 조건부 확률을 나타냅니다.

확률 그래프 모델은 다음 몇 가지 편리한 속성들을 가집니다.

  • 확률적 모델의 구조를 간단한 방식으로 시각화한다.
  • 새로운 종류의 통계적 모델을 디자인하거나 동기 부여에 사용될 수 있다.
  • 그래프만 조사하면 조건부 독립과 같은 속성들에 대한 인사이트를 얻을 수 있다.
  • 통계 모델에서 추론이나 학습에 대한 복잡한 연산은 graphical manipulations로 표현될 수 있다.

Graph Semantics

Directed graphical models / Bayesian networks 은 확률적 모델의 조건부 독립을 표현하는 방법입니다. 이들은 조건부 확률에 대한 시각적인 설명을 제공하고, 따라서, 복잡한 상호 의존성을 설명하기 위한 간단한 언어를 제공합니다. 여기에는 계산 단순화도 포함됩니다. 두 노드 사이의 방향이 있는 링크는 조건부 확률을 나타냅니다. 예를 들어, Figure 8.9(a)에서 a와 b 사이의 화살표는 조건부 확률 $p(b|a)$ 를 나타냅니다.

방향이 있는 그래프 모델은 만약 이들 간의 분패에 대해 알고 있다면 결합 분포로부터 유도될 수 있습니다.

Example 8.7

세 확률 변수 $a, b, c$ 의 결합 분포가 다음과 같다고 가정합시다.

\[p(a, b, c) = p(c|a, b)p(b|a)p(a) \tag{8.29}\]

위 식의 결합 분포의 분해는 우리에게 다음과 같은 확률 변수들 간의 관계를 설명합니다.

  • $c$ depends directly on $a$ and $b$.
  • $b$ depends directly on $a$.
  • $a$ depends neither on $b$ nor on $c$.

이들 간의 관계를 통해, 우리는 Figure 8.9(a)의 directed graphical model을 얻습니다.

일반적으로 다음과 같이 인수분해된 결합 분포로부터 대응되는 directed graphical model을 구성할 수 있습니다.

  1. Create a node for all random variables.
  2. For each conditional distribution, we add a directed link (arrow) to the graph from the nodes corresponding to the variables on which the distribution is conditioned.

그래프 레이아웃은 결합 분포의 인수분해를 어떻게 하느냐에 따라 달라집니다.

지금까지는 알고 있는 결합 분포의 분해에 해당하는 그래프 모델을 어떻게 얻는지 살펴봤습니다. 이번에는 반대로, 주어진 그래프 모델로부터 확률 변수 집합의 결합 분포를 어떻게 추출하는지 살펴보겠습니다.

Example 8.8

위의 Figure 8.9(b)에 나타난 그래프 모델을 살펴보겠습니다. 여기에서 우리는 두 가지 속성을 활용합니다.

  • 우리가 찾는 결합 분포 $p(x_1, \dotsc, x_5)$ 는 그래프의 각 노드에 대한 조건부 집합의 곱입니다. 이 예제에서는 5개의 조건부가 필요합니다.
  • 각 조건부는 오직 대응되는 노드의 부모에만 의존합니다. 예를 들어, $x_4$ 는 $x_2$ 에 대해 조건부입니다.

이 두 가지 속성을 이용하면, 다음의 결합 분포의 인수 분해를 얻을 수 있습니다.

\[p(x_1,x_2,x_3,x_4,x_5) = p(x_1)p(x_5)p(x_2|x_5)p(x_3|x_1,x_2)p(x_4|x_2) \tag{8.30}\]

일반적으로 결합 분포 $p(\boldsymbol{x}) = p(x_1,\dotsc,x_K)$ 는 다음과 같이 주어집니다.

\[p(\boldsymbol{x}) = \prod_{k=1}^Kp(x_K|\text{Pa}_k) \tag{8.31}\]

여기서 $\text{Pa}_K$ 는 “the parent nodes of $x_K$” 를 의미합니다. $x_K$ 의 부모 노드는 $x_K$ 를 가리키는 화살표를 가진 노드입니다.

동전 던지기라는 구체적인 예를 살펴보겠습니다. 베르누이 실험에서 결과 $x$ 가 앞면일 확률은 다음과 같습니다.

\[p(x|\mu) = \text{Ber}(\mu) \tag{8.32}\]

이 실험을 N번 반복하고 결과 $x_1,\dotsc,x_N$ 을 관측하면 다음의 결합 확률을 얻습니다.

\[p(x_1,\dotsc,x_N|\mu) = \prod_{n=1}^N p(x_n|\mu) \tag{8.33}\]

베르누이 실험은 독립적이기 때문에 오른쪽의 식은 각 결과에 대한 베르누이 분포의 곱입니다. 이 분포의 그래프 모델을 그리기 위해서 관측되지 않은(unobserved/latent) 변수와 관측된 변수를 구분합니다. 아래 그림 Figure 8.10(a)과 같이 관측된 변수를 음영처리하여 그래프 모델을 얻습니다.

결과 $x_n$ 이 동일한 분포를 갖기 때문에 하나의 파라미터 $\mu$ 가 모든 $x_n$ 에 대해 동일하다는 것을 볼 수 있습니다. 이를 더 간결하지만 동일하게 표현한 그래프 모델은 Figure 8.10(b) 입니다. 여기서는 plate notation을 사용했습니다. Plate(box)는 박스 내부의 모든 항목(여기서는 $x_n$)에 대해 반복합니다. 그래프 모델을 사용하면 $\mu$ 에 hyperprior를 위치시킬 수 있습니다. hyperprior 는 첫 번째 레이어의 사전 분포에 대한 파라미터에 대해 두 번째 레이어의 사전 분포입니다. Figure 8.10(c)에는 잠새 변수(latent variable) $\mu$ 에 대한 $\text{Beta}(\alpha,\beta)$ 사전 분포를 배치시킵니다. 만약 $\alpha, \beta$ 가 deterministic parameters로 취급되면, 즉, 확률 변수가 아니라면 원으로 그리지 않고 생략합니다.

Conditional Independence and d-Separation

방향이 있는 그래프 모델(directed graphical model)을 사용하면 그래프를 보는 것만으로 결합 분포의 조건부 독립 관계를 찾을 수 있습니다. 여기서는 d-separation 이라는 개념이 핵심입니다.

서로 교차하지 않는(non-intersection) 노드 집합 $\mathcal{A},\mathcal{B},\mathcal{C}$ 가 있는 일반적인 그래프 모델을 고려해봅시다. 우리는 $\mathcal{A}$ 가 $\mathcal{B}$ given $\mathcal{C}$ 에 조건부 독립인지의 여부를 확인하고자 합니다. 이는 아래와 같이 표기합니다.

\[\mathcal{A} \perp\!\!\!\perp \mathcal{B}|\mathcal{C} \tag{8.34}\]

이는 directed acyclic graph를 암시합니다. 이를 위해서 $\mathcal{A}$ 노드에서 $\mathcal{B}$ 의 노드까지 가능한 모든 경로를 고려합니다(방향 무시). 아래 중 하나에 해당하는 노드가 포함된 경우에는 이러한 경로가 차단되었다고 판단합니다.

  • 경로의 화살표가 노드에서 head to tail 또는 tail to tail 만족하고, 그 노드가 $\mathcal{C}$ 의 집합 내의 노드
  • 노드에서 화살표가 head to head를 만족하고, 그 노드나 노드의 자손이 $\mathcal{C}$ 집합에 없는 노드

모든 경로가 차단되면 $\mathcal{A}$ 는 $\mathcal{B}$ by $\mathcal{C}$ 로부터 d-separated 되었다고 말합니다. 그리고 그래프의 모든 변수에 대한 결합 분포는 $\perp\!\!\!\perp$ 을 만족하게 됩니다.

Example 8.9 (Conditional Independece)

위 그림과 같은 그래프 모델을 봅시다. 이를 살펴보면 다음을 찾아낼 수 있습니다.

\[\begin{align*} &b \perp\!\!\!\perp d | a, c \tag{8.35} \\ &a \perp\!\!\!\perp c|b \tag{8.36} \\ &b \not\perp\!\!\!\perp d|c \tag{8.37} \\ &a \not\perp\!\!\!\perp c|b,e \tag{8.38} \end{align*}\]

Directed graphical models는 확률적 모델을 간결하게 표현할 수 있도록 하고, 9,10,11장에서 directed graphical models의 예를 살펴볼 예정입니다. 조건부 독립의 개념을 함께 사용하면 각각의 확률적 모델을 표현식으로 분리할 수 있고, 이를 통해 더 쉽게 최적화할 수 있습니다.

확률적 모델의 그래프 표현을 통해서 모델 구조에 대한 설계의 영향을 시각적으로 볼 수 있습니다. 종종 모델의 구조에 대해 높은 수준의 가정을 해야할 필요가 있습니다. 이러한 모델링 가정(hyperparameters)은 예측 성능에 영향 미치지만, 지금까지 살펴본 접근 방법으로는 이를 직접 선택할 수 없습니다. 8.6장에서는 모델의 구조를 선택하기 위한 다양한 방법에 대해 논의할 예정입니다.