SDE의 기초

Basic Probability Concepts

Random variable $X$는 $X:X\to\mathbb{R}^n$이 $\mathcal{F}$-measurable function인 것을 말한다. 모든 random variable들은 다음 정의를 통해 probabiltiy measure로 정의가 가능하다:

\[\mu_X(B)=P(X^{-1}(B))\]

이 때 probability measure $\mu_X$는 $X$의 distribution이라고 부른다.

$\int_{X}

X(\omega)

dP(\omega)<\infty$였다면 다음 값

\[\mathbb{E}[X]:=\int_{X}X(\omega)dP(\omega)=\int_{\mathbb{R}^n}xd\mu_X(x)\]

를 $X$의 expectation(기대값)이라고 부른다.

더 일반적으로 $\mathbb{E}[f(X)]$도 같은 방식으로 정의한다.

Random variable $X$에 대해서 $X$의 $L^p$-norm을

\[\|X\|_p=\bigg(\int_{X}|X(\omega)|^pdP(\omega)\bigg)^{1/p}\]

로 정의하고

\[\|X\|_\infty=\inf\{N\in\mathbb{R}:|X(\omega)|\leq N\text{ a.s.}\}\]

로 정의한다. 이로부터 유도되는 $L^p$-space는

\[L^p(P)=L^p(X)=\{X:X\to\mathbb{R}^n;\|X\|_p<\infty\}\]

로 정의된다. 즉, finite $L^p$-norm을 가지는 random variable들의 집합이고 이 집합은 complete normed linear space, 즉 Banach space 구조를 가진다. $p=2$인 경우에는 이는 Hilbert space, 즉 complete inner product space가 되며 이 때 내적은

\[\langle X,Y\rangle:=\mathbb{E}[X\cdot Y]\]

로 정의된다.

Independent는 다음처럼 정의된다:

\[P(A\cap B)=P(A)\cdot P(B)\]

Measurable set $\mathcal{H}_i$들이 independent라는 것은

\[P(H_{i_1}\cap\cdots\cap H_{i_k})=P(H_{i_1})\cdots P(H_{i_k})\]

for all choices of $H_{i_j}\in \mathcal{H}_{i_j}$들이라는 것이다.

Random variable들이 independent라는 것은 collection of generated $\sigma$-algebra $\mathcal{H}_{X_i}$들이 independent라는 것이다.

**Definition 1**. Stochastic process라는 것은 parameterized collection of random variables

\[\{X_t\}_{t\in T}\]

가 $(X,\mathcal{F},P)$위에 잘 정의되어 있을때를 말한다. 이 때 $T$는 주로 $[0,\infty]$이지만 경우에 따라서 달라질수도 있다. 고정된 $t$에 대해

\[\omega\to X_t(\omega);\quad\omega\in X\]

와 고정된 $\omega$에 대해

\[t\to X_t(\omega);\quad t\in T\]

가 정의됨도 상기하자. 후자는 path라고 불린다.

Process $X={X_t}_{t\in T}$의 (finite-dimensional) distribution at the measure $\mu_{t_1,\cdots,t_k}$는 $\mathbb{R}^{nk}$위에서 정의되고

\[\mu_{t_1,\cdots t_k}(F_1\times F_2\times \cdots\times F_k)=P[X_{t_1}\in F_1,\cdots,X_{t_k}\in F_k]\]

로 정의된다. 이 때 $F_i$들은 Borel set들이다.

An Important Example: Brownian Motion

$x\in\mathbb{R}^n$을 고정하고,

\[p(t,x,y):=(2\pi t)^{-n/2}\cdot\exp\big(-\frac{|x-y|^2}{2t}\big)\quad\text{for }y\in\mathbb{R}^n,t>0\]

로 정의하자. $0\leq t_1\leq\cdots\leq t_k$라고 두고 다음 수식을 만족하게 $\mathbb{R}^{nk}$ 위에 measure $\nu_{t_1,\cdots t_k}$를 정의한다:

\[\nu_{t_1,\cdots,t_k}(F_1\times\cdots\times F_k)=\int_{F_1\times\cdots\times F_k}p(t_1,x,x_1)p(t_2-t_1,x_1,x_2)\cdots p(t_k-t_{k-1},x_{k-1}x_k)dx_1\cdots dx_k\]

(Eq. 2.1)에 의해서 $\int_{\mathbb{R}^n}p(t,x,y)dy=1$이고 $\nu_{t_1,\cdots,t_k}(F_1\times\cdots\times F_k)=\nu_{t_1,\cdots,t_k,t_{k+1},\cdots,t_{k+m}}(F_1\times\cdots\times F_k\times\mathbb{R}^n\times\cdots\times\mathbb{R}^n)$이 성립하므로 다음의 Komogorov’s extension theorem을 적용하여:

**Theorem 2 (Kolmogorov's extension theorem).** 모든 $t\_1,\cdots,t\_k\in T$와 $k\in\mathbb{N}$에 대해서 $\nu\_{t\_1,\cdots,t\_k}$를 다음 두 조건을 만족하는 probability measure on $\mathbb{R}^{nk}$라고 하자:

$\nu_{t_{\sigma(1)},\cdots,t_{\sigma(k)}}(F_1\times\cdots\times F_k)=\nu_{t_1,\cdots,t_k}(F_{\sigma^{-1}(1)}\times\cdots\times F_{\sigma^{-1}(k)})$ for all permutations $\sigma$ on ${1,\cdots,k}$.
$\nu_{t_1,\cdots,t_k}(F_1\times\cdots\times F_k)=\nu_{t_1,\cdots,t_k,t_{k+1},\cdots,t_{k+m}}(F_1\times\cdots\times F_k\times\mathbb{R}^n\times\cdots\times\mathbb{R}^n)$ for all $m\in\mathbb{N}$.

그러면 probability space $(X,\mathcal{F},P)$가 존재하고 stochastic process ${X_t}$ on $X$가 존재하여, 모든 $t_i\in T$, $k\in\mathbb{N}$ and all Borel sets $F_i$에 대해 다음 조건을 만족하는 $X_t:X\to\mathbb{R}^n$이 존재한다:

\[\nu_{t_1,\cdots,t_k}(F_1\times\cdots\times F_k)=P[X_{t_1}\in F_1,\cdots,X_{t_k}\in F_k]\]

우리는 probability space $(X,\mathcal{F},P^x)$가 존재하고 stochastic process ${B_t}_{t\geq 0}$이 $X$ 위에 존재하여 다음이 만족됨을 안다:

\[P^x(B_{t_1}\in F_1,\cdots,B_{t_k}\in F_k)=\int_{F_1\times\cdots\times F_k}p(t_1,x,x_1)\cdots p(t_k-t_{k-1},x_{k-1},x_k)dx_1\cdots dx_k\]

**Definition 3** (Brownian Motion). 이러한 process를 $x$에서 시작하는 Brownian motion이라고 부른다.

Brownian motion의 기본적 성질부터 살펴보자.

**Property 4 (Brownian motion).** 차례로 살펴보자.

Brownian motion은 Gaussian process이다. 즉, $0\leq t_1\leq\cdots\leq t_k$에 대해서 random variable $Z=(B_{t_1},\cdots,B_{t_k})\in\mathbb{R}^{nk}$는 (multi)normal distribution을 가진다.

$P^x$에 대한 expectation $\mathbb{E}^x$에 대해서,

\[\mathbb{E}^x[B_t]=x\]

가 성립한다. 이의 증명은 다소 verbose하므로 생략한다.

$\mathbb{E}^x[(B_t-x)^2]=t$, $\mathbb{E}^x[(B_t-x)(B_s-x)]=\min(s,t)$이다.

**Proof.** 앞의 것은 Brownian이 Gaussian이라는 것으로부터 분산과 같은 식임을 알 수 있다. 후자를 보면, $t\geq s$라고 두고,

\[\begin{aligned} \mathbb{E}^x[(B_t-x)(B_s-x)]&=\mathbb{E}^x[(B_s-x)^2+(B_s-x)(B_t-B_s)] &=s+\mathbb{E}^x[B_s-x]\mathbb{E}^x[(B_t-B_s)] &=s+0\cdot\mathbb{E}^x[B_t-B_s]=s=\min(t,s) \end{aligned}\]

가 된다.

또한, $\mathbb{E}^x[(B_t-B_s)^2]=t-s$가 성립한다. (단, $t\geq s$.)

**Proof.** $$ \begin{aligned} \mathbb{E}^x[(B_t-B_s)^2]&=\mathbb{E}[(B_t-x)^2-2(B_t-x)(B_s-x)+(B_s-x)^2]\\&=t-2s+s=t-s \end{aligned} $$

가 된다. ◻

$B_t$는 independent increments, 즉

\[B_{t_1},B_{t_2}-B_{t_1},\cdots\]

들은 독립이다. 이를 증명하기 위해서는 normal random variable들이 independent일 필요충분조건은 uncorrelated임을 증명하면 된다. 즉,

\[\mathbb{E}^x[(B_{t_i}-B_{t_{i-1}})(B_{t_j}-B_{t_{j-1}})]=0\]

임을 보이면 된다. 이는

\[\begin{aligned} \mathbb{E}^x[(B_{t_i}-B_{t_{i-1}})(B_{t_j}-B_{t_{j-1}})]&=\mathbb{E}^x[B_{t_{i}}B_{t_{j}}-B_{t_{i-1}}B_{t_j}-B_{t_{i}}B_{t_{j-1}}+B_{t_{i-1}}B_{t_{j-1}}]\\&=t_i-t_{j-1}-t_{i}+t_{j-1}=0 \end{aligned}\]

로 증명된다. ◻

Itô integral

Definition of Itô Integral

Noise에 대해서 적분을 하려면, noise를 정의하는 것이 첫 단추일 것이다. 우리가 생각하는 noise를 직관적으로 풀어 쓰면 다음과 같다:

$t_1\neq t_2$ → $W_{t_1}$과 $W_{t_2}$는 독립이다.
$W_{t_1+t},\cdots,W_{t_k+t}$는 $t$에 의존하지 않는다. 즉, ${W_t}$는 stationary이다.
$\mathbb{E}[W_t]=0$이다.

하지만 불행하게도, 위를 만족하는 reasonable한 continuous noise는 존재하지 않는다. 다음 명제를 살펴보자.

**Theorem 5 (Not continuous path).** 위의 조건들을 만족하는 path는 항상 연속이 아니다.

**Proof.** $\min(a,b)=a\wedge b$, $\max(a,b)=a\vee b$로 쓰자. 그리고 Brownian motion $B\_t$에 대해서 다음을 정의하자: $$B_t^{(N)} = (-N)\vee(N\wedge B_t);\quad(N=1,2,\cdots)$$ 만약 $B\_t$가 continuous path를 가진다면 $t$와 $N$이 고정되어 있을 때 $s\to t$에 대해서 $|B\_t^{(N)}-B\_s^{(N)}|$는 $0$으로 간다. 반면에 1번 조건이 만족된다면 $$\mathbb{E}[(B_t^{(N)}-B_s^{(N)})^2]=\text{Var}(B_t^{(N)}) + \text{Var}(B_s^{(N})\geq\text{Var}(B_t^{(N)})$$ 이 되어 $\text{Var}(B\_t^{(N)})$는 0으로 가야 한다. 결국, 3번 조건을 이용하면 $B\_t^{(N)}=0$이 되어야 한다. 그런데 이는 stochastic process라고 할 수 없다. 따라서 연속일 수 없다. ◻

하지만, $W_t$를 white noise process라는 generalized stochastic process로 일반화하는 것은 가능하다. 여기서 그러한 내용을 다루지는 않을 것이고, 다만 적당히 좋은 white noise process, 즉 stationary independent increments with mean 0인 noise를 구성하는 것이 가능하다는 것만 기억하자. 이 noise는 결론적으로 Brownian motion $B_t$ 밖에 없다는 것이 알려져 있으므로 우리는 discrete level에서 stochastic differential equation을 쓸 수 있다:

\[X_k=X_0 + \sum_{j=0}^{k-1}b(t_j,X_j)\Delta t_j + \sum_{j=0}^{k-1}\sigma(t_j,X_j)\Delta B_j\]

만약, $\Delta t_j\to0$으로 보내면 우리는 위 식을 다음처럼 쓸 수 있을까?

\[X_t=X_0+\int_0^tb(s,X_s)ds+``\int_0^t\sigma(s,X_s)dB_s"\]

이 때

\[``\int_0^t\sigma(s,X_s)dB_s"\]

가 의미하는 것이 우리가 앞으로 할 일이다. 해석학에서의 경험에서처럼, simple function으로부터 출발하자.

\[\phi(t,\omega)=\sum_{j\geq0}e_j(\omega)\cdot\chi_{[j\cdot2^{-n},(j+1)2^{-n})}(t)\]

라는 simple function이 있다고 하자. 그러면 우리는

\[t_k=t_k^{(n)}=\begin{cases}k\cdot2^{-n}&\text{if }S\leq k\cdot2^{-n}\leq T\\S&\text{if }k\cdot2^{-n}<S\\T&\text{if }k\cdot2^{-n}>T\end{cases}\]

인 $t_k$에 대해서

\[\int_S^T\phi(t,\omega)dB_t(\omega)=\sum_{j\geq0}e_j(\omega)\[B_{t\_{j+1}}-B_{t\_j}\](\omega)\]

로 정의할 수 있을 것이다. 그런데 조그마한 문제가 있다.

**Exercise 2. 1**. $$\begin{aligned} \phi_1(t,\omega)&=\sum_{j\geq0}B_{j\cdot2^{-n}}(\omega)\cdot\chi_{[j\cdot2^{-n},(j+1)2^{-n})}(t) \phi_2(t,\omega)&=\sum_{j\geq0}B_{(j+1)\cdot2^{-n}}(\omega)\cdot\chi_{[j\cdot2^{-n},(j+1)2^{-n})}(t) \end{aligned}$$

그러면, $B_t$는 independent increments를 가지고 있으므로

\[\mathbb{E}\bigg[\int_0^T\phi_1(t,\omega)dB_t(\omega)\bigg]=\sum_{j\geq0}\mathbb{E}[B_{t_j}(B_{t_{j+1}}-B_{t_j})]=0\]

이다. 하지만,

\[\begin{aligned} \mathbb{E}\bigg[\int_0^T\phi_1(t,\omega)dB_t(\omega)\bigg]&=\sum_{j\geq0}\mathbb{E}[B_{t_{j+1}}(B_{t_{j+1}}-B_{t_j})]\\&=\sum_{j\geq0}\mathbb{E}[(B_{t_{j+1}}-B_{t_j})^2]\\&=T \end{aligned}\]

이 된다. 결국, 어느 점을 기준으로 삼느냐라는 미묘한 차이에 따라서 결과가 완전히 상반되게 나오게 된다.

정리하자면 다음과 같다:

\[\sum_jf(t^{\ast}_j,\omega)\cdot\chi_{[t_j,t_{j+1})}(t)\]

라는 Riemann-Stieltjes 적분과 비슷한 꼴이 있을 때,

$t^{\ast}_j=t_j$인 경우를 Itô integral이라고 부른다.
$t^{\ast}_j=(t_j+t_{j+1})/2$인 경우를 Stratonovich integral이라고 부른다.

다음 정리는 Itô isometry라고 불린다:

**Theorem 6 (Itô Isometry).** $\phi(t,\omega)$가 bounded이고 simple function이라면,

\[\mathbb{E}\bigg[\bigg(\int_S^T\phi(t,\omega)dB_t(\omega)\bigg)^2\bigg]=\mathbb{E}\bigg[\int_S^T\phi(t,\omega)^2dt\bigg]\]

이다.

이를 조금 더 일반화하면 다음이 성립한다.

**Corollary 7 (Itô Isometry for Two Random Variables).** $\phi(t,\omega), \psi(t,\omega)$를 같은 정의역과 치역을 가지는 두 random variable이라고 하자. 그러면 다음이 성립한다. $$\mathbb{E}\bigg[\bigg(\int_S^T\phi(t,\omega)dB_t(\omega)\bigg)\bigg(\int_S^T\psi(t,\omega)dB_t(\omega)\bigg)\bigg]=\mathbb{E}\bigg[\int_S^T\phi(t,\omega)\psi(t,\omega)dt\bigg]$$

**Proof.** $\phi=\psi$인 경우만 증명하자. $\Delta B\_j=B\_{t\_{j+1}}-B\_{t\_j}$라고 두자. 그러면

\[\mathbb{E}[e_ie_j\Delta B_i\Delta B_j]=\begin{cases}0&\text{if }i\neq j\\\mathbb{E}[e^2_i]\cdot(t_{i+1}-t_i)&\text{if }i=j\end{cases}\]

따라서

\[\begin{aligned} \mathbb{E}\bigg[\bigg(\int_S^T\phi(t,\omega)dB_t(\omega)\bigg)^2\bigg]&=\sum_{i,j}\mathbb{E}[e_ie_j\Delta B_i\Delta B_j]=\sum_j\mathbb{E}[e^2_i](t_{i+1} -t_i)\\&=\mathbb{E}\bigg[\int_S^T\phi(t,\omega)^2dt\bigg] \end{aligned}\]

가 성립한다. ◻

이를 몇 단계를 거쳐 simple function에서 적당히 좋은 함수로 확장할 수 있다. 적당히 좋은 함수는 따로 조건이 있긴 하지만, 본 글에서 엄밀하게 다루지는 않기로 한다. 궁금한 독자들은 다음의 정의에서 힌트를 얻을 수 있을 것이다:

**Definition 8** (Itô Integral). $f$가 적당히 좋은 함수라고 하자. 그러면 $f$의 Itô integral은

\[\int_S^Tf(t,\omega)dB_t(\omega)=\lim_{n\to\infty}\int_S^T\phi_n(t,\omega)dB_t(\omega)\quad(\text{limit in }L^2(P))\]

로 정의된다. 이 때 ${\phi_n}$은

\[\mathbb{E}\bigg[\int_S^T(f(t,\omega)-\phi_n(t,\omega))^2dt\bigg]\to0\quad\text{ as }n\to\infty\]

를 만족하는 elementary 함수열이다.

**Corollary 9 (The Itô Isometry).** $$\mathbb{E}\bigg[\bigg(\int_S^Tf(t,\omega)dB_t(\omega)\bigg)^2\bigg]=\mathbb{E}\bigg[\int_S^Tf^2(t,\omega)dt\bigg]$$

이다.

구체적인 계산을 해보자.

**Exercise 2. 2**. $B\_0=0$이라고 하자. 그러면,

\[\int_0^tB_sdB_s=\frac{B_t^2}{2}-\frac{t}{2}\]

이다.

**Proof.** $\phi\_n(s,\omega)=\sum B\_j(\omega)\cdot\chi\_{[t\_j,t\_{j+1})}(s)$로 두자. 이 때 $B\_j=B\_{t\_j}$이다. 그러면

\[\begin{aligned} \mathbb{E}\bigg[\int_0^t(\phi_n(t,\omega)-B_s)^2ds\bigg]&=\mathbb{E}\bigg[\sum_j\int_{t_j}^{t_{j+1}}(B_j-B_s)^2ds\bigg]\\&=\sum_j\int_{t_j}^{t_{j+1}}(s-t_j)^2ds\\&=\sum_j\frac{1}{2}(t_{j+1}-t_j)^2\to0\quad\text{as}\quad\Delta t_j\to0 \end{aligned}\]

따라서 위 Corollary에 의해

\[\int_0^tB_sdB_s=\lim_{\Delta t_j\to0}\int_0^t\phi_ndB_s=\lim_{\Delta t_j\to0}\sum_jB_j\Delta B_j\]

이다. 이제

\[\Delta(B_j^2)=B_{j+1}^2-B_j^2=(B_{j+1}-B_j)^2+2B_j(B_{j+1}-B_j)=(\Delta B_j)^2+2B_j\Delta B_j\]

라는것으로부터

\[B_t^2=B_t^2-0=B_t^2-B_0^2\]

이므로 (eq:2.3)을 적용하여

\[B_t^2=\sum_j\Delta(B_j^2)=\sum_j(\Delta B_j)^2+2\sum_jB_j\Delta B_j\]

이므로

\[\sum_jB_j\Delta B_j = \frac{1}{2}B_t^2-\frac{1}{2}\sum_j(\Delta B_j)^2\]

이 된다. 위에서 공부하기로 $\mathbb{E}^x[(B_t-B_s)^2]=t-s$ for $t\geq s$였으므로,

\[\begin{aligned} \mathbb{E}\bigg[\bigg(\sum_j(\Delta B_j)^2-t\bigg)^2\bigg]&=\mathbb{E}\bigg[\bigg(\sum_j(\Delta B_j)^2\bigg)^2-2t\sum_j(\Delta B_j)^2+t^2\bigg]\\&=\mathbb{E}\bigg[\bigg(\sum_j(\Delta B_j)^2\bigg)^2\bigg]-2t\sum\Delta t_j+t^2\\&=\mathbb{E}\bigg[\bigg(\sum_j(\Delta B_j)^2\bigg)^2\bigg]-2t^2+t^2=\mathbb{E}\bigg[\bigg(\sum_j(\Delta B_j)^2\bigg)^2\bigg]-t^2 \end{aligned}\]

가 되고, $\text{Var}(X)=\mathbb{E}[X^2]-(\mathbb{E}[X])^2$이므로

\[\mathbb{E}\bigg[\bigg(\sum_j(\Delta B_j)^2\bigg)^2\bigg]=\text{Var}\bigg[\sum_j(\Delta B_j)^2\bigg]+\bigg(\mathbb{E}\bigg[\sum_j(\Delta B_j)^2\bigg]\bigg)^2=\text{Var}\bigg[\sum_j(\Delta B_j)^2\bigg]+t^2\]

이 된다. 따라서

\[\mathbb{E}\bigg[\bigg(\sum_j(\Delta B_j)^2-t\bigg)^2\bigg]=\text{Var}\bigg[\sum_j(\Delta B_j)^2\bigg]\]

인데 $B_j$는 independent increment를 가지므로

\[\text{Var}\bigg[\sum_j(\Delta B_j)^2\bigg]=\sum_j\text{Var}\big[(\Delta B_j)^2\big]\]

가 된다. $X\sim\mathcal{N}(0,\sigma^2)$에 대해서 4차 moment $\mathbb{E}[X^4]=3\sigma^2$이므로,

\[\text{Var}[X^2]=\mathbb{E}[X^4]-(\mathbb{E}[X])^2=3\sigma^2-\sigma^2=2\sigma^2\]

이게 되고, 이로부터

\[\text{Var}\bigg[\sum_j(\Delta B_j)^2\bigg]=\sum_j\text{Var}\big[(\Delta B_j)^2\big]=\sum_j2(\Delta t_j)^2=2\sum_j(\Delta t_j)^2\]

를 얻는다. 정리하자면,

\[\mathbb{E}\bigg[\bigg(\sum_j(\Delta B_j)^2-t\bigg)^2\bigg]=2\sum_j^N(\Delta t_j)^2\leq2\cdot\frac{1}{N}\bigg(\sum_j^N\Delta t_j\bigg)^2=\frac{2t^2}{N}\]

이고 $N$을 무한대로 보내면, 즉, $\Delta t_j\to0$으로 보내면

\[\lim_{\Delta t_j\to0}\sum_j(\Delta B_j)^2=t\]

을 얻는다. 따라서

\[\int_0^tB_sdB_s=\lim_{\Delta t_j\to0}\int_0^t\phi_ndB_s=\lim_{\Delta t_j\to0}\sum_jB_j\Delta B_j=\frac{1}{2}B_t^2-\frac{1}{2}t\]

가 된다. ◻

**Theorem 10 (Some Properties of Itô Integral).** $f,g$가 적당히 좋은 함수들이고 $0\leq S<U<T$라고 하자. 그러면,

$\int_S^TfdB_t=\int_S^UfdB_t + \int_U^TfdB_t$이다.
$\int_S^T(cf+g)dB_t=c\int_S^TfdB_t+\int_S^TgdB_t$이다.
$\mathbb{E}[\int_S^TfdB_t]=0$이다.

Itô Formula

여기서는 1차원 Itô formula를 살펴보기로 한다.

**Theorem 11 (1-Dimensional Itô Formula).** $X\_t$를 다음처럼 주어진 Itô process라고 하자:

\[dX_t=udt+vdB_t\]

또한 $g(t,x)$가 twice continuously differentiable on $[0,\infty)\times\mathbb{R}$, 즉 $g\in C^2([0,\infty)\times\mathbb{R})$이라고 하자. 그러면 $Y_t=g(t,X_t)$ 또한 Itô formula이며

\[dY_t=\frac{\partial g}{\partial t}(t,X_t)dt + \frac{\partial g}{\partial x}(t,X_t)dX_t+\frac{1}{2}\frac{\partial^2g}{\partial x^2}(t,X_t)\cdot(dX_t)^2\]

가 성립한다. 이 때 $(dX_t)^2=(dX_t)\cdot(dX_t)$는 다음의 규칙에 의해서 계산된다:

\[dt\cdot dt=dB_t\cdot dt=dt\cdot dB_t=0,\quad dB_t\cdot dB_t=dt\]

위에서 살펴본 예제를 다시 살펴보자.

**Exercise 2. 3** (Example Revisited). $$\int_0^tB_sdB_s=\frac{1}{2}B_t^2-\frac{1}{2}t$$

이다.

**Proof.** $X\_t=B\_t$로 두고 $g(t,x)=\frac{1}{2}x^2$으로 두면

\[Y_t=g(t,B_t)=\frac{1}{2}B_t^2\]

이다. Itô formula에 의해,

\[\begin{aligned} d(\frac{1}{2}B_t^2)=dY_t&=\frac{\partial g}{\partial t}(t,X_t)dt + \frac{\partial g}{\partial x}(t,X_t)dX_t+\frac{1}{2}\frac{\partial^2g}{\partial x^2}(t,X_t)\cdot(dX_t)^2\\&=0dt+B_tdB_t+\frac{1}{2}\cdot1\cdot(dB_t)^2=B_tdB_t+\frac{1}{2}dt \end{aligned}\]

이다. 정리하면

\[B_tdB_t=d(\frac{1}{2}B_t^2)-\frac{1}{2}dt\]

이므로

\[\int_0^tB_sdB_s=\frac{1}{2}B_t^2-\frac{1}{2}t\]

가 성립한다. ◻

두 번째 예시를 살펴보자.

**Exercise 2. 4**. $$\int_0^tsdB_s=tB_t-\int_0^tB_sds$$

이다.

**Proof.** $g(t,x)=tx$와 $X\_t=B\_t$로 두자. 그러면 $g(t,B\_t)=tB\_t$이고, Itô formul에 의해

\[\begin{aligned} d(sB_s)=dY_s&=\frac{\partial g}{\partial t}(t,X_t)ds + \frac{\partial g}{\partial x}(t,X_t)dX_s+\frac{1}{2}\frac{\partial^2g}{\partial x^2}(t,X_t)\cdot(dX_s)^2\\&=B_sds+sdB_s+0\cdot(dB_s)^2 \end{aligned}\]

가 된다. 따라서

\[sdB_s=d(sB_s)-B_sds\]

가 되므로

\[\int_0^tsdB_s=tB_t-\int_0^tB_sds\]

가 성립한다. ◻

위 예시를 살펴보면, 마치 부분적분처럼 작동함을 알 수 있다. 이를 일반화한 것도 성립한다:

**Theorem 12 (Integration by Parts).** $f(s,\omega)$가 continuous이고 bounded variation을 가진다고 하자. 그러면, almoast all (a.a.) $\omega$에 대해서

\[\int_0^tf(s)dB_s=f(t)B_t-\int_0^tB_sdf_s\]

가 성립한다.

**Theorem 13 (Taylor Expansion for Brownian Motion).** $g:\mathbb{R}\to\mathbb{R}$이 $C^2$ everywhere이라고 하고 $B\_t$를 1-dimensional Brownian motion이라고 하자. 그러면 다음이 성립한다: $$g(B_t) = g(B_0) + \int_0^t g'(B_s)dB_s + \frac{1}{2}\int_0^tg''(B_s)ds$$ 이는 Brownian motion $B\_t$에 대한 Taylor expansion이다(왜 그러한가?).

**Proof.** Bernt Øksendal, Stochstic Differential Equations 6th edition, Exercise 4.8을 참고하라. ◻

Itô Diffusion

**Definition 14** (Itô diffusion). (Time-homogeneous) Itô diffusion은 stochastic process $X\_t(\omega)=X(t,\omega):[s,\infty)\times\Omega\to\mathbb{R}^n$로 다음의 stochastic differential equation을 만족하는 것을 말한다. $$dX_t = b(X_t)dt + \sigma(X_t)dB_t,\quad t\geq s;X_s=x$$ 이 때 $B\_t$는 $m$-dimensional Brownian motion이고 $b:\mathbb{R}^n\to\mathbb{R}^n$, $\sigma:\mathbb{R}^n\to\mathbb{R}^{n\times m}$이고 $$|b(x)-b(y)|+|\sigma(x)-\sigma(y)|\leq D|x-y|;\quad x,y\in\mathbb{R}^n$$ 즉, $b$와 $\sigma$는 Lipschitz 연속이다.

**Definition 15** (Infinitesimal Generator). $\{X\_t\}$가 (time-homogeneous) Itô diffusion in $\mathbb{R}^n$이라고 하자. 그러면 (infinitesimal) generator $A$ of $X\_t$는 다음처럼 정의된다: $$Af(x):=\lim_{t\downarrow0}\frac{\mathbb{E}^x[f(X_t)]-f(x)}{t}$$

항상 이 극한을 계산하는 것은 지루하기 때문에 한 번에 계산할 수 있는 공식을 소개한다.

**Theorem 16**. $X\_t$를 다음 형태의 Itô diffusion이라고 하자. $$dX_t = b(X_t)dt + \sigma(X_t)dB_t$$ $f$가 $C^2\_0(\mathbb{R}^n)$(두 번 미분 가능하고 도함수들이 연속이며 compact support를 가지는 함수)이면 $$Af(x) = \sum_ib_i(x)\frac{\partial f}{\partial x_i} + \frac{1}{2}\sum_{i,j}(\sigma\sigma^T)_{i,j}(x)\frac{\partial^2f}{\partial x_i\partial x_j}$$ 이 성립한다.

**Proof.** 1차원의 경우를 살펴보자. 다차원의 경우는 indexing만 잘 조절해주면 된다. Itô process $$dX_t = b(X_t)dt + \sigma(X_t)dB_t$$ 에 대해서 Itô formula를 $f$에 적용하면 $$\begin{aligned} df(X_t) &= \frac{\partial f}{\partial t}(t,X_t)dt + \frac{\partial f}{\partial x}(t,X_t)dX_t + \frac{1}{2}\frac{\partial ^2f}{\partial x^2}(t,X_t)(dX_t)^2 &=\frac{\partial f}{\partial t}(t,X_t)dt + \frac{\partial f}{\partial x}(x,X_t)\bigg(b(X_t)dt + \sigma(X_t)dB_t\bigg) + \frac{1}{2}\frac{\partial^2 f}{\partial x^2}(t,X_t)\bigg(b(X_t)dt + \sigma(X_t)dB_t\bigg)^2 &=\frac{\partial f}{\partial t}(t,X_t)dt + \frac{\partial f}{\partial x}(x,X_t)\bigg(b(X_t)dt + \sigma(X_t)dB_t\bigg) \\&\quad\quad\quad\quad+\frac{1}{2}\frac{\partial^2 f}{\partial x^2}(t,X_t)\bigg(b^2(X_t)0 + 2b(X_t)\sigma(X_t)0 + \sigma^2(X_t)dt\bigg) &=\frac{\partial f}{\partial t}(t,X_t)dt + b(X_t)\frac{\partial f}{\partial x}(t,X_t)dt + \sigma(t,X_t)\frac{\partial f}{\partial x}(t,X_t)dB_t + \frac{1}{2}\sigma^2(X_t)\frac{\partial ^2f}{\partial x^2}(t,X_t)dt \end{aligned}$$ 따라서 이를 정리하면 $$f(X_t) = f(X_0) + \int_0^tb(X_s)\frac{\partial f}{\partial x}(s,X_s)ds + \int_0^t\sigma(s,X_s)dB_s + \frac{1}{2}\int_0^t\sigma^2(X_s)\frac{\partial^2f}{\partial x^2}(s,X_s)ds$$ 가 된다. 양변에 기댓값을 취하고 $t$로 나눠주면 $$ \frac{\mathbb{E}[f(X_t)]-f(X_0)}{t} = \frac{\int_0^t\mathbb{E}\left[b(X_s)\frac{\partial f}{\partial x}(s,X_s)\right]ds}{t} + 0 + \frac{1}{2}\frac{\int_0^t\mathbb{E}\left[\sigma^2(X_s)\frac{\partial ^2f}{\partial x^2}(s,X_s)\right]ds}{t} $$ 결국, $$ \begin{aligned} \lim_{t\downarrow0}\frac{\mathbb{E}[f(X_t)]-f(x)}{t} &= \mathbb{E}[b(X_0)\frac{\partial f}{\partial x}(0,X_0)] + \frac{1}{2}\mathbb{E}[\sigma^2(X_0)\frac{\partial f}{\partial x}(0,X_0)]\\&=b(x)\frac{\partial f}{\partial x} + \frac{1}{2}\sigma^2(x)\frac{\partial ^2f}{\partial x^2} \end{aligned} $$ 즉, 1차원에서의 원하는 공식 $$A = b(x)\frac{\partial}{\partial x} + \frac{1}{2}\sigma^2(x)\frac{\partial^2}{\partial x^2}$$ 을 얻는다. ◻

Application to Differential Equation

**Example 17 (Heat equation).** $B$를 1차원 Brownian motion이라고 하고 $X=\begin{pmatrix}X_1\\X_2\end{pmatrix}$을 다음 stochastic differential equation $$ \begin{cases} dX_1 =dt;&X_1(0)=t_0 dX_2=dB;&X_2(0) = x_0 \end{cases} $$ 즉 $$dX = bdt + \sigma dB;\quad X(0) = \begin{pmatrix}t_0\\x_0\end{pmatrix}$$ 이고 $b=\begin{pmatrix}1\0\end{pmatrix}$, $\sigma=\begin{pmatrix}0\1\end{pmatrix}$이라는 것이다. 그러면, 이 stochastic differential equation의 generator는 $$Af = \frac{\partial f}{\partial t} + \frac{1}{2}\frac{\partial^2f}{\partial x^2}$$ 가 된다.

Kolmogorov Forward Equation

1-dimensional Itô diffusion $dX_t = b(x)dt + a(x)dB_t$ 의 1-dimensional infinitesimal generator $A$를 다음처럼 정의하자. $A = a(x)\frac{\partial ^2}{\partial x^2} + b(x)\frac{\partial }{\partial x}$ 단, $a\in C^2$, $b\in C^1$. 그러면 다음의 adjoint operator of $A$, $A^{\ast}$는 $A^{\ast}f(x) = \frac{\partial ^2}{\partial x^2}\big(a(x)f(x)\big) - \frac{\partial }{\partial x}\big(b(x)f(x)\big)$ 로 정의되고 다음을 만족한다. $\langle A\phi, \psi\rangle = \langle\phi, A^{\ast}\psi\rangle\quad\text{in }L^2(dx), \phi\in C^2_0, \psi\in C^2$

**Proof.** 먼저 $$\int f''g = f'g - g'f + \int fg'', \quad\int f'g = fg - \int fg'$$ 가 성립하므로, $$\begin{aligned} \langle A\phi, \psi\rangle=\int \bigg(a(x)\frac{\partial ^2}{\partial x^2}\phi + b(x)\frac{\partial }{\partial x}\phi\bigg)\psi dx &=\int\bigg(a(x)\psi(x)\frac{\partial ^2}{\partial x^2}\phi(x) + b(x)\psi(x)\frac{\partial }{\partial x}\phi(x)\bigg)dx &=\bigg[\frac{\partial \phi}{\partial x}\psi(x)a(x) - \phi\frac{\partial }{\partial y}\big(\psi(x)a(x)\big)+ b(x)\psi(x)\phi(x)\bigg]_{-\infty}^{+\infty} \\&\text{ }\text{ }\text{ }+\int\bigg(\phi\frac{\partial^2}{\partial x^2}\big(\psi(x)a(x)\big)-\phi(x)\frac{\partial }{\partial x}\big(\psi(x)a(x)\big)\bigg)dx &=\int\phi(x)\bigg(\frac{\partial^2}{\partial x^2}\big(\psi(x)a(x)-\frac{\partial }{\partial x}\big(\psi(x)a(x)\big)\bigg)dx\quad(\because\phi\in C^2_0) &=\langle\phi, A^{\ast}\psi\rangle \end{aligned}$$ 이다. ◻

이를 정리하면 $\langle A\phi,\psi\rangle = \langle\phi,A^{\ast}\psi\rangle\quad\text{for }\phi\in C_0^2, \psi\in C^2$ 이제 $X_t$가 density $p_t(x,y)$를 가진다는 것을 $\mathbb{E}^x[f(X_t)] = \int_{\mathbb{R}^n}f(y)p_t(x,y)dy$ 를 만족하는 $p_t(x,y)$가 존재한다는 것으로 정의하면 (for every $f$) Dynkin’s formula에 의해서 $\int_{\mathbb{R}^n}f(y)p_t(x,y)dy = f(x) + \int_0^t\int_{\mathbb{R}^n}A_yf(y)p_s(x,y)dyds;\quad f\in C_0^2$ 이 성립하고 양변을 $t$에 대해서 미분하면 $\int_{\mathbb{R}^n}f(y)\frac{\partial}{\partial t}p_t(x,y)dy = \int_{\mathbb{R}^n}A_yf(y)p_t(x,y)dy,\quad f\in C_0^2$ 가 된다. 이제 (Eq. adjoint)를 사용하면 $\int_{\mathbb{R}^n}f(y)\frac{\partial}{\partial t}p_t(x,y)dy = \int_{\mathbb{R}^n}f(y)A^{\ast}_yp_t(x,y)dy$ for any $f\in C_0^2$이므로

\[\frac{\partial}{\partial t}p_t(x,y) = A^{\ast}_yp_t(x,y)\]

가 성립한다. 이 식 (Eq. kolmogorovforwardeq)를 Kolmogorov forward equation, 혹은 Fokker-Planck equation이라고 부른다.

Kolmogorov Backward Equation

$u(x,t):=\mathbb{E}^x[f(X_t)]$로 두고 $g(x):=u(x,t)$로 두자. 그러면,

\[\begin{aligned} \frac{\mathbb{E}^x[g(X_r)]-g(x)}{r} &= \frac{1}{r}\cdot\mathbb{E}^x[\mathbb{E}^{X_r}[f(X_t)]-\mathbb{E}^x[f(X_t)]] &=\frac{1}{r}\cdot\mathbb{E}^x[\mathbb{E}^x[f(X_{t+r}|\mathcal{F}_r]-\mathbb{E}^x[f(X_t)|\mathcal{F}_r]] &=\frac{1}{r}\cdot\mathbb{E}^x[f(X_{t+r})-f(X_t)] &=\frac{u(t+r,x)-u(t,x)}{r}\to\frac{\partial u}{\partial t} \end{aligned}\]

이 된다. 이 식을 정리한 $\frac{\partial p_t(x,y)}{\partial t} = -A_yp$ 를 Kolmogorov backward equation이라고 한다.

Reverse-Time Diffusion Equation Model에 대한 이해

여기에서는 Reverse-Time Diffusion Equation Model(논문 링크: 논문 링크)에 대한 이해를 해 본다.

The linear problem

먼저 아이디어부터 잡아 보자. $x$를 nondeteministic, stationary $n$-dimensional process라고 하고 다음을 만족한다고 하자.

\[dx = Axdt + BdB_t\]

이 때 $A$, $B$는 constant matrices이고 $\text{Re}[\lambda_i(A)]<0$ for all $i$라고 두며 $B_t$는 standard Brownian motion (=Wiener process)이며 $x(t)$가 미래의 $w$의 increment에 대해서는 independent이고 과거의 $w$에 대해서는 dependent라고 하자. 즉, $t_2>t_1\geq t$라고 하면 $w(t_2)-w(t_1)$은 $x(t)$와 independent이지만 $t_3<t_4\leq t$에 대해서는 $w(t_3)-w(t_4)$가 dependent일 수도 있다고 하자. 이러한 모델을 우리는 forward time model이라고 부르기로 하자. 이 방정식의 해는

\[x(t)=\int_{-\infty}^te^{A(t-s)}BdB_s\]

로 표현될 수 있다. 이와 대조적으로, reverse time model은 $dx = \bar{A}xdt + \bar{B}d\bar{B}_t$ 의 꼴로 $\text{Re}[\lambda_i(\bar{A})]>0$ for all $i$이고 $\bar{B}_t$는 과거의 $x(t)$와는 independent이고 미래의 것들과는 그렇지 않은 Wiener process라고 하자. 이는 물리적으로 시간을 역행해서 가는 process로 이해할 수 있으며 해는

\[x(t) = -\int_t^{\infty}e^{\bar{A}(t-s)}\bar{B}d\bar{B}_s\]

가 될 것이다. 이 문제는 $x(t)$의 forward time representation으로부터 reverse-time representation을 유도하는 과정으로 이해될 수 있다. 이 문제를 풀기 위해서

\[P=\mathbb{E}[x(t)x(t)^T]\]

로 두자. 그러면 먼저 관찰 $\frac{d}{dt}\bigg(e^{Mt}Ne^{M^Tt}\bigg)=Me^{Mt}Ne^{M^Tt}+e^{Mt}Ne^{M^Tt}M^T$

으로부터 $P=\int_{-\infty}^te^{A(t-s)}BB^Te^{A^T(t-s)}ds$

로 두었을 때

\[\begin{aligned} AP+PA^T =& A\bigg(\int_{-\infty}^te^{A(t-s)}BB^Te^{A^T(t-s)}ds\bigg) +\bigg(\int_{-\infty}^t e^{A(t-s)}BB^Te^{A^T(t-s)}ds\bigg)A^T =&\int_{-\infty}^t\bigg(Ae^{A(t-s)}BB^Te^{A^T(t-s)}+e^{A(t-s)}BB^Te^{A^T(t-s)}A^T\bigg)ds =&-\int_{-\infty}^t\frac{d}{ds}\bigg(e^{A(t-s)}BB^Te^{A^T(t-s)}\bigg)ds =&-\bigg[e^{A(t-s)}BB^Te^{A^T(t-s)}\bigg]_{-\infty}^t =&-BB^T\quad\quad(\because\text{Re}[\lambda_i(A)]<0\quad\forall i) \end{aligned}\]

이 성립한다. 이제 이 $P$가 $\mathbb{E}[x(t)x(t)^T]$와 일치하는지 보기 위해 Itô isometry를 벡터함수에 적용한

\[\mathbb{E}\bigg[\bigg(\int_a^bX_tdB_t\bigg)\bigg(\int_a^bY_tdB_t\bigg)^T\bigg] = \mathbb{E}\bigg[\int_a^bX_tY_t^Tdt\bigg]\]

를 생각하고

\[\begin{aligned} P=\mathbb{E}[P]&=\mathbb{E}\bigg[\int_{-\infty}^te^{A(t-s)}BB^Te^{A^T(t-s)}ds\bigg]\\&=\mathbb{E}\bigg[\int_{-\infty}^t(e^{A(t-s)}B)(e^{A(t-s)}B)^Tds\bigg] &=\mathbb{E}\bigg[\bigg(\int_{-\infty}^te^{A(t-s)}BdB_s\bigg)\bigg(\int_{-\infty}^te^{A(t-s)}BdB_s\bigg)^T\bigg]\\&=\mathbb{E}[x(t)x(t)^T] \end{aligned}\]

가 된다. 따라서 두 값은 일치한다. 이제 가역 조건을 보이기 위해 augmented matrix $\begin{bmatrix}B&AB&\cdots&A^{n-1}B\end{bmatrix}$의 rank가 $n$이라고 하자. 이는 $B$의 rank가 $n$이라는 말이며 동시에 $i<n$에 대해 $A^i$가 invertible이라는 말이다. 즉, $A$, $B$가 모두 invertible이라는 말이고 이는 $P$가 invertible이라는 결론으로 이어진다. 따라서 이 $P$는 matrix equation $AP+PA^T=-BB^T$의 해로 생각될 수 있다. 이제 vector process $\bar{w}$를

\[d\bar{B}_t:=dB_t-B^TP^{-1}xdt\]

로 정의하면

\[dx = Axdt + BdB_t\]

와 합쳤을 때

\[dx=(A+BB^TP^{-1})dt+Bd\bar{B}_t\]

를 얻는다.

그러면 $\text{Re}[\lambda_i(A+BB^TP^{-1})]\geq0$임을 얻을 수 있고 따라서 이는 reverse-time model이 된다.

Construction of reverse time nonlinear models

$(\Omega, \mathcal{A},P)$를 고정된 probability space라고 하고 ${\mathcal{A}_t,-\infty<t<\infty}$를 증가하는 sub-$\sigma$-algebra of $\mathcal{A}$라고 하자. 그리고 ${B_t,-\infty<t<\infty}$를 $r$-차원 Brownian motion이라고 하고 $B_t$가 $\mathcal{A}_t$-measurable이며 $t\geq s$에 대해 $B_t-B_s$를 $\mathcal{A}_s$에 대해 independent라고 하자. 우리는 $s\geq0$에 대해

\[\mathbb{E}[B_{t+s}|\mathcal{A_t}]=B_t \mathbb{E}[(B_{t+s}-B_t)(B_{t+s}-B_t)^T|\mathcal{A}_t]=sI\]

라고 정의한다. 이제 Ito stochastic differential equation을 다음의 형태라고 가정한다:$dx_t=f(x_t,t)dt+g(x_t,t)dB_t$ 이 때 $x_t$는 $n$-vector stochastic process이고 $f(\cdot,\cdot)$과 $g(\cdot,\cdot)$은 적당히 smooth하고 growth property를 가지는 $n\times1$과 $n\times n$ mtrix function이라고 하자. 이제 reverse-time model의 의미를 생각해 보기 위해 decreasing familyt ${\bar{\mathcal{A}}_t,-\infty<t<\infty}$ of sub-$\sigma$-algebras on $\mathcal{A}$를 생각하고 $n$-vector process ${\bar{B}_t,-\infty<t<\infty}$를 생각해서 $\bar{B}_t$가 $\bar{\mathcal{A}}_t$-measurable for each $t$이고, for each $\bar{B}_t-\bar{B}_s$ for $t\geq s$에 대해 $\bar{\mathcal{A}}_t$에 대해서 independent이고 $s\geq0$에 대해

\[\begin{aligned} &\mathbb{E}[\bar{B}_t|\bar{\mathcal{A}}_{t+s}]=\bar{B}_{t+s} &\mathbb{E}[(\bar{B}_t-\bar{B}_{t+s})(\bar{B}_t-\bar{B}_{t+s})^T|\bar{\mathcal{A}}_{t+s}]=sI \end{aligned}\]

라고 하자. 그러면 이 process는 reverse-time Itô equation of the form $dx_t = \bar{f}(x_t,t)dt + \bar{g}(x_t,t)d\bar{B}_t$ 를 준다. 이는 $t\leq T$에 대한 방정식을 주는 것으로 이해할 수 있다. 그러면 다음과 같은 관계식을 얻는 것이 가능하다: $x_T-x_t = \int_t^T\bar{f}(x_t,t)dt + \int_t^T\bar{g}(x_t,t)d\bar{B}_t$ 이 때 두 번째 적분은 backward Itô integral이다. 이제 probability density를 $p(x_t,t|x_s,s)$ for $t>s$라고 할 때

\[\begin{aligned} &dx_t = f(x_t,t)dt + g(x_t,t)dB_t, &d\bar{B}_t^k = \frac{1}{p(x_t,t)}\sum_j\frac{\partial}{\partial x_t^j}[p(x_t,t)g^{jk}(x_t,t)]dt+dB_t^k \end{aligned}\]

로 두자. 단, $k=1,\cdots,r$. 이에 해당하는 forward Kolmogorov equation을 구하기 위해 다음처럼 써보자.

\[\begin{aligned} d\begin{pmatrix}x_t\\\overline{B}_t\end{pmatrix} = \begin{pmatrix}f(x_t,t)\\\frac{1}{p(x_t,t)}\sum_j\frac{\partial}{\partial x_t^j}\bigg[p(x_t,t)g^{j\circ}(X_t,t)\bigg]\end{pmatrix}dt + \begin{pmatrix}g(x_t,t)\\1\end{pmatrix}dB_t \end{aligned}\]

이제 여기에 Fokker-Planck equation을 적용하면

\[\begin{aligned} \frac{\partial p(x_t,\bar{B}_t,t)}{\partial t} =& -\sum_{i=1}^n\frac{\partial}{\partial x_t^i}[p(x_t,\overline{B}_t,t)f^i(x_t,t)]\\ &-\sum_{k=1}^r\frac{\partial}{\partial\overline{B}_t}\bigg\{\frac{p(x_t,\overline{B}_t,t)}{p(x_t,t)}\sum_j\frac{\partial}{\partial x_t^j}[p(x_t,t)g^{ik}(x_t,t)]\bigg\}\\ &+\frac{1}{2}\sum_{i,j=1}^n\frac{\partial^2}{\partial x_t^i\partial x_t^j}\{p(x_t,\overline{B}_t,t)[g(x_t,t)g^T(x_t,t)]^{ij}\}\\ &+\frac{1}{2}\sum_{k,l=1}^r\frac{\partial^2}{\partial\overline{B}_t\partial\overline{B}_t}[p(x_t,\overline{B}_t,t)]\\ &+\frac{1}{2}\sum_{i=1}^n\sum_{k=1}^r\frac{\partial^2}{\partial x_t^i\partial\overline{B}_t^k}[p(x_t,\overline{B}_t,t)g^{ik}(x_t,t)]\\ &+\frac{1}{2}\sum_{i=1}^n\sum_{k=1}^r\frac{\partial^2}{\partial\overline{B}_t^k\partial x_t^i}[p(x_t,\overline{B}_t,t)g^{ik}(x_t,t)]\\ =& -\sum_{i=1}^n\frac{\partial}{\partial x_t^i}[p(x_t,\overline{B}_t,t)f^i(x_t,t)]\\ &-\sum_{k=1}^r\frac{\partial}{\partial\overline{B}_t}\bigg\{\frac{p(x_t,\overline{B}_t,t)}{p(x_t,t)}\sum_j\frac{\partial}{\partial x_t^j}[p(x_t,t)g^{ik}(x_t,t)]\bigg\}\\ &+\frac{1}{2}\sum_{i,j=1}^n\frac{\partial^2}{\partial x_t^i\partial x_t^j}\{p(x_t,\overline{B}_t,t)[g(x_t,t)g^T(x_t,t)]^{ij}\}\\ &+\frac{1}{2}\sum_{k,l=1}^r\frac{\partial^2}{\partial\overline{B}_t\partial\overline{B}_t}[p(x_t,\overline{B}_t,t)]\\ &+\sum_{i=1}^n\sum_{k=1}^r\frac{\partial^2}{\partial x_t^i\partial\overline{B}_t^k}[p(x_t,\overline{B}_t,t)g^{ik}(x_t,t)] \end{aligned}\]

이 된다. 이 때 초기조건은 $p(x_{t_0},\overline{B}_{t_0},t_0)=p(x_{t_0},t_0)\delta(\overline{B}_{t_0})$ 로 설정한다. 그리고 다음의 보조정리들을 합치자.

**Lemma 1.** $p(x\_t,t)$가 위 forward Kolmogorov equation의 해라고 하자. 그리고 $$ \phi(\overline{B}_t,t) = \frac{1}{[2\pi(t-t_0)]^{r/2}}\exp\bigg[-\frac{\overline{B}_t^T\overline{B}_t}{2(t-t_0)}\bigg]$$ 이라고 하자. 그러면 위 Kolmogorov forward equation (Eq. original)의 해는 조건 (Eq. initial)하에서 $$p(x_t,\overline{B}_t,t)=p(x_t,t)\phi(\overline{B}_t,t)$$ 이다.

**Proof.** 위 Fokker-Planck 방정식에서 $p(x\_t,\overline{B}\_t,t)$ 자리에 $p(x\_t,t)\phi(\overline{B}\_t,t)$를 대입하면 $$ \begin{aligned} \frac{\partial}{\partial t}\bigg(p(x_t,t)\phi(\overline{B}_t,t)\bigg)=& -\sum_{i=1}^n\frac{\partial}{\partial x_t^i}[p(x_t,t)\phi(\overline{B}_t,t)f^i(x_t,t)]\\ &\phi(\overline{B}_t,t)\frac{\partial}{\partial t}p(x_t,t) + p(x_t,t)\frac{\partial}{\partial t}\phi(\overline{B}_t,t)\\ =&-\sum_{k=1}^r\frac{\partial}{\partial\overline{B}_t}\bigg\{\frac{p(x_t,t)\phi(\overline{B}_t,t)}{p(x_t,t)}\sum_j\frac{\partial}{\partial x_t^j}[p(x_t,t)g^{ik}(x_t,t)]\bigg\}\\ &+\frac{1}{2}\sum_{i,j=1}^n\frac{\partial^2}{\partial x_t^i\partial x_t^j}\{p(x_t,t)\phi(\overline{B}_t,t)[g(x_t,t)g^T(x_t,t)]^{ij}\}\\ &+\frac{1}{2}\sum_{k,l=1}^r\frac{\partial^2}{\partial\overline{B}_t\partial\overline{B}_t}[p(x_t,t)\phi(\overline{B}_t,t)]\\ &+\sum_{i=1}^n\sum_{k=1}^r\frac{\partial^2}{\partial x_t^i\partial\overline{B}_t^k}[p(x_t,t)\phi(\overline{B}_t,t)g^{ik}(x_t,t)]\\ =& -\sum_{i=1}^n\frac{\partial}{\partial x_t^i}[p(x_t,t)\phi(\overline{B}_t,t)f^i(x_t,t)]\\ &-\sum_{k=1}^r\frac{\partial}{\partial\overline{B}_t}\bigg\{\phi(\overline{B}_t,t)\sum_j\frac{\partial}{\partial x_t^j}[p(x_t,t)g^{ik}(x_t,t)]\bigg\}\\ &+\frac{1}{2}\sum_{i,j=1}^n\frac{\partial^2}{\partial x_t^i\partial x_t^j}\{p(x_t,t)\phi(\overline{B}_t,t)[g(x_t,t)g^T(x_t,t)]^{ij}\}\\ &+\frac{1}{2}\sum_{k,l=1}^r\frac{\partial^2}{\partial\overline{B}_t\partial\overline{B}_t}[p(x_t,t)\phi(\overline{B}_t,t)]\\ &+\sum_{i=1}^n\sum_{k=1}^r\frac{\partial^2}{\partial x_t^i\partial\overline{B}_t^k}[p(x_t,t)\phi(\overline{B}_t,t)g^{ik}(x_t,t)]\\ =& -\sum_{i=1}^n\frac{\partial}{\partial x_t^i}[p(x_t,t)\phi(\overline{B}_t,t)f^i(x_t,t)]\\ &+\frac{1}{2}\sum_{i,j=1}^n\frac{\partial^2}{\partial x_t^i\partial x_t^j}\{p(x_t,t)\phi(\overline{B}_t,t)[g(x_t,t)g^T(x_t,t)]^{ij}\}\\ &+\frac{1}{2}\sum_{k,l=1}^r\frac{\partial^2}{\partial\overline{B}_t\partial\overline{B}_t}[p(x_t,t)\phi(\overline{B}_t,t)]\\ =& -\phi(\overline{B}_t,t)\sum_{i=1}^n\frac{\partial}{\partial x_t^i}[p(x_t,t)f^i(x_t,t)]\\ &+\frac{1}{2}\phi(\overline{B}_t,t)\sum_{i,j=1}^n\frac{\partial^2}{\partial x_t^i\partial x_t^j}\{p(x_t,t)[g(x_t,t)g^T(x_t,t)]^{ij}\}\\ &+\frac{1}{2}p(x_t,t)\sum_{k,l=1}^r\frac{\partial^2}{\partial\overline{B}_t\partial\overline{B}_t}[\phi(\overline{B}_t,t)] \end{aligned} $$ 인데 (Eq. original)의 Fokker-Planck 방정식을 써 보면 $$ \frac{\partial}{\partial t}p(x_t,t) = -\sum_{i=1}^n\frac{\partial}{\partial x_t^i}[p(x_t,t)f^i(x_t,t)]+\frac{1}{2}\sum_{i,j=1}^n\frac{\partial^2}{\partial x_t^i\partial x_t^j}\{p(x_t,t)[g(x_t,t)g^T(x_t,t)]^{ij}\} $$ 이므로 $$ \begin{aligned} \phi(\overline{B_t,t)\frac{\partial}{\partial t}p(x_t,t)} + p(x_t,t)\frac{\partial}{\partial t}\phi(\overline{B}_t,t)=& % [the corresponding terms cancel]

&+\frac{1}{2}p(x_t,t)\sum_{k,l=1}^r\frac{\partial^2}{\partial\overline{B}_t\partial\overline{B}_t}[\phi(\overline{B}_t,t)] \end{aligned} $$

가 되고 결론적으로

\[\frac{\partial}{\partial t}\phi(\overline{B}_t,t) = \frac{1}{2}\sum_{k,l}\frac{\partial^2}{\partial\overline{B}_t^k\partial\overline{B}_t^l}\phi(\overline{B}_t,t)\]

이다. 이는 heat equation이고 주어진 조건에 의해 (Eq. ans)의 해가 된다. ◻

**Lemma 2.** 위 **Lemma 1** 와 같은 가정 하에서, $$p(x_t,\overline{B}_t,t) = p(x_t,t)p(\overline{B}_t,t)$$ 이다.

**Proof.** Bayes' rule을 적용하면 $$p(x,\overline{B}_t,t) = p(\overline{B}_t,t|x_t)p(x_t,t)$$ 이고 이로부터 $$p(\overline{B}_t,t|x_t) = \phi(\overline{B}_t,t)$$ 임을 안다. 그런데 $\phi$는 $x\_t$에 독립이므로 $$p(\overline{B}_t,t)=\phi(\overline{B}_t,t)$$ 이게 된다. ◻

**Lemma 3.** $p(x\_t,t)$가 (Eq. original)의 해라고 하자. 그러면 이에 대한 conditional density $p(x\_t,\overline{B}\_t,t|\overline{B}\_s,s)$는 다음을 만족한다: $$p(x_t,\overline{B}_t,t|\overline{B}_s,s) = p(x_t,t)\psi(\overline{B}_t,\overline{B}_s,t-s)$$ 이 때 $$\psi(\overline{B}_t,\overline{B}_s,t-s) = \frac{1}{(2\pi(t-s))^{r/2}}\exp\bigg(-\frac{(\overline{B}_t-\overline{B}_s)^T(\overline{B}_t-\overline{B}_s)}{2(t-s)}\bigg)$$ 이다.

**Proof.** 단순 계산이므로 스킵하도록 한다. Kolmogorov equation에 대입하고 boundary condition을 체크하면 된다. ◻

**Lemma 4.** $A,B,C$가 세 개의 jointly distributed random variable이라고 하고 $p\_A(a)$, etc들을 conditional probability들이라고 하자. 그러면 만약 $$p_{B|C}(b|c) = f(b-c)$$ 가 성립하는 함수 $f$가 있다면 $D=B-C$로 두었을 때 $$p_D(c) = f(d)$$ 이고 하고 만약 $$p_{A,B|C}(a,b|c) = p_A(a)f(b-c)$$ 가 성립한다면 $D=B-C$로 두는 것은 $$p_{A,D} = p_A(a)p_D(d) = p_A(a)f(d)$$ 라는 것을 말해준다.

**Lemma 5.** $x\_t,\overline{B}\_t$를 위처럼 정의하면 $t\geq s\geq t\_0$에 대해서 $$p(x_t,\overline{B}_t-\overline{B}_s,t,s) = p(x_t,t)p(\overline{B}_t-\overline{B}_s,t,s)$$ 가 성립한다.

**Proof.** **Lemma 4**에 $a=x\_t,b=\overline{B}\_t,c=\overline{B}\_s,f=\psi$를 대입하면 된다. ◻

이제 거의 다 왔다. (Eq. original)과 (Eq. original2)을 서로 대입해주면

\[dx_t^i = \bigg(f^i(x_t,t)-\frac{1}{p(x_t,t)}\sum_kg^{ik}(x_t,t)\sum_j\frac{\partial}{\partial x_t^j}[p(x_t,t)g^{jk}(x_t,t)]\bigg)dt + \sum_kg^{ik}(x_t,t)d\overline{B}_t^k = \hat{f}(x_t,t)dt + g(x_t,t)d\overline{B}_t\]

를 얻을 수 있다. 이제 편의상 $g(x_t,t) = G_t$로 두면

\[\begin{aligned} \int_0^TG_td\overline{B}_t &= \lim_{t\to0}\sum_{i=0}^{T/\Delta t}G_{iT/\Delta t}(\overline{B}_{(i+1)T/\Delta t}-\overline{B}_{iT/\Delta t}) &=\lim_{t\to0}\sum_{i=0}^{T/\Delta t}(G_{iT/\Delta t} + G_{(i+1)T/\Delta t} - G_{(i+1)T/\Delta t}(\overline{B}_{(i+1)T/\Delta t}-\overline{B}_{iT/\Delta t}) &=\lim_{t\to0}\sum_{i=0}^{T/\Delta t}(G_{iT/\Delta t} - G_{(i+1)T/\Delta t}(\overline{B}_{(i+1)T/\Delta t}-\overline{B}_{iT/\Delta t}) + \sum_{i=0}^{T/\Delta t}G_{(i+1)T/\Delta t}(\overline{B}_{(i+1)T/\Delta t}-\overline{B}_{iT/\Delta t}) &=\lim_{t\to0}\sum_{i=0}^{T/\Delta t}(G_{iT/\Delta t} - G_{(i+1)T/\Delta t})(\overline{B}_{(i+1)T/\Delta t}-\overline{B}_{iT/\Delta t}) +\int_T^0G_td\overline{B}_t \end{aligned}\]

이다. 여기서 마지막 항이 reverse time에 대해 게산됨을 주의하자. Reverse-time term을 $(d\overline{B}_t)^R$로 적자. Correction term을

\[C:=\lim_{t\to0}\sum_{i=0}^{T/\Delta t}(G_{iT/\Delta t} - G_{(i+1)T/\Delta t})(\overline{B}_{(i+1)T/\Delta t}-\overline{B}_{iT/\Delta t})\]

으로 두면

\[\begin{aligned} C^k &= \lim_{\Delta t\to0}\sum_{i=0}^{T/\Delta t}\sum_l (G_{iT/\Delta t} - G_{(i+1)T/\Delta t})^{kl}(\overline{B}_{(i+1)T/\Delta t}-\overline{B}_{iT/\Delta t})^l &=-\sum\_l\lim_{\Delta t\to 0}\sum_{i=0}^{T/\Delta t}(G_{(i+1)T/\Delta t} - G_{iT/\Delta t})^{kl}(\overline{B}\_{(i+1)T/\Delta t}-\overline{B}\_{iT/\Delta t})^l &=-\sum\_l\int_0^TdG_t^{kl}d\overline{B}\_t^l &=-\sum\_l\int_0^Td(g^{kl}(x\_t,t))(A^l(x\_t,t)dt + dB_t^l) &=-\sum\_l\int_0^T(B^l(x_t,t)dt + \nabla g^{kl}(x_t,t)^Tg(x_t,t)dB_t)(A^l(x_t,t)dt + dB_t^l) &=-\sum\_{l,m}\int_0^T(\frac{\partial g^{kl}}{\partial x_m}(x_t,t)g^{mn}(x_t,t)dB_t^n)(dB_t^l) &=-\sum_{l,m}\int_0^T\frac{\partial g^{kl}}{\partial x_m}(x_t,t)^mg^{ml}(x_t,t)dt \end{aligned}\]

단, $A,B$는 다차원 Itô 공식에서 나오는 부가항들. 그러면

\[dC_t^k = -\sum_{l,m}\frac{\partial g^{kl}}{\partial x_m}(x_t,t)^mg(x_t,t)^{ml}dt\]

가 되므로 결국 우리가 얻고자 하는

\[\begin{aligned} dx_t^k &= dC_t^k + \hat{f}^k(x_t,t)dt + \sum_l g^{kl}(x_t,t)(d\overline{B}_t^l)^R &=\bigg(\hat{f}(x_t,t) - \sum_{l,m}\frac{\partial g^{kl}}{\partial x_m}(x_t,t)g^{ml}(x_t,t)\bigg)dt + \sum_lg^{kl}(x_t,t)(d\overline{B}_t^l)^R \end{aligned}\]

이 된다. 단,

\[\hat{f}(x_t,t) = f^i(x_t,t)-\frac{1}{p(x_t,t)}\sum_kg^{ik}(x_t,t)\sum_j\frac{\partial}{\partial x_t^j}[p(x_t,t)g^{jk}(x_t,t)]\]

이것이 Diffusion model에 사용되는 reverse-time diffusion equation이다. $g:\mathbb{R}\to\mathbb{R}$가 $x$에 의존하지 않고 $t$에만 의존하는 경우를 구체적으로 써보면, original SDE는 다음과 같고:

\[dx_t = f(x_t,t)dt + g(t)dw_t\]

Reverse-time SDE는 다음과 같아진다:

\[dx_t = \big(f(x_t,t)-g(t)^2\frac{\nabla_{x_t}p(x_t,t)}{p(x_t,t)}\big)dt + g(t)dB_t = \big(f(x_t,t) - g(t)^2\nabla_{x_t}\log p(x_t,t)\big)dt + g(t)dB_t\]

Reverse-time diffusion equation model의 배경지식과 유도

SDE의 기초

Basic Probability Concepts

An Important Example: Brownian Motion

Itô integral

Definition of Itô Integral

Itô Formula

Itô Diffusion

Application to Differential Equation

Kolmogorov Forward Equation

Kolmogorov Backward Equation

Reverse-Time Diffusion Equation Model에 대한 이해

The linear problem

Construction of reverse time nonlinear models

Trending Tags

Reverse-time diffusion equation model의 배경지식과 유도

SDE의 기초

Basic Probability Concepts

An Important Example: Brownian Motion

Itô integral

Definition of Itô Integral

Itô Formula

Itô Diffusion

Application to Differential Equation

Kolmogorov Forward Equation

Kolmogorov Backward Equation

Reverse-Time Diffusion Equation Model에 대한 이해

The linear problem

Construction of reverse time nonlinear models

Further Reading

Neural Network from the perspective of Information Geometry

Radiologist vs AI?

Learning Representations by Forward-Propagating Errors

Trending Tags