SDE의 기초
Basic Probability Concepts
Random variable $X$는 $X:X\to\mathbb{R}^n$이 $\mathcal{F}$-measurable function인 것을 말한다. 모든 random variable들은 다음 정의를 통해 probabiltiy measure로 정의가 가능하다:
\[\mu_X(B)=P(X^{-1}(B))\]이 때 probability measure $\mu_X$는 $X$의 distribution이라고 부른다.
| $\int_{X} | X(\omega) | dP(\omega)<\infty$였다면 다음 값 |
를 $X$의 expectation(기대값)이라고 부른다.
더 일반적으로 $\mathbb{E}[f(X)]$도 같은 방식으로 정의한다.
Random variable $X$에 대해서 $X$의 $L^p$-norm을
\[\|X\|_p=\bigg(\int_{X}|X(\omega)|^pdP(\omega)\bigg)^{1/p}\]로 정의하고
\[\|X\|_\infty=\inf\{N\in\mathbb{R}:|X(\omega)|\leq N\text{ a.s.}\}\]로 정의한다. 이로부터 유도되는 $L^p$-space는
\[L^p(P)=L^p(X)=\{X:X\to\mathbb{R}^n;\|X\|_p<\infty\}\]로 정의된다. 즉, finite $L^p$-norm을 가지는 random variable들의 집합이고 이 집합은 complete normed linear space, 즉 Banach space 구조를 가진다. $p=2$인 경우에는 이는 Hilbert space, 즉 complete inner product space가 되며 이 때 내적은
\[\langle X,Y\rangle:=\mathbb{E}[X\cdot Y]\]로 정의된다.
Independent는 다음처럼 정의된다:
\[P(A\cap B)=P(A)\cdot P(B)\]Measurable set $\mathcal{H}_i$들이 independent라는 것은
\[P(H_{i_1}\cap\cdots\cap H_{i_k})=P(H_{i_1})\cdots P(H_{i_k})\]for all choices of $H_{i_j}\in \mathcal{H}_{i_j}$들이라는 것이다.
Random variable들이 independent라는 것은 collection of generated $\sigma$-algebra $\mathcal{H}_{X_i}$들이 independent라는 것이다.
가 $(X,\mathcal{F},P)$위에 잘 정의되어 있을때를 말한다. 이 때 $T$는 주로 $[0,\infty]$이지만 경우에 따라서 달라질수도 있다. 고정된 $t$에 대해
\[\omega\to X_t(\omega);\quad\omega\in X\]와 고정된 $\omega$에 대해
\[t\to X_t(\omega);\quad t\in T\]가 정의됨도 상기하자. 후자는 path라고 불린다.
Process $X={X_t}_{t\in T}$의 (finite-dimensional) distribution at the measure $\mu_{t_1,\cdots,t_k}$는 $\mathbb{R}^{nk}$위에서 정의되고
\[\mu_{t_1,\cdots t_k}(F_1\times F_2\times \cdots\times F_k)=P[X_{t_1}\in F_1,\cdots,X_{t_k}\in F_k]\]로 정의된다. 이 때 $F_i$들은 Borel set들이다.
An Important Example: Brownian Motion
$x\in\mathbb{R}^n$을 고정하고,
\[p(t,x,y):=(2\pi t)^{-n/2}\cdot\exp\big(-\frac{|x-y|^2}{2t}\big)\quad\text{for }y\in\mathbb{R}^n,t>0\]로 정의하자. $0\leq t_1\leq\cdots\leq t_k$라고 두고 다음 수식을 만족하게 $\mathbb{R}^{nk}$ 위에 measure $\nu_{t_1,\cdots t_k}$를 정의한다:
\[\nu_{t_1,\cdots,t_k}(F_1\times\cdots\times F_k)=\int_{F_1\times\cdots\times F_k}p(t_1,x,x_1)p(t_2-t_1,x_1,x_2)\cdots p(t_k-t_{k-1},x_{k-1}x_k)dx_1\cdots dx_k\](Eq. 2.1)에 의해서 $\int_{\mathbb{R}^n}p(t,x,y)dy=1$이고 $\nu_{t_1,\cdots,t_k}(F_1\times\cdots\times F_k)=\nu_{t_1,\cdots,t_k,t_{k+1},\cdots,t_{k+m}}(F_1\times\cdots\times F_k\times\mathbb{R}^n\times\cdots\times\mathbb{R}^n)$이 성립하므로 다음의 Komogorov’s extension theorem을 적용하여:
-
$\nu_{t_{\sigma(1)},\cdots,t_{\sigma(k)}}(F_1\times\cdots\times F_k)=\nu_{t_1,\cdots,t_k}(F_{\sigma^{-1}(1)}\times\cdots\times F_{\sigma^{-1}(k)})$ for all permutations $\sigma$ on ${1,\cdots,k}$.
-
$\nu_{t_1,\cdots,t_k}(F_1\times\cdots\times F_k)=\nu_{t_1,\cdots,t_k,t_{k+1},\cdots,t_{k+m}}(F_1\times\cdots\times F_k\times\mathbb{R}^n\times\cdots\times\mathbb{R}^n)$ for all $m\in\mathbb{N}$.
그러면 probability space $(X,\mathcal{F},P)$가 존재하고 stochastic process ${X_t}$ on $X$가 존재하여, 모든 $t_i\in T$, $k\in\mathbb{N}$ and all Borel sets $F_i$에 대해 다음 조건을 만족하는 $X_t:X\to\mathbb{R}^n$이 존재한다:
\[\nu_{t_1,\cdots,t_k}(F_1\times\cdots\times F_k)=P[X_{t_1}\in F_1,\cdots,X_{t_k}\in F_k]\]우리는 probability space $(X,\mathcal{F},P^x)$가 존재하고 stochastic process ${B_t}_{t\geq 0}$이 $X$ 위에 존재하여 다음이 만족됨을 안다:
\[P^x(B_{t_1}\in F_1,\cdots,B_{t_k}\in F_k)=\int_{F_1\times\cdots\times F_k}p(t_1,x,x_1)\cdots p(t_k-t_{k-1},x_{k-1},x_k)dx_1\cdots dx_k\]Brownian motion의 기본적 성질부터 살펴보자.
Brownian motion은 Gaussian process이다. 즉, $0\leq t_1\leq\cdots\leq t_k$에 대해서 random variable $Z=(B_{t_1},\cdots,B_{t_k})\in\mathbb{R}^{nk}$는 (multi)normal distribution을 가진다.
$P^x$에 대한 expectation $\mathbb{E}^x$에 대해서,
\[\mathbb{E}^x[B_t]=x\]가 성립한다. 이의 증명은 다소 verbose하므로 생략한다.
$\mathbb{E}^x[(B_t-x)^2]=t$, $\mathbb{E}^x[(B_t-x)(B_s-x)]=\min(s,t)$이다.
가 된다.
또한, $\mathbb{E}^x[(B_t-B_s)^2]=t-s$가 성립한다. (단, $t\geq s$.)
가 된다. ◻
$B_t$는 independent increments, 즉
\[B_{t_1},B_{t_2}-B_{t_1},\cdots\]들은 독립이다. 이를 증명하기 위해서는 normal random variable들이 independent일 필요충분조건은 uncorrelated임을 증명하면 된다. 즉,
\[\mathbb{E}^x[(B_{t_i}-B_{t_{i-1}})(B_{t_j}-B_{t_{j-1}})]=0\]임을 보이면 된다. 이는
\[\begin{aligned} \mathbb{E}^x[(B_{t_i}-B_{t_{i-1}})(B_{t_j}-B_{t_{j-1}})]&=\mathbb{E}^x[B_{t_{i}}B_{t_{j}}-B_{t_{i-1}}B_{t_j}-B_{t_{i}}B_{t_{j-1}}+B_{t_{i-1}}B_{t_{j-1}}]\\&=t_i-t_{j-1}-t_{i}+t_{j-1}=0 \end{aligned}\]로 증명된다. ◻
Itô integral
Definition of Itô Integral
Noise에 대해서 적분을 하려면, noise를 정의하는 것이 첫 단추일 것이다. 우리가 생각하는 noise를 직관적으로 풀어 쓰면 다음과 같다:
-
$t_1\neq t_2$ → $W_{t_1}$과 $W_{t_2}$는 독립이다.
-
$W_{t_1+t},\cdots,W_{t_k+t}$는 $t$에 의존하지 않는다. 즉, ${W_t}$는 stationary이다.
-
$\mathbb{E}[W_t]=0$이다.
하지만 불행하게도, 위를 만족하는 reasonable한 continuous noise는 존재하지 않는다. 다음 명제를 살펴보자.
하지만, $W_t$를 white noise process라는 generalized stochastic process로 일반화하는 것은 가능하다. 여기서 그러한 내용을 다루지는 않을 것이고, 다만 적당히 좋은 white noise process, 즉 stationary independent increments with mean 0인 noise를 구성하는 것이 가능하다는 것만 기억하자. 이 noise는 결론적으로 Brownian motion $B_t$ 밖에 없다는 것이 알려져 있으므로 우리는 discrete level에서 stochastic differential equation을 쓸 수 있다:
\[X_k=X_0 + \sum_{j=0}^{k-1}b(t_j,X_j)\Delta t_j + \sum_{j=0}^{k-1}\sigma(t_j,X_j)\Delta B_j\]만약, $\Delta t_j\to0$으로 보내면 우리는 위 식을 다음처럼 쓸 수 있을까?
\[X_t=X_0+\int_0^tb(s,X_s)ds+``\int_0^t\sigma(s,X_s)dB_s"\]이 때
\[``\int_0^t\sigma(s,X_s)dB_s"\]가 의미하는 것이 우리가 앞으로 할 일이다. 해석학에서의 경험에서처럼, simple function으로부터 출발하자.
\[\phi(t,\omega)=\sum_{j\geq0}e_j(\omega)\cdot\chi_{[j\cdot2^{-n},(j+1)2^{-n})}(t)\]라는 simple function이 있다고 하자. 그러면 우리는
\[t_k=t_k^{(n)}=\begin{cases}k\cdot2^{-n}&\text{if }S\leq k\cdot2^{-n}\leq T\\S&\text{if }k\cdot2^{-n}<S\\T&\text{if }k\cdot2^{-n}>T\end{cases}\]인 $t_k$에 대해서
\[\int_S^T\phi(t,\omega)dB_t(\omega)=\sum_{j\geq0}e_j(\omega)\[B_{t\_{j+1}}-B_{t\_j}\](\omega)\]로 정의할 수 있을 것이다. 그런데 조그마한 문제가 있다.
그러면, $B_t$는 independent increments를 가지고 있으므로
\[\mathbb{E}\bigg[\int_0^T\phi_1(t,\omega)dB_t(\omega)\bigg]=\sum_{j\geq0}\mathbb{E}[B_{t_j}(B_{t_{j+1}}-B_{t_j})]=0\]이다. 하지만,
\[\begin{aligned} \mathbb{E}\bigg[\int_0^T\phi_1(t,\omega)dB_t(\omega)\bigg]&=\sum_{j\geq0}\mathbb{E}[B_{t_{j+1}}(B_{t_{j+1}}-B_{t_j})]\\&=\sum_{j\geq0}\mathbb{E}[(B_{t_{j+1}}-B_{t_j})^2]\\&=T \end{aligned}\]이 된다. 결국, 어느 점을 기준으로 삼느냐라는 미묘한 차이에 따라서 결과가 완전히 상반되게 나오게 된다.
정리하자면 다음과 같다:
\[\sum_jf(t^{\ast}_j,\omega)\cdot\chi_{[t_j,t_{j+1})}(t)\]라는 Riemann-Stieltjes 적분과 비슷한 꼴이 있을 때,
-
$t^{\ast}_j=t_j$인 경우를 Itô integral이라고 부른다.
-
$t^{\ast}_j=(t_j+t_{j+1})/2$인 경우를 Stratonovich integral이라고 부른다.
다음 정리는 Itô isometry라고 불린다:
이다.
이를 조금 더 일반화하면 다음이 성립한다.
따라서
\[\begin{aligned} \mathbb{E}\bigg[\bigg(\int_S^T\phi(t,\omega)dB_t(\omega)\bigg)^2\bigg]&=\sum_{i,j}\mathbb{E}[e_ie_j\Delta B_i\Delta B_j]=\sum_j\mathbb{E}[e^2_i](t_{i+1} -t_i)\\&=\mathbb{E}\bigg[\int_S^T\phi(t,\omega)^2dt\bigg] \end{aligned}\]가 성립한다. ◻
이를 몇 단계를 거쳐 simple function에서 적당히 좋은 함수로 확장할 수 있다. 적당히 좋은 함수는 따로 조건이 있긴 하지만, 본 글에서 엄밀하게 다루지는 않기로 한다. 궁금한 독자들은 다음의 정의에서 힌트를 얻을 수 있을 것이다:
로 정의된다. 이 때 ${\phi_n}$은
\[\mathbb{E}\bigg[\int_S^T(f(t,\omega)-\phi_n(t,\omega))^2dt\bigg]\to0\quad\text{ as }n\to\infty\]를 만족하는 elementary 함수열이다.
이다.
구체적인 계산을 해보자.
이다.
따라서 위 Corollary에 의해
\[\int_0^tB_sdB_s=\lim_{\Delta t_j\to0}\int_0^t\phi_ndB_s=\lim_{\Delta t_j\to0}\sum_jB_j\Delta B_j\]이다. 이제
\[\Delta(B_j^2)=B_{j+1}^2-B_j^2=(B_{j+1}-B_j)^2+2B_j(B_{j+1}-B_j)=(\Delta B_j)^2+2B_j\Delta B_j\]라는것으로부터
\[B_t^2=B_t^2-0=B_t^2-B_0^2\]이므로 (eq:2.3)을 적용하여
\[B_t^2=\sum_j\Delta(B_j^2)=\sum_j(\Delta B_j)^2+2\sum_jB_j\Delta B_j\]이므로
\[\sum_jB_j\Delta B_j = \frac{1}{2}B_t^2-\frac{1}{2}\sum_j(\Delta B_j)^2\]이 된다. 위에서 공부하기로 $\mathbb{E}^x[(B_t-B_s)^2]=t-s$ for $t\geq s$였으므로,
\[\begin{aligned} \mathbb{E}\bigg[\bigg(\sum_j(\Delta B_j)^2-t\bigg)^2\bigg]&=\mathbb{E}\bigg[\bigg(\sum_j(\Delta B_j)^2\bigg)^2-2t\sum_j(\Delta B_j)^2+t^2\bigg]\\&=\mathbb{E}\bigg[\bigg(\sum_j(\Delta B_j)^2\bigg)^2\bigg]-2t\sum\Delta t_j+t^2\\&=\mathbb{E}\bigg[\bigg(\sum_j(\Delta B_j)^2\bigg)^2\bigg]-2t^2+t^2=\mathbb{E}\bigg[\bigg(\sum_j(\Delta B_j)^2\bigg)^2\bigg]-t^2 \end{aligned}\]가 되고, $\text{Var}(X)=\mathbb{E}[X^2]-(\mathbb{E}[X])^2$이므로
\[\mathbb{E}\bigg[\bigg(\sum_j(\Delta B_j)^2\bigg)^2\bigg]=\text{Var}\bigg[\sum_j(\Delta B_j)^2\bigg]+\bigg(\mathbb{E}\bigg[\sum_j(\Delta B_j)^2\bigg]\bigg)^2=\text{Var}\bigg[\sum_j(\Delta B_j)^2\bigg]+t^2\]이 된다. 따라서
\[\mathbb{E}\bigg[\bigg(\sum_j(\Delta B_j)^2-t\bigg)^2\bigg]=\text{Var}\bigg[\sum_j(\Delta B_j)^2\bigg]\]인데 $B_j$는 independent increment를 가지므로
\[\text{Var}\bigg[\sum_j(\Delta B_j)^2\bigg]=\sum_j\text{Var}\big[(\Delta B_j)^2\big]\]가 된다. $X\sim\mathcal{N}(0,\sigma^2)$에 대해서 4차 moment $\mathbb{E}[X^4]=3\sigma^2$이므로,
\[\text{Var}[X^2]=\mathbb{E}[X^4]-(\mathbb{E}[X])^2=3\sigma^2-\sigma^2=2\sigma^2\]이게 되고, 이로부터
\[\text{Var}\bigg[\sum_j(\Delta B_j)^2\bigg]=\sum_j\text{Var}\big[(\Delta B_j)^2\big]=\sum_j2(\Delta t_j)^2=2\sum_j(\Delta t_j)^2\]를 얻는다. 정리하자면,
\[\mathbb{E}\bigg[\bigg(\sum_j(\Delta B_j)^2-t\bigg)^2\bigg]=2\sum_j^N(\Delta t_j)^2\leq2\cdot\frac{1}{N}\bigg(\sum_j^N\Delta t_j\bigg)^2=\frac{2t^2}{N}\]이고 $N$을 무한대로 보내면, 즉, $\Delta t_j\to0$으로 보내면
\[\lim_{\Delta t_j\to0}\sum_j(\Delta B_j)^2=t\]을 얻는다. 따라서
\[\int_0^tB_sdB_s=\lim_{\Delta t_j\to0}\int_0^t\phi_ndB_s=\lim_{\Delta t_j\to0}\sum_jB_j\Delta B_j=\frac{1}{2}B_t^2-\frac{1}{2}t\]가 된다. ◻
-
$\int_S^TfdB_t=\int_S^UfdB_t + \int_U^TfdB_t$이다.
-
$\int_S^T(cf+g)dB_t=c\int_S^TfdB_t+\int_S^TgdB_t$이다.
-
$\mathbb{E}[\int_S^TfdB_t]=0$이다.
Itô Formula
여기서는 1차원 Itô formula를 살펴보기로 한다.
또한 $g(t,x)$가 twice continuously differentiable on $[0,\infty)\times\mathbb{R}$, 즉 $g\in C^2([0,\infty)\times\mathbb{R})$이라고 하자. 그러면 $Y_t=g(t,X_t)$ 또한 Itô formula이며
\[dY_t=\frac{\partial g}{\partial t}(t,X_t)dt + \frac{\partial g}{\partial x}(t,X_t)dX_t+\frac{1}{2}\frac{\partial^2g}{\partial x^2}(t,X_t)\cdot(dX_t)^2\]가 성립한다. 이 때 $(dX_t)^2=(dX_t)\cdot(dX_t)$는 다음의 규칙에 의해서 계산된다:
\[dt\cdot dt=dB_t\cdot dt=dt\cdot dB_t=0,\quad dB_t\cdot dB_t=dt\]위에서 살펴본 예제를 다시 살펴보자.
이다.
이다. Itô formula에 의해,
\[\begin{aligned} d(\frac{1}{2}B_t^2)=dY_t&=\frac{\partial g}{\partial t}(t,X_t)dt + \frac{\partial g}{\partial x}(t,X_t)dX_t+\frac{1}{2}\frac{\partial^2g}{\partial x^2}(t,X_t)\cdot(dX_t)^2\\&=0dt+B_tdB_t+\frac{1}{2}\cdot1\cdot(dB_t)^2=B_tdB_t+\frac{1}{2}dt \end{aligned}\]이다. 정리하면
\[B_tdB_t=d(\frac{1}{2}B_t^2)-\frac{1}{2}dt\]이므로
\[\int_0^tB_sdB_s=\frac{1}{2}B_t^2-\frac{1}{2}t\]가 성립한다. ◻
두 번째 예시를 살펴보자.
이다.
가 된다. 따라서
\[sdB_s=d(sB_s)-B_sds\]가 되므로
\[\int_0^tsdB_s=tB_t-\int_0^tB_sds\]가 성립한다. ◻
위 예시를 살펴보면, 마치 부분적분처럼 작동함을 알 수 있다. 이를 일반화한 것도 성립한다:
가 성립한다.
Itô Diffusion
항상 이 극한을 계산하는 것은 지루하기 때문에 한 번에 계산할 수 있는 공식을 소개한다.
Application to Differential Equation
Kolmogorov Forward Equation
1-dimensional Itô diffusion \(dX_t = b(x)dt + a(x)dB_t\) 의 1-dimensional infinitesimal generator $A$를 다음처럼 정의하자. \(A = a(x)\frac{\partial ^2}{\partial x^2} + b(x)\frac{\partial }{\partial x}\) 단, $a\in C^2$, $b\in C^1$. 그러면 다음의 adjoint operator of $A$, $A^{\ast}$는 \(A^{\ast}f(x) = \frac{\partial ^2}{\partial x^2}\big(a(x)f(x)\big) - \frac{\partial }{\partial x}\big(b(x)f(x)\big)\) 로 정의되고 다음을 만족한다. \(\langle A\phi, \psi\rangle = \langle\phi, A^{\ast}\psi\rangle\quad\text{in }L^2(dx), \phi\in C^2_0, \psi\in C^2\)
이를 정리하면 \(\langle A\phi,\psi\rangle = \langle\phi,A^{\ast}\psi\rangle\quad\text{for }\phi\in C_0^2, \psi\in C^2\) 이제 $X_t$가 density $p_t(x,y)$를 가진다는 것을 \(\mathbb{E}^x[f(X_t)] = \int_{\mathbb{R}^n}f(y)p_t(x,y)dy\) 를 만족하는 $p_t(x,y)$가 존재한다는 것으로 정의하면 (for every $f$) Dynkin’s formula에 의해서 \(\int_{\mathbb{R}^n}f(y)p_t(x,y)dy = f(x) + \int_0^t\int_{\mathbb{R}^n}A_yf(y)p_s(x,y)dyds;\quad f\in C_0^2\) 이 성립하고 양변을 $t$에 대해서 미분하면 \(\int_{\mathbb{R}^n}f(y)\frac{\partial}{\partial t}p_t(x,y)dy = \int_{\mathbb{R}^n}A_yf(y)p_t(x,y)dy,\quad f\in C_0^2\) 가 된다. 이제 (Eq. adjoint)를 사용하면 \(\int_{\mathbb{R}^n}f(y)\frac{\partial}{\partial t}p_t(x,y)dy = \int_{\mathbb{R}^n}f(y)A^{\ast}_yp_t(x,y)dy\) for any $f\in C_0^2$이므로
\[\frac{\partial}{\partial t}p_t(x,y) = A^{\ast}_yp_t(x,y)\]가 성립한다. 이 식 (Eq. kolmogorovforwardeq)를 Kolmogorov forward equation, 혹은 Fokker-Planck equation이라고 부른다.
Kolmogorov Backward Equation
$u(x,t):=\mathbb{E}^x[f(X_t)]$로 두고 $g(x):=u(x,t)$로 두자. 그러면,
\[\begin{aligned} \frac{\mathbb{E}^x[g(X_r)]-g(x)}{r} &= \frac{1}{r}\cdot\mathbb{E}^x[\mathbb{E}^{X_r}[f(X_t)]-\mathbb{E}^x[f(X_t)]] &=\frac{1}{r}\cdot\mathbb{E}^x[\mathbb{E}^x[f(X_{t+r}|\mathcal{F}_r]-\mathbb{E}^x[f(X_t)|\mathcal{F}_r]] &=\frac{1}{r}\cdot\mathbb{E}^x[f(X_{t+r})-f(X_t)] &=\frac{u(t+r,x)-u(t,x)}{r}\to\frac{\partial u}{\partial t} \end{aligned}\]이 된다. 이 식을 정리한 \(\frac{\partial p_t(x,y)}{\partial t} = -A_yp\) 를 Kolmogorov backward equation이라고 한다.
Reverse-Time Diffusion Equation Model에 대한 이해
여기에서는 Reverse-Time Diffusion Equation Model(논문 링크: 논문 링크)에 대한 이해를 해 본다.
The linear problem
먼저 아이디어부터 잡아 보자. $x$를 nondeteministic, stationary $n$-dimensional process라고 하고 다음을 만족한다고 하자.
\[dx = Axdt + BdB_t\]이 때 $A$, $B$는 constant matrices이고 $\text{Re}[\lambda_i(A)]<0$ for all $i$라고 두며 $B_t$는 standard Brownian motion (=Wiener process)이며 $x(t)$가 미래의 $w$의 increment에 대해서는 independent이고 과거의 $w$에 대해서는 dependent라고 하자. 즉, $t_2>t_1\geq t$라고 하면 $w(t_2)-w(t_1)$은 $x(t)$와 independent이지만 $t_3<t_4\leq t$에 대해서는 $w(t_3)-w(t_4)$가 dependent일 수도 있다고 하자. 이러한 모델을 우리는 forward time model이라고 부르기로 하자. 이 방정식의 해는
\[x(t)=\int_{-\infty}^te^{A(t-s)}BdB_s\]로 표현될 수 있다. 이와 대조적으로, reverse time model은 \(dx = \bar{A}xdt + \bar{B}d\bar{B}_t\) 의 꼴로 $\text{Re}[\lambda_i(\bar{A})]>0$ for all $i$이고 $\bar{B}_t$는 과거의 $x(t)$와는 independent이고 미래의 것들과는 그렇지 않은 Wiener process라고 하자. 이는 물리적으로 시간을 역행해서 가는 process로 이해할 수 있으며 해는
\[x(t) = -\int_t^{\infty}e^{\bar{A}(t-s)}\bar{B}d\bar{B}_s\]가 될 것이다. 이 문제는 $x(t)$의 forward time representation으로부터 reverse-time representation을 유도하는 과정으로 이해될 수 있다. 이 문제를 풀기 위해서
\[P=\mathbb{E}[x(t)x(t)^T]\]로 두자. 그러면 먼저 관찰 \(\frac{d}{dt}\bigg(e^{Mt}Ne^{M^Tt}\bigg)=Me^{Mt}Ne^{M^Tt}+e^{Mt}Ne^{M^Tt}M^T\)
으로부터 \(P=\int_{-\infty}^te^{A(t-s)}BB^Te^{A^T(t-s)}ds\)
로 두었을 때
\[\begin{aligned} AP+PA^T =& A\bigg(\int_{-\infty}^te^{A(t-s)}BB^Te^{A^T(t-s)}ds\bigg) +\bigg(\int_{-\infty}^t e^{A(t-s)}BB^Te^{A^T(t-s)}ds\bigg)A^T =&\int_{-\infty}^t\bigg(Ae^{A(t-s)}BB^Te^{A^T(t-s)}+e^{A(t-s)}BB^Te^{A^T(t-s)}A^T\bigg)ds =&-\int_{-\infty}^t\frac{d}{ds}\bigg(e^{A(t-s)}BB^Te^{A^T(t-s)}\bigg)ds =&-\bigg[e^{A(t-s)}BB^Te^{A^T(t-s)}\bigg]_{-\infty}^t =&-BB^T\quad\quad(\because\text{Re}[\lambda_i(A)]<0\quad\forall i) \end{aligned}\]이 성립한다. 이제 이 $P$가 $\mathbb{E}[x(t)x(t)^T]$와 일치하는지 보기 위해 Itô isometry를 벡터함수에 적용한
\[\mathbb{E}\bigg[\bigg(\int_a^bX_tdB_t\bigg)\bigg(\int_a^bY_tdB_t\bigg)^T\bigg] = \mathbb{E}\bigg[\int_a^bX_tY_t^Tdt\bigg]\]를 생각하고
\[\begin{aligned} P=\mathbb{E}[P]&=\mathbb{E}\bigg[\int_{-\infty}^te^{A(t-s)}BB^Te^{A^T(t-s)}ds\bigg]\\&=\mathbb{E}\bigg[\int_{-\infty}^t(e^{A(t-s)}B)(e^{A(t-s)}B)^Tds\bigg] &=\mathbb{E}\bigg[\bigg(\int_{-\infty}^te^{A(t-s)}BdB_s\bigg)\bigg(\int_{-\infty}^te^{A(t-s)}BdB_s\bigg)^T\bigg]\\&=\mathbb{E}[x(t)x(t)^T] \end{aligned}\]가 된다. 따라서 두 값은 일치한다. 이제 가역 조건을 보이기 위해 augmented matrix $\begin{bmatrix}B&AB&\cdots&A^{n-1}B\end{bmatrix}$의 rank가 $n$이라고 하자. 이는 $B$의 rank가 $n$이라는 말이며 동시에 $i<n$에 대해 $A^i$가 invertible이라는 말이다. 즉, $A$, $B$가 모두 invertible이라는 말이고 이는 $P$가 invertible이라는 결론으로 이어진다. 따라서 이 $P$는 matrix equation $AP+PA^T=-BB^T$의 해로 생각될 수 있다. 이제 vector process $\bar{w}$를
\[d\bar{B}_t:=dB_t-B^TP^{-1}xdt\]로 정의하면
\[dx = Axdt + BdB_t\]와 합쳤을 때
\[dx=(A+BB^TP^{-1})dt+Bd\bar{B}_t\]를 얻는다.
그러면 $\text{Re}[\lambda_i(A+BB^TP^{-1})]\geq0$임을 얻을 수 있고 따라서 이는 reverse-time model이 된다.
Construction of reverse time nonlinear models
$(\Omega, \mathcal{A},P)$를 고정된 probability space라고 하고 ${\mathcal{A}_t,-\infty<t<\infty}$를 증가하는 sub-$\sigma$-algebra of $\mathcal{A}$라고 하자. 그리고 ${B_t,-\infty<t<\infty}$를 $r$-차원 Brownian motion이라고 하고 $B_t$가 $\mathcal{A}_t$-measurable이며 $t\geq s$에 대해 $B_t-B_s$를 $\mathcal{A}_s$에 대해 independent라고 하자. 우리는 $s\geq0$에 대해
\[\mathbb{E}[B_{t+s}|\mathcal{A_t}]=B_t \mathbb{E}[(B_{t+s}-B_t)(B_{t+s}-B_t)^T|\mathcal{A}_t]=sI\]라고 정의한다. 이제 Ito stochastic differential equation을 다음의 형태라고 가정한다:\(dx_t=f(x_t,t)dt+g(x_t,t)dB_t\) 이 때 $x_t$는 $n$-vector stochastic process이고 $f(\cdot,\cdot)$과 $g(\cdot,\cdot)$은 적당히 smooth하고 growth property를 가지는 $n\times1$과 $n\times n$ mtrix function이라고 하자. 이제 reverse-time model의 의미를 생각해 보기 위해 decreasing familyt ${\bar{\mathcal{A}}_t,-\infty<t<\infty}$ of sub-$\sigma$-algebras on $\mathcal{A}$를 생각하고 $n$-vector process ${\bar{B}_t,-\infty<t<\infty}$를 생각해서 $\bar{B}_t$가 $\bar{\mathcal{A}}_t$-measurable for each $t$이고, for each $\bar{B}_t-\bar{B}_s$ for $t\geq s$에 대해 $\bar{\mathcal{A}}_t$에 대해서 independent이고 $s\geq0$에 대해
\[\begin{aligned} &\mathbb{E}[\bar{B}_t|\bar{\mathcal{A}}_{t+s}]=\bar{B}_{t+s} &\mathbb{E}[(\bar{B}_t-\bar{B}_{t+s})(\bar{B}_t-\bar{B}_{t+s})^T|\bar{\mathcal{A}}_{t+s}]=sI \end{aligned}\]라고 하자. 그러면 이 process는 reverse-time Itô equation of the form \(dx_t = \bar{f}(x_t,t)dt + \bar{g}(x_t,t)d\bar{B}_t\) 를 준다. 이는 $t\leq T$에 대한 방정식을 주는 것으로 이해할 수 있다. 그러면 다음과 같은 관계식을 얻는 것이 가능하다: \(x_T-x_t = \int_t^T\bar{f}(x_t,t)dt + \int_t^T\bar{g}(x_t,t)d\bar{B}_t\) 이 때 두 번째 적분은 backward Itô integral이다. 이제 probability density를 $p(x_t,t|x_s,s)$ for $t>s$라고 할 때
\[\begin{aligned} &dx_t = f(x_t,t)dt + g(x_t,t)dB_t, &d\bar{B}_t^k = \frac{1}{p(x_t,t)}\sum_j\frac{\partial}{\partial x_t^j}[p(x_t,t)g^{jk}(x_t,t)]dt+dB_t^k \end{aligned}\]로 두자. 단, $k=1,\cdots,r$. 이에 해당하는 forward Kolmogorov equation을 구하기 위해 다음처럼 써보자.
\[\begin{aligned} d\begin{pmatrix}x_t\\\overline{B}_t\end{pmatrix} = \begin{pmatrix}f(x_t,t)\\\frac{1}{p(x_t,t)}\sum_j\frac{\partial}{\partial x_t^j}\bigg[p(x_t,t)g^{j\circ}(X_t,t)\bigg]\end{pmatrix}dt + \begin{pmatrix}g(x_t,t)\\1\end{pmatrix}dB_t \end{aligned}\]이제 여기에 Fokker-Planck equation을 적용하면
\[\begin{aligned} \frac{\partial p(x_t,\bar{B}_t,t)}{\partial t} =& -\sum_{i=1}^n\frac{\partial}{\partial x_t^i}[p(x_t,\overline{B}_t,t)f^i(x_t,t)]\\ &-\sum_{k=1}^r\frac{\partial}{\partial\overline{B}_t}\bigg\{\frac{p(x_t,\overline{B}_t,t)}{p(x_t,t)}\sum_j\frac{\partial}{\partial x_t^j}[p(x_t,t)g^{ik}(x_t,t)]\bigg\}\\ &+\frac{1}{2}\sum_{i,j=1}^n\frac{\partial^2}{\partial x_t^i\partial x_t^j}\{p(x_t,\overline{B}_t,t)[g(x_t,t)g^T(x_t,t)]^{ij}\}\\ &+\frac{1}{2}\sum_{k,l=1}^r\frac{\partial^2}{\partial\overline{B}_t\partial\overline{B}_t}[p(x_t,\overline{B}_t,t)]\\ &+\frac{1}{2}\sum_{i=1}^n\sum_{k=1}^r\frac{\partial^2}{\partial x_t^i\partial\overline{B}_t^k}[p(x_t,\overline{B}_t,t)g^{ik}(x_t,t)]\\ &+\frac{1}{2}\sum_{i=1}^n\sum_{k=1}^r\frac{\partial^2}{\partial\overline{B}_t^k\partial x_t^i}[p(x_t,\overline{B}_t,t)g^{ik}(x_t,t)]\\ =& -\sum_{i=1}^n\frac{\partial}{\partial x_t^i}[p(x_t,\overline{B}_t,t)f^i(x_t,t)]\\ &-\sum_{k=1}^r\frac{\partial}{\partial\overline{B}_t}\bigg\{\frac{p(x_t,\overline{B}_t,t)}{p(x_t,t)}\sum_j\frac{\partial}{\partial x_t^j}[p(x_t,t)g^{ik}(x_t,t)]\bigg\}\\ &+\frac{1}{2}\sum_{i,j=1}^n\frac{\partial^2}{\partial x_t^i\partial x_t^j}\{p(x_t,\overline{B}_t,t)[g(x_t,t)g^T(x_t,t)]^{ij}\}\\ &+\frac{1}{2}\sum_{k,l=1}^r\frac{\partial^2}{\partial\overline{B}_t\partial\overline{B}_t}[p(x_t,\overline{B}_t,t)]\\ &+\sum_{i=1}^n\sum_{k=1}^r\frac{\partial^2}{\partial x_t^i\partial\overline{B}_t^k}[p(x_t,\overline{B}_t,t)g^{ik}(x_t,t)] \end{aligned}\]이 된다. 이 때 초기조건은 \(p(x_{t_0},\overline{B}_{t_0},t_0)=p(x_{t_0},t_0)\delta(\overline{B}_{t_0})\) 로 설정한다. 그리고 다음의 보조정리들을 합치자.
&+\frac{1}{2}p(x_t,t)\sum_{k,l=1}^r\frac{\partial^2}{\partial\overline{B}_t\partial\overline{B}_t}[\phi(\overline{B}_t,t)] \end{aligned} $$
가 되고 결론적으로
\[\frac{\partial}{\partial t}\phi(\overline{B}_t,t) = \frac{1}{2}\sum_{k,l}\frac{\partial^2}{\partial\overline{B}_t^k\partial\overline{B}_t^l}\phi(\overline{B}_t,t)\]이다. 이는 heat equation이고 주어진 조건에 의해 (Eq. ans)의 해가 된다. ◻
이제 거의 다 왔다. (Eq. original)과 (Eq. original2)을 서로 대입해주면
\[dx_t^i = \bigg(f^i(x_t,t)-\frac{1}{p(x_t,t)}\sum_kg^{ik}(x_t,t)\sum_j\frac{\partial}{\partial x_t^j}[p(x_t,t)g^{jk}(x_t,t)]\bigg)dt + \sum_kg^{ik}(x_t,t)d\overline{B}_t^k = \hat{f}(x_t,t)dt + g(x_t,t)d\overline{B}_t\]를 얻을 수 있다. 이제 편의상 $g(x_t,t) = G_t$로 두면
\[\begin{aligned} \int_0^TG_td\overline{B}_t &= \lim_{t\to0}\sum_{i=0}^{T/\Delta t}G_{iT/\Delta t}(\overline{B}_{(i+1)T/\Delta t}-\overline{B}_{iT/\Delta t}) &=\lim_{t\to0}\sum_{i=0}^{T/\Delta t}(G_{iT/\Delta t} + G_{(i+1)T/\Delta t} - G_{(i+1)T/\Delta t}(\overline{B}_{(i+1)T/\Delta t}-\overline{B}_{iT/\Delta t}) &=\lim_{t\to0}\sum_{i=0}^{T/\Delta t}(G_{iT/\Delta t} - G_{(i+1)T/\Delta t}(\overline{B}_{(i+1)T/\Delta t}-\overline{B}_{iT/\Delta t}) + \sum_{i=0}^{T/\Delta t}G_{(i+1)T/\Delta t}(\overline{B}_{(i+1)T/\Delta t}-\overline{B}_{iT/\Delta t}) &=\lim_{t\to0}\sum_{i=0}^{T/\Delta t}(G_{iT/\Delta t} - G_{(i+1)T/\Delta t})(\overline{B}_{(i+1)T/\Delta t}-\overline{B}_{iT/\Delta t}) +\int_T^0G_td\overline{B}_t \end{aligned}\]이다. 여기서 마지막 항이 reverse time에 대해 게산됨을 주의하자. Reverse-time term을 $(d\overline{B}_t)^R$로 적자. Correction term을
\[C:=\lim_{t\to0}\sum_{i=0}^{T/\Delta t}(G_{iT/\Delta t} - G_{(i+1)T/\Delta t})(\overline{B}_{(i+1)T/\Delta t}-\overline{B}_{iT/\Delta t})\]으로 두면
\[\begin{aligned} C^k &= \lim_{\Delta t\to0}\sum_{i=0}^{T/\Delta t}\sum_l (G_{iT/\Delta t} - G_{(i+1)T/\Delta t})^{kl}(\overline{B}_{(i+1)T/\Delta t}-\overline{B}_{iT/\Delta t})^l &=-\sum\_l\lim_{\Delta t\to 0}\sum_{i=0}^{T/\Delta t}(G_{(i+1)T/\Delta t} - G_{iT/\Delta t})^{kl}(\overline{B}\_{(i+1)T/\Delta t}-\overline{B}\_{iT/\Delta t})^l &=-\sum\_l\int_0^TdG_t^{kl}d\overline{B}\_t^l &=-\sum\_l\int_0^Td(g^{kl}(x\_t,t))(A^l(x\_t,t)dt + dB_t^l) &=-\sum\_l\int_0^T(B^l(x_t,t)dt + \nabla g^{kl}(x_t,t)^Tg(x_t,t)dB_t)(A^l(x_t,t)dt + dB_t^l) &=-\sum\_{l,m}\int_0^T(\frac{\partial g^{kl}}{\partial x_m}(x_t,t)g^{mn}(x_t,t)dB_t^n)(dB_t^l) &=-\sum_{l,m}\int_0^T\frac{\partial g^{kl}}{\partial x_m}(x_t,t)^mg^{ml}(x_t,t)dt \end{aligned}\]단, $A,B$는 다차원 Itô 공식에서 나오는 부가항들. 그러면
\[dC_t^k = -\sum_{l,m}\frac{\partial g^{kl}}{\partial x_m}(x_t,t)^mg(x_t,t)^{ml}dt\]가 되므로 결국 우리가 얻고자 하는
\[\begin{aligned} dx_t^k &= dC_t^k + \hat{f}^k(x_t,t)dt + \sum_l g^{kl}(x_t,t)(d\overline{B}_t^l)^R &=\bigg(\hat{f}(x_t,t) - \sum_{l,m}\frac{\partial g^{kl}}{\partial x_m}(x_t,t)g^{ml}(x_t,t)\bigg)dt + \sum_lg^{kl}(x_t,t)(d\overline{B}_t^l)^R \end{aligned}\]이 된다. 단,
\[\hat{f}(x_t,t) = f^i(x_t,t)-\frac{1}{p(x_t,t)}\sum_kg^{ik}(x_t,t)\sum_j\frac{\partial}{\partial x_t^j}[p(x_t,t)g^{jk}(x_t,t)]\]이것이 Diffusion model에 사용되는 reverse-time diffusion equation이다. $g:\mathbb{R}\to\mathbb{R}$가 $x$에 의존하지 않고 $t$에만 의존하는 경우를 구체적으로 써보면, original SDE는 다음과 같고:
\[dx_t = f(x_t,t)dt + g(t)dw_t\]Reverse-time SDE는 다음과 같아진다:
\[dx_t = \big(f(x_t,t)-g(t)^2\frac{\nabla_{x_t}p(x_t,t)}{p(x_t,t)}\big)dt + g(t)dB_t = \big(f(x_t,t) - g(t)^2\nabla_{x_t}\log p(x_t,t)\big)dt + g(t)dB_t\]