SDE의 기초
Basic Probability Concepts
Random variable $X$는 $X:X\to\mathbb{R}^n$이 $\mathcal{F}$-measurable function인 것을 말한다. 모든 random variable들은 다음 정의를 통해 probabiltiy measure로 정의가 가능하다:
\[\mu\_X(B)=P(X^{-1}(B))\]이 때 probability measure $\mu_X$는 $X$의 distribution이라고 부른다.
| $\int_{X} | X(\omega) | dP(\omega)<\infty$였다면 다음 값 |
를 $X$의 expectation(기대값)이라고 부른다.
더 일반적으로 $\mathbb{E}[f(X)]$도 같은 방식으로 정의한다.
Random variable $X$에 대해서 $X$의 $L^p$-norm을
\[\|X\|\_p=\bigg(\int\_{X}|X(\omega)|^pdP(\omega)\bigg)^{1/p}\]로 정의하고
\[\|X\|\_\infty=\inf\{N\in\mathbb{R}:|X(\omega)|\leq N\text{ a.s.}\}\]로 정의한다. 이로부터 유도되는 $L^p$-space는
\[L^p(P)=L^p(X)=\{X:X\to\mathbb{R}^n;\|X\|\_p<\infty\}\]로 정의된다. 즉, finite $L^p$-norm을 가지는 random variable들의 집합이고 이 집합은 complete normed linear space, 즉 Banach space 구조를 가진다. $p=2$인 경우에는 이는 Hilbert space, 즉 complete inner product space가 되며 이 때 내적은
\[\langle X,Y\rangle:=\mathbb{E}[X\cdot Y]\]로 정의된다.
Independent는 다음처럼 정의된다:
\[P(A\cap B)=P(A)\cdot P(B)\]Measurable set $\mathcal{H}_i$들이 independent라는 것은
\[P(H\_{i\_1}\cap\cdots\cap H\_{i\_k})=P(H\_{i\_1})\cdots P(H\_{i\_k})\]for all choices of $H_{i_j}\in \mathcal{H}_{i_j}$들이라는 것이다.
Random variable들이 independent라는 것은 collection of generated $\sigma$-algebra $\mathcal{H}_{X_i}$들이 independent라는 것이다.
가 $(X,\mathcal{F},P)$위에 잘 정의되어 있을때를 말한다. 이 때 $T$는 주로 $[0,\infty]$이지만 경우에 따라서 달라질수도 있다. 고정된 $t$에 대해
\[\omega\to X\_t(\omega);\quad\omega\in X\]와 고정된 $\omega$에 대해
\[t\to X\_t(\omega);\quad t\in T\]가 정의됨도 상기하자. 후자는 path라고 불린다.
Process $X={X_t}_{t\in T}$의 (finite-dimensional) distribution at the measure $\mu_{t_1,\cdots,t_k}$는 $\mathbb{R}^{nk}$위에서 정의되고
\[\mu\_{t\_1,\cdots t\_k}(F\_1\times F\_2\times \cdots\times F\_k)=P[X\_{t\_1}\in F\_1,\cdots,X\_{t\_k}\in F\_k]\]로 정의된다. 이 때 $F_i$들은 Borel set들이다.
An Important Example: Brownian Motion
$x\in\mathbb{R}^n$을 고정하고,
\[p(t,x,y):=(2\pi t)^{-n/2}\cdot\exp\big(-\frac{|x-y|^2}{2t}\big)\quad\text{for }y\in\mathbb{R}^n,t>0\]로 정의하자. $0\leq t_1\leq\cdots\leq t_k$라고 두고 다음 수식을 만족하게 $\mathbb{R}^{nk}$ 위에 measure $\nu_{t_1,\cdots t_k}$를 정의한다:
\[\nu\_{t\_1,\cdots,t\_k}(F\_1\times\cdots\times F\_k)=\int\_{F\_1\times\cdots\times F\_k}p(t\_1,x,x\_1)p(t\_2-t\_1,x\_1,x\_2)\cdots p(t\_k-t\_{k-1},x\_{k-1}x\_k)dx\_1\cdots dx\_k\](Eq. 2.1)에 의해서 $\int_{\mathbb{R}^n}p(t,x,y)dy=1$이고 $\nu_{t_1,\cdots,t_k}(F_1\times\cdots\times F_k)=\nu_{t_1,\cdots,t_k,t_{k+1},\cdots,t_{k+m}}(F_1\times\cdots\times F_k\times\mathbb{R}^n\times\cdots\times\mathbb{R}^n)$이 성립하므로 다음의 Komogorov’s extension theorem을 적용하여:
-
$\nu_{t_{\sigma(1)},\cdots,t_{\sigma(k)}}(F_1\times\cdots\times F_k)=\nu_{t_1,\cdots,t_k}(F_{\sigma^{-1}(1)}\times\cdots\times F_{\sigma^{-1}(k)})$ for all permutations $\sigma$ on ${1,\cdots,k}$.
-
$\nu_{t_1,\cdots,t_k}(F_1\times\cdots\times F_k)=\nu_{t_1,\cdots,t_k,t_{k+1},\cdots,t_{k+m}}(F_1\times\cdots\times F_k\times\mathbb{R}^n\times\cdots\times\mathbb{R}^n)$ for all $m\in\mathbb{N}$.
그러면 probability space $(X,\mathcal{F},P)$가 존재하고 stochastic process ${X_t}$ on $X$가 존재하여, 모든 $t_i\in T$, $k\in\mathbb{N}$ and all Borel sets $F_i$에 대해 다음 조건을 만족하는 $X_t:X\to\mathbb{R}^n$이 존재한다:
\[\nu\_{t\_1,\cdots,t\_k}(F\_1\times\cdots\times F\_k)=P[X\_{t\_1}\in F\_1,\cdots,X\_{t\_k}\in F\_k]\]우리는 probability space $(X,\mathcal{F},P^x)$가 존재하고 stochastic process ${B_t}_{t\geq 0}$이 $X$ 위에 존재하여 다음이 만족됨을 안다:
\[P^x(B\_{t\_1}\in F\_1,\cdots,B\_{t\_k}\in F\_k)=\int\_{F\_1\times\cdots\times F\_k}p(t\_1,x,x\_1)\cdots p(t\_k-t\_{k-1},x\_{k-1},x\_k)dx\_1\cdots dx\_k\]Brownian motion의 기본적 성질부터 살펴보자.
Brownian motion은 Gaussian process이다. 즉, $0\leq t_1\leq\cdots\leq t_k$에 대해서 random variable $Z=(B_{t_1},\cdots,B_{t_k})\in\mathbb{R}^{nk}$는 (multi)normal distribution을 가진다.
$P^x$에 대한 expectation $\mathbb{E}^x$에 대해서,
\[\mathbb{E}^x[B\_t]=x\]가 성립한다. 이의 증명은 다소 verbose하므로 생략한다.
$\mathbb{E}^x[(B_t-x)^2]=t$, $\mathbb{E}^x[(B_t-x)(B_s-x)]=\min(s,t)$이다.
가 된다.
또한, $\mathbb{E}^x[(B_t-B_s)^2]=t-s$가 성립한다. (단, $t\geq s$.)
가 된다. ◻
$B_t$는 independent increments, 즉
\[B\_{t\_1},B\_{t\_2}-B\_{t\_1},\cdots\]들은 독립이다. 이를 증명하기 위해서는 normal random variable들이 independent일 필요충분조건은 uncorrelated임을 증명하면 된다. 즉,
\[\mathbb{E}^x[(B\_{t\_i}-B\_{t\_{i-1}})(B\_{t\_j}-B\_{t\_{j-1}})]=0\]임을 보이면 된다. 이는
\[\begin{aligned} \mathbb{E}^x[(B\_{t\_i}-B\_{t\_{i-1}})(B\_{t\_j}-B\_{t\_{j-1}})]&=\mathbb{E}^x[B\_{t\_{i}}B\_{t\_{j}}-B\_{t\_{i-1}}B\_{t\_j}-B\_{t\_{i}}B\_{t\_{j-1}}+B\_{t\_{i-1}}B\_{t\_{j-1}}]\\&=t\_i-t\_{j-1}-t\_{i}+t\_{j-1}=0 \end{aligned}\]로 증명된다. ◻
Itô integral
Definition of Itô Integral
Noise에 대해서 적분을 하려면, noise를 정의하는 것이 첫 단추일 것이다. 우리가 생각하는 noise를 직관적으로 풀어 쓰면 다음과 같다:
-
$t_1\neq t_2$ → $W_{t_1}$과 $W_{t_2}$는 독립이다.
-
$W_{t_1+t},\cdots,W_{t_k+t}$는 $t$에 의존하지 않는다. 즉, ${W_t}$는 stationary이다.
-
$\mathbb{E}[W_t]=0$이다.
하지만 불행하게도, 위를 만족하는 reasonable한 continuous noise는 존재하지 않는다. 다음 명제를 살펴보자.
하지만, $W_t$를 white noise process라는 generalized stochastic process로 일반화하는 것은 가능하다. 여기서 그러한 내용을 다루지는 않을 것이고, 다만 적당히 좋은 white noise process, 즉 stationary independent increments with mean 0인 noise를 구성하는 것이 가능하다는 것만 기억하자. 이 noise는 결론적으로 Brownian motion $B_t$ 밖에 없다는 것이 알려져 있으므로 우리는 discrete level에서 stochastic differential equation을 쓸 수 있다:
\[X\_k=X\_0 + \sum\_{j=0}^{k-1}b(t\_j,X\_j)\Delta t\_j + \sum\_{j=0}^{k-1}\sigma(t\_j,X\_j)\Delta B\_j\]만약, $\Delta t_j\to0$으로 보내면 우리는 위 식을 다음처럼 쓸 수 있을까?
\[X\_t=X\_0+\int\_0^tb(s,X\_s)ds+``\int\_0^t\sigma(s,X\_s)dB\_s"\]이 때
\[``\int\_0^t\sigma(s,X\_s)dB\_s"\]가 의미하는 것이 우리가 앞으로 할 일이다. 해석학에서의 경험에서처럼, simple function으로부터 출발하자.
\[\phi(t,\omega)=\sum\_{j\geq0}e\_j(\omega)\cdot\chi\_{[j\cdot2^{-n},(j+1)2^{-n})}(t)\]라는 simple function이 있다고 하자. 그러면 우리는
\[t\_k=t\_k^{(n)}=\begin{cases}k\cdot2^{-n}&\text{if }S\leq k\cdot2^{-n}\leq T\\S&\text{if }k\cdot2^{-n}<S\\T&\text{if }k\cdot2^{-n}>T\end{cases}\]인 $t_k$에 대해서
\[\int\_S^T\phi(t,\omega)dB\_t(\omega)=\sum\_{j\geq0}e\_j(\omega)\[B\_{t\_{j+1}}-B\_{t\_j}\](\omega)\]로 정의할 수 있을 것이다. 그런데 조그마한 문제가 있다.
그러면, $B_t$는 independent increments를 가지고 있으므로
\[\mathbb{E}\bigg[\int\_0^T\phi\_1(t,\omega)dB\_t(\omega)\bigg]=\sum\_{j\geq0}\mathbb{E}[B\_{t\_j}(B\_{t\_{j+1}}-B\_{t\_j})]=0\]이다. 하지만,
\[\begin{aligned} \mathbb{E}\bigg[\int\_0^T\phi\_1(t,\omega)dB\_t(\omega)\bigg]&=\sum\_{j\geq0}\mathbb{E}[B\_{t\_{j+1}}(B\_{t\_{j+1}}-B\_{t\_j})]\\&=\sum\_{j\geq0}\mathbb{E}[(B\_{t\_{j+1}}-B\_{t\_j})^2]\\&=T \end{aligned}\]이 된다. 결국, 어느 점을 기준으로 삼느냐라는 미묘한 차이에 따라서 결과가 완전히 상반되게 나오게 된다.
정리하자면 다음과 같다:
\[\sum\_jf(t^{\ast}\_j,\omega)\cdot\chi\_{[t\_j,t\_{j+1})}(t)\]라는 Riemann-Stieltjes 적분과 비슷한 꼴이 있을 때,
-
$t^{\ast}_j=t_j$인 경우를 Itô integral이라고 부른다.
-
$t^{\ast}_j=(t_j+t_{j+1})/2$인 경우를 Stratonovich integral이라고 부른다.
다음 정리는 Itô isometry라고 불린다:
이다.
이를 조금 더 일반화하면 다음이 성립한다.
따라서
\[\begin{aligned} \mathbb{E}\bigg[\bigg(\int\_S^T\phi(t,\omega)dB\_t(\omega)\bigg)^2\bigg]&=\sum\_{i,j}\mathbb{E}[e\_ie\_j\Delta B\_i\Delta B\_j]=\sum\_j\mathbb{E}[e^2\_i](t\_{i+1} -t\_i)\\&=\mathbb{E}\bigg[\int\_S^T\phi(t,\omega)^2dt\bigg] \end{aligned}\]가 성립한다. ◻
이를 몇 단계를 거쳐 simple function에서 적당히 좋은 함수로 확장할 수 있다. 적당히 좋은 함수는 따로 조건이 있긴 하지만, 본 글에서 엄밀하게 다루지는 않기로 한다. 궁금한 독자들은 다음의 정의에서 힌트를 얻을 수 있을 것이다:
로 정의된다. 이 때 ${\phi_n}$은
\[\mathbb{E}\bigg[\int\_S^T(f(t,\omega)-\phi\_n(t,\omega))^2dt\bigg]\to0\quad\text{ as }n\to\infty\]를 만족하는 elementary 함수열이다.
이다.
구체적인 계산을 해보자.
이다.
따라서 위 Corollary에 의해
\[\int\_0^tB\_sdB\_s=\lim\_{\Delta t\_j\to0}\int\_0^t\phi\_ndB\_s=\lim\_{\Delta t\_j\to0}\sum\_jB\_j\Delta B\_j\]이다. 이제
\[\Delta(B\_j^2)=B\_{j+1}^2-B\_j^2=(B\_{j+1}-B\_j)^2+2B\_j(B\_{j+1}-B\_j)=(\Delta B\_j)^2+2B\_j\Delta B\_j\]라는것으로부터
\[B\_t^2=B\_t^2-0=B\_t^2-B\_0^2\]이므로 (eq:2.3)을 적용하여
\[B\_t^2=\sum\_j\Delta(B\_j^2)=\sum\_j(\Delta B\_j)^2+2\sum\_jB\_j\Delta B\_j\]이므로
\[\sum\_jB\_j\Delta B\_j = \frac{1}{2}B\_t^2-\frac{1}{2}\sum\_j(\Delta B\_j)^2\]이 된다. 위에서 공부하기로 $\mathbb{E}^x[(B_t-B_s)^2]=t-s$ for $t\geq s$였으므로,
\[\begin{aligned} \mathbb{E}\bigg[\bigg(\sum\_j(\Delta B\_j)^2-t\bigg)^2\bigg]&=\mathbb{E}\bigg[\bigg(\sum\_j(\Delta B\_j)^2\bigg)^2-2t\sum\_j(\Delta B\_j)^2+t^2\bigg]\\&=\mathbb{E}\bigg[\bigg(\sum\_j(\Delta B\_j)^2\bigg)^2\bigg]-2t\sum\Delta t\_j+t^2\\&=\mathbb{E}\bigg[\bigg(\sum\_j(\Delta B\_j)^2\bigg)^2\bigg]-2t^2+t^2=\mathbb{E}\bigg[\bigg(\sum\_j(\Delta B\_j)^2\bigg)^2\bigg]-t^2 \end{aligned}\]가 되고, $\text{Var}(X)=\mathbb{E}[X^2]-(\mathbb{E}[X])^2$이므로
\[\mathbb{E}\bigg[\bigg(\sum\_j(\Delta B\_j)^2\bigg)^2\bigg]=\text{Var}\bigg[\sum\_j(\Delta B\_j)^2\bigg]+\bigg(\mathbb{E}\bigg[\sum\_j(\Delta B\_j)^2\bigg]\bigg)^2=\text{Var}\bigg[\sum\_j(\Delta B\_j)^2\bigg]+t^2\]이 된다. 따라서
\[\mathbb{E}\bigg[\bigg(\sum\_j(\Delta B\_j)^2-t\bigg)^2\bigg]=\text{Var}\bigg[\sum\_j(\Delta B\_j)^2\bigg]\]인데 $B_j$는 independent increment를 가지므로
\[\text{Var}\bigg[\sum\_j(\Delta B\_j)^2\bigg]=\sum\_j\text{Var}\big[(\Delta B\_j)^2\big]\]가 된다. $X\sim\mathcal{N}(0,\sigma^2)$에 대해서 4차 moment $\mathbb{E}[X^4]=3\sigma^2$이므로,
\[\text{Var}[X^2]=\mathbb{E}[X^4]-(\mathbb{E}[X])^2=3\sigma^2-\sigma^2=2\sigma^2\]이게 되고, 이로부터
\[\text{Var}\bigg[\sum\_j(\Delta B\_j)^2\bigg]=\sum\_j\text{Var}\big[(\Delta B\_j)^2\big]=\sum\_j2(\Delta t\_j)^2=2\sum\_j(\Delta t\_j)^2\]를 얻는다. 정리하자면,
\[\mathbb{E}\bigg[\bigg(\sum\_j(\Delta B\_j)^2-t\bigg)^2\bigg]=2\sum\_j^N(\Delta t\_j)^2\leq2\cdot\frac{1}{N}\bigg(\sum\_j^N\Delta t\_j\bigg)^2=\frac{2t^2}{N}\]이고 $N$을 무한대로 보내면, 즉, $\Delta t_j\to0$으로 보내면
\[\lim\_{\Delta t\_j\to0}\sum\_j(\Delta B\_j)^2=t\]을 얻는다. 따라서
\[\int\_0^tB\_sdB\_s=\lim\_{\Delta t\_j\to0}\int\_0^t\phi\_ndB\_s=\lim\_{\Delta t\_j\to0}\sum\_jB\_j\Delta B\_j=\frac{1}{2}B\_t^2-\frac{1}{2}t\]가 된다. ◻
-
$\int_S^TfdB_t=\int_S^UfdB_t + \int_U^TfdB_t$이다.
-
$\int_S^T(cf+g)dB_t=c\int_S^TfdB_t+\int_S^TgdB_t$이다.
-
$\mathbb{E}[\int_S^TfdB_t]=0$이다.
Itô Formula
여기서는 1차원 Itô formula를 살펴보기로 한다.
또한 $g(t,x)$가 twice continuously differentiable on $[0,\infty)\times\mathbb{R}$, 즉 $g\in C^2([0,\infty)\times\mathbb{R})$이라고 하자. 그러면 $Y_t=g(t,X_t)$ 또한 Itô formula이며
\[dY\_t=\frac{\partial g}{\partial t}(t,X\_t)dt + \frac{\partial g}{\partial x}(t,X\_t)dX\_t+\frac{1}{2}\frac{\partial^2g}{\partial x^2}(t,X\_t)\cdot(dX\_t)^2\]가 성립한다. 이 때 $(dX_t)^2=(dX_t)\cdot(dX_t)$는 다음의 규칙에 의해서 계산된다:
\[dt\cdot dt=dB\_t\cdot dt=dt\cdot dB\_t=0,\quad dB\_t\cdot dB\_t=dt\]위에서 살펴본 예제를 다시 살펴보자.
이다.
이다. Itô formula에 의해,
\[\begin{aligned} d(\frac{1}{2}B\_t^2)=dY\_t&=\frac{\partial g}{\partial t}(t,X\_t)dt + \frac{\partial g}{\partial x}(t,X\_t)dX\_t+\frac{1}{2}\frac{\partial^2g}{\partial x^2}(t,X\_t)\cdot(dX\_t)^2\\&=0dt+B\_tdB\_t+\frac{1}{2}\cdot1\cdot(dB\_t)^2=B\_tdB\_t+\frac{1}{2}dt \end{aligned}\]이다. 정리하면
\[B\_tdB\_t=d(\frac{1}{2}B\_t^2)-\frac{1}{2}dt\]이므로
\[\int\_0^tB\_sdB\_s=\frac{1}{2}B\_t^2-\frac{1}{2}t\]가 성립한다. ◻
두 번째 예시를 살펴보자.
이다.
가 된다. 따라서
\[sdB\_s=d(sB\_s)-B\_sds\]가 되므로
\[\int\_0^tsdB\_s=tB\_t-\int\_0^tB\_sds\]가 성립한다. ◻
위 예시를 살펴보면, 마치 부분적분처럼 작동함을 알 수 있다. 이를 일반화한 것도 성립한다:
가 성립한다.
Itô Diffusion
항상 이 극한을 계산하는 것은 지루하기 때문에 한 번에 계산할 수 있는 공식을 소개한다.
Application to Differential Equation
Kolmogorov Forward Equation
1-dimensional Itô diffusion \(dX\_t = b(x)dt + a(x)dB\_t\) 의 1-dimensional infinitesimal generator $A$를 다음처럼 정의하자. \(A = a(x)\frac{\partial ^2}{\partial x^2} + b(x)\frac{\partial }{\partial x}\) 단, $a\in C^2$, $b\in C^1$. 그러면 다음의 adjoint operator of $A$, $A^{\ast}$는 \(A^{\ast}f(x) = \frac{\partial ^2}{\partial x^2}\big(a(x)f(x)\big) - \frac{\partial }{\partial x}\big(b(x)f(x)\big)\) 로 정의되고 다음을 만족한다. \(\langle A\phi, \psi\rangle = \langle\phi, A^{\ast}\psi\rangle\quad\text{in }L^2(dx), \phi\in C^2\_0, \psi\in C^2\)
이를 정리하면 \(\langle A\phi,\psi\rangle = \langle\phi,A^{\ast}\psi\rangle\quad\text{for }\phi\in C\_0^2, \psi\in C^2\) 이제 $X_t$가 density $p_t(x,y)$를 가진다는 것을 \(\mathbb{E}^x[f(X\_t)] = \int\_{\mathbb{R}^n}f(y)p\_t(x,y)dy\) 를 만족하는 $p_t(x,y)$가 존재한다는 것으로 정의하면 (for every $f$) Dynkin’s formula에 의해서 \(\int\_{\mathbb{R}^n}f(y)p\_t(x,y)dy = f(x) + \int\_0^t\int\_{\mathbb{R}^n}A\_yf(y)p\_s(x,y)dyds;\quad f\in C\_0^2\) 이 성립하고 양변을 $t$에 대해서 미분하면 \(\int\_{\mathbb{R}^n}f(y)\frac{\partial}{\partial t}p\_t(x,y)dy = \int\_{\mathbb{R}^n}A\_yf(y)p\_t(x,y)dy,\quad f\in C\_0^2\) 가 된다. 이제 (Eq. adjoint)를 사용하면 \(\int\_{\mathbb{R}^n}f(y)\frac{\partial}{\partial t}p\_t(x,y)dy = \int\_{\mathbb{R}^n}f(y)A^{\ast}\_yp\_t(x,y)dy\) for any $f\in C_0^2$이므로
\[\frac{\partial}{\partial t}p\_t(x,y) = A^{\ast}\_yp\_t(x,y)\]가 성립한다. 이 식 (Eq. kolmogorovforwardeq)를 Kolmogorov forward equation, 혹은 Fokker-Planck equation이라고 부른다.
Kolmogorov Backward Equation
$u(x,t):=\mathbb{E}^x[f(X_t)]$로 두고 $g(x):=u(x,t)$로 두자. 그러면,
\[\begin{aligned} \frac{\mathbb{E}^x[g(X\_r)]-g(x)}{r} &= \frac{1}{r}\cdot\mathbb{E}^x[\mathbb{E}^{X\_r}[f(X\_t)]-\mathbb{E}^x[f(X\_t)]]\\ &=\frac{1}{r}\cdot\mathbb{E}^x[\mathbb{E}^x[f(X\_{t+r}|\mathcal{F}\_r]-\mathbb{E}^x[f(X\_t)|\mathcal{F}\_r]]\\ &=\frac{1}{r}\cdot\mathbb{E}^x[f(X\_{t+r})-f(X\_t)]\\ &=\frac{u(t+r,x)-u(t,x)}{r}\to\frac{\partial u}{\partial t} \end{aligned}\]이 된다. 이 식을 정리한 \(\frac{\partial p\_t(x,y)}{\partial t} = -A\_yp\) 를 Kolmogorov backward equation이라고 한다.
Reverse-Time Diffusion Equation Model에 대한 이해
여기에서는 Reverse-Time Diffusion Equation Model(논문 링크: 논문 링크)에 대한 이해를 해 본다.
The linear problem
먼저 아이디어부터 잡아 보자. $x$를 nondeteministic, stationary $n$-dimensional process라고 하고 다음을 만족한다고 하자.
\[dx = Axdt + BdB\_t\]이 때 $A$, $B$는 constant matrices이고 $\text{Re}[\lambda_i(A)]<0$ for all $i$라고 두며 $B_t$는 standard Brownian motion (=Wiener process)이며 $x(t)$가 미래의 $w$의 increment에 대해서는 independent이고 과거의 $w$에 대해서는 dependent라고 하자. 즉, $t_2>t_1\geq t$라고 하면 $w(t_2)-w(t_1)$은 $x(t)$와 independent이지만 $t_3<t_4\leq t$에 대해서는 $w(t_3)-w(t_4)$가 dependent일 수도 있다고 하자. 이러한 모델을 우리는 forward time model이라고 부르기로 하자. 이 방정식의 해는
\[x(t)=\int\_{-\infty}^te^{A(t-s)}BdB\_s\]로 표현될 수 있다. 이와 대조적으로, reverse time model은 \(dx = \bar{A}xdt + \bar{B}d\bar{B}\_t\) 의 꼴로 $\text{Re}[\lambda_i(\bar{A})]>0$ for all $i$이고 $\bar{B}_t$는 과거의 $x(t)$와는 independent이고 미래의 것들과는 그렇지 않은 Wiener process라고 하자. 이는 물리적으로 시간을 역행해서 가는 process로 이해할 수 있으며 해는
\[x(t) = -\int\_t^{\infty}e^{\bar{A}(t-s)}\bar{B}d\bar{B}\_s\]가 될 것이다. 이 문제는 $x(t)$의 forward time representation으로부터 reverse-time representation을 유도하는 과정으로 이해될 수 있다. 이 문제를 풀기 위해서
\[P=\mathbb{E}[x(t)x(t)^T]\]로 두자. 그러면 먼저 관찰 \(\frac{d}{dt}\bigg(e^{Mt}Ne^{M^Tt}\bigg)=Me^{Mt}Ne^{M^Tt}+e^{Mt}Ne^{M^Tt}M^T\)
으로부터 \(P=\int\_{-\infty}^te^{A(t-s)}BB^Te^{A^T(t-s)}ds\)
로 두었을 때
\[\begin{aligned} AP+PA^T =& A\bigg(\int\_{-\infty}^te^{A(t-s)}BB^Te^{A^T(t-s)}ds\bigg) +\bigg(\int\_{-\infty}^t e^{A(t-s)}BB^Te^{A^T(t-s)}ds\bigg)A^T\\ =&\int\_{-\infty}^t\bigg(Ae^{A(t-s)}BB^Te^{A^T(t-s)}+e^{A(t-s)}BB^Te^{A^T(t-s)}A^T\bigg)ds\\ =&-\int\_{-\infty}^t\frac{d}{ds}\bigg(e^{A(t-s)}BB^Te^{A^T(t-s)}\bigg)ds\\ =&-\bigg[e^{A(t-s)}BB^Te^{A^T(t-s)}\bigg]\_{-\infty}^t\\ =&-BB^T\quad\quad(\because\text{Re}[\lambda\_i(A)]<0\quad\forall i) \end{aligned}\]이 성립한다. 이제 이 $P$가 $\mathbb{E}[x(t)x(t)^T]$와 일치하는지 보기 위해 Itô isometry를 벡터함수에 적용한
\[\mathbb{E}\bigg[\bigg(\int\_a^bX\_tdB\_t\bigg)\bigg(\int\_a^bY\_tdB\_t\bigg)^T\bigg] = \mathbb{E}\bigg[\int\_a^bX\_tY\_t^Tdt\bigg]\]를 생각하고
\[\begin{aligned} P=\mathbb{E}[P]&=\mathbb{E}\bigg[\int\_{-\infty}^te^{A(t-s)}BB^Te^{A^T(t-s)}ds\bigg]\\&=\mathbb{E}\bigg[\int\_{-\infty}^t(e^{A(t-s)}B)(e^{A(t-s)}B)^Tds\bigg]\\ &=\mathbb{E}\bigg[\bigg(\int\_{-\infty}^te^{A(t-s)}BdB\_s\bigg)\bigg(\int\_{-\infty}^te^{A(t-s)}BdB\_s\bigg)^T\bigg]\\&=\mathbb{E}[x(t)x(t)^T] \end{aligned}\]가 된다. 따라서 두 값은 일치한다. 이제 가역 조건을 보이기 위해 augmented matrix $\begin{bmatrix}B&AB&\cdots&A^{n-1}B\end{bmatrix}$의 rank가 $n$이라고 하자. 이는 $B$의 rank가 $n$이라는 말이며 동시에 $i<n$에 대해 $A^i$가 invertible이라는 말이다. 즉, $A$, $B$가 모두 invertible이라는 말이고 이는 $P$가 invertible이라는 결론으로 이어진다. 따라서 이 $P$는 matrix equation $AP+PA^T=-BB^T$의 해로 생각될 수 있다. 이제 vector process $\bar{w}$를
\[d\bar{B}\_t:=dB\_t-B^TP^{-1}xdt\]로 정의하면
\[dx = Axdt + BdB\_t\]와 합쳤을 때
\[dx=(A+BB^TP^{-1})dt+Bd\bar{B}\_t\]를 얻는다.
그러면 $\text{Re}[\lambda_i(A+BB^TP^{-1})]\geq0$임을 얻을 수 있고 따라서 이는 reverse-time model이 된다.
Construction of reverse time nonlinear models
$(\Omega, \mathcal{A},P)$를 고정된 probability space라고 하고 ${\mathcal{A}_t,-\infty<t<\infty}$를 증가하는 sub-$\sigma$-algebra of $\mathcal{A}$라고 하자. 그리고 ${B_t,-\infty<t<\infty}$를 $r$-차원 Brownian motion이라고 하고 $B_t$가 $\mathcal{A}_t$-measurable이며 $t\geq s$에 대해 $B_t-B_s$를 $\mathcal{A}_s$에 대해 independent라고 하자. 우리는 $s\geq0$에 대해
\[\mathbb{E}[B\_{t+s}|\mathcal{A\_t}]=B\_t \mathbb{E}[(B\_{t+s}-B\_t)(B\_{t+s}-B\_t)^T|\mathcal{A}\_t]=sI\]라고 정의한다. 이제 Ito stochastic differential equation을 다음의 형태라고 가정한다:\(dx\_t=f(x\_t,t)dt+g(x\_t,t)dB\_t\) 이 때 $x_t$는 $n$-vector stochastic process이고 $f(\cdot,\cdot)$과 $g(\cdot,\cdot)$은 적당히 smooth하고 growth property를 가지는 $n\times1$과 $n\times n$ mtrix function이라고 하자. 이제 reverse-time model의 의미를 생각해 보기 위해 decreasing familyt ${\bar{\mathcal{A}}_t,-\infty<t<\infty}$ of sub-$\sigma$-algebras on $\mathcal{A}$를 생각하고 $n$-vector process ${\bar{B}_t,-\infty<t<\infty}$를 생각해서 $\bar{B}_t$가 $\bar{\mathcal{A}}_t$-measurable for each $t$이고, for each $\bar{B}_t-\bar{B}_s$ for $t\geq s$에 대해 $\bar{\mathcal{A}}_t$에 대해서 independent이고 $s\geq0$에 대해
\[\begin{aligned} &\mathbb{E}[\bar{B}\_t|\bar{\mathcal{A}}\_{t+s}]=\bar{B}\_{t+s}\\ &\mathbb{E}[(\bar{B}\_t-\bar{B}\_{t+s})(\bar{B}\_t-\bar{B}\_{t+s})^T|\bar{\mathcal{A}}\_{t+s}]=sI \end{aligned}\]라고 하자. 그러면 이 process는 reverse-time Itô equation of the form \(dx\_t = \bar{f}(x\_t,t)dt + \bar{g}(x\_t,t)d\bar{B}\_t\) 를 준다. 이는 $t\leq T$에 대한 방정식을 주는 것으로 이해할 수 있다. 그러면 다음과 같은 관계식을 얻는 것이 가능하다: \(x\_T-x\_t = \int\_t^T\bar{f}(x\_t,t)dt + \int\_t^T\bar{g}(x\_t,t)d\bar{B}\_t\) 이 때 두 번째 적분은 backward Itô integral이다. 이제 probability density를 $p(x_t,t|x_s,s)$ for $t>s$라고 할 때
\[\begin{aligned} &dx\_t = f(x\_t,t)dt + g(x\_t,t)dB\_t,\\ &d\bar{B}\_t^k = \frac{1}{p(x\_t,t)}\sum\_j\frac{\partial}{\partial x\_t^j}[p(x\_t,t)g^{jk}(x\_t,t)]dt+dB\_t^k \end{aligned}\]로 두자. 단, $k=1,\cdots,r$. 이에 해당하는 forward Kolmogorov equation을 구하기 위해 다음처럼 써보자.
\[\begin{aligned} d\begin{pmatrix}x\_t\\\overline{B}\_t\end{pmatrix} = \begin{pmatrix}f(x\_t,t)\\\frac{1}{p(x\_t,t)}\sum\_j\frac{\partial}{\partial x\_t^j}\bigg[p(x\_t,t)g^{j\circ}(X\_t,t)\bigg]\end{pmatrix}dt + \begin{pmatrix}g(x\_t,t)\\1\end{pmatrix}dB\_t \end{aligned}\]이제 여기에 Fokker-Planck equation을 적용하면
\[\begin{aligned} \frac{\partial p(x\_t,\bar{B}\_t,t)}{\partial t} =& -\sum\_{i=1}^n\frac{\partial}{\partial x\_t^i}[p(x\_t,\overline{B}\_t,t)f^i(x\_t,t)]\\ &-\sum\_{k=1}^r\frac{\partial}{\partial\overline{B}\_t}\bigg\{\frac{p(x\_t,\overline{B}\_t,t)}{p(x\_t,t)}\sum\_j\frac{\partial}{\partial x\_t^j}[p(x\_t,t)g^{ik}(x\_t,t)]\bigg\}\\ &+\frac{1}{2}\sum\_{i,j=1}^n\frac{\partial^2}{\partial x\_t^i\partial x\_t^j}\{p(x\_t,\overline{B}\_t,t)[g(x\_t,t)g^T(x\_t,t)]^{ij}\}\\ &+\frac{1}{2}\sum\_{k,l=1}^r\frac{\partial^2}{\partial\overline{B}\_t\partial\overline{B}\_t}[p(x\_t,\overline{B}\_t,t)]\\ &+\frac{1}{2}\sum\_{i=1}^n\sum\_{k=1}^r\frac{\partial^2}{\partial x\_t^i\partial\overline{B}\_t^k}[p(x\_t,\overline{B}\_t,t)g^{ik}(x\_t,t)]\\ &+\frac{1}{2}\sum\_{i=1}^n\sum\_{k=1}^r\frac{\partial^2}{\partial\overline{B}\_t^k\partial x\_t^i}[p(x\_t,\overline{B}\_t,t)g^{ik}(x\_t,t)]\\ =& -\sum\_{i=1}^n\frac{\partial}{\partial x\_t^i}[p(x\_t,\overline{B}\_t,t)f^i(x\_t,t)]\\ &-\sum\_{k=1}^r\frac{\partial}{\partial\overline{B}\_t}\bigg\{\frac{p(x\_t,\overline{B}\_t,t)}{p(x\_t,t)}\sum\_j\frac{\partial}{\partial x\_t^j}[p(x\_t,t)g^{ik}(x\_t,t)]\bigg\}\\ &+\frac{1}{2}\sum\_{i,j=1}^n\frac{\partial^2}{\partial x\_t^i\partial x\_t^j}\{p(x\_t,\overline{B}\_t,t)[g(x\_t,t)g^T(x\_t,t)]^{ij}\}\\ &+\frac{1}{2}\sum\_{k,l=1}^r\frac{\partial^2}{\partial\overline{B}\_t\partial\overline{B}\_t}[p(x\_t,\overline{B}\_t,t)]\\ &+\sum\_{i=1}^n\sum\_{k=1}^r\frac{\partial^2}{\partial x\_t^i\partial\overline{B}\_t^k}[p(x\_t,\overline{B}\_t,t)g^{ik}(x\_t,t)] \end{aligned}\]이 된다. 이 때 초기조건은 \(p(x\_{t\_0},\overline{B}\_{t\_0},t\_0)=p(x\_{t\_0},t\_0)\delta(\overline{B}\_{t\_0})\) 로 설정한다. 그리고 다음의 보조정리들을 합치자.
&+\frac{1}{2}p(x_t,t)\sum_{k,l=1}^r\frac{\partial^2}{\partial\overline{B}_t\partial\overline{B}_t}[\phi(\overline{B}_t,t)]
\end{aligned} $$
가 되고 결론적으로
\[\frac{\partial}{\partial t}\phi(\overline{B}\_t,t) = \frac{1}{2}\sum\_{k,l}\frac{\partial^2}{\partial\overline{B}\_t^k\partial\overline{B}\_t^l}\phi(\overline{B}\_t,t)\]이다. 이는 heat equation이고 주어진 조건에 의해 (Eq. ans)의 해가 된다. ◻
이제 거의 다 왔다. (Eq. original)과 (Eq. original2)을 서로 대입해주면
\[dx\_t^i = \bigg(f^i(x\_t,t)-\frac{1}{p(x\_t,t)}\sum\_kg^{ik}(x\_t,t)\sum\_j\frac{\partial}{\partial x\_t^j}[p(x\_t,t)g^{jk}(x\_t,t)]\bigg)dt + \sum\_kg^{ik}(x\_t,t)d\overline{B}\_t^k = \hat{f}(x\_t,t)dt + g(x\_t,t)d\overline{B}\_t\]를 얻을 수 있다. 이제 편의상 $g(x_t,t) = G_t$로 두면
\[\begin{aligned} \int\_0^TG\_td\overline{B}\_t &= \lim\_{t\to0}\sum\_{i=0}^{T/\Delta t}G\_{iT/\Delta t}(\overline{B}\_{(i+1)T/\Delta t}-\overline{B}\_{iT/\Delta t})\\ &=\lim\_{t\to0}\sum\_{i=0}^{T/\Delta t}(G\_{iT/\Delta t} + G\_{(i+1)T/\Delta t} - G\_{(i+1)T/\Delta t}(\overline{B}\_{(i+1)T/\Delta t}-\overline{B}\_{iT/\Delta t})\\ &=\lim\_{t\to0}\sum\_{i=0}^{T/\Delta t}(G\_{iT/\Delta t} - G\_{(i+1)T/\Delta t}(\overline{B}\_{(i+1)T/\Delta t}-\overline{B}\_{iT/\Delta t}) + \sum\_{i=0}^{T/\Delta t}G\_{(i+1)T/\Delta t}(\overline{B}\_{(i+1)T/\Delta t}-\overline{B}\_{iT/\Delta t})\\ &=\lim\_{t\to0}\sum\_{i=0}^{T/\Delta t}(G\_{iT/\Delta t} - G\_{(i+1)T/\Delta t})(\overline{B}\_{(i+1)T/\Delta t}-\overline{B}\_{iT/\Delta t}) +\int\_T^0G\_td\overline{B}\_t \end{aligned}\]이다. 여기서 마지막 항이 reverse time에 대해 게산됨을 주의하자. Reverse-time term을 $(d\overline{B}_t)^R$로 적자. Correction term을
\[C:=\lim\_{t\to0}\sum\_{i=0}^{T/\Delta t}(G\_{iT/\Delta t} - G\_{(i+1)T/\Delta t})(\overline{B}\_{(i+1)T/\Delta t}-\overline{B}\_{iT/\Delta t})\]으로 두면
\[\begin{aligned} C^k &= \lim\_{\Delta t\to0}\sum\_{i=0}^{T/\Delta t}\sum\_l (G\_{iT/\Delta t} - G\_{(i+1)T/\Delta t})^{kl}(\overline{B}\_{(i+1)T/\Delta t}-\overline{B}\_{iT/\Delta t})^l\\ &=-\sum\_l\lim\_{\Delta t\to 0}\sum\_{i=0}^{T/\Delta t}(G\_{(i+1)T/\Delta t} - G\_{iT/\Delta t})^{kl}(\overline{B}\_{(i+1)T/\Delta t}-\overline{B}\_{iT/\Delta t})^l\\ &=-\sum\_l\int\_0^TdG\_t^{kl}d\overline{B}\_t^l\\ &=-\sum\_l\int\_0^Td(g^{kl}(x\_t,t))(A^l(x\_t,t)dt + dB\_t^l)\\ &=-\sum\_l\int\_0^T(B^l(x\_t,t)dt + \nabla g^{kl}(x\_t,t)^Tg(x\_t,t)dB\_t)(A^l(x\_t,t)dt + dB\_t^l)\\ &=-\sum\_{l,m}\int\_0^T(\frac{\partial g^{kl}}{\partial x\_m}(x\_t,t)g^{mn}(x\_t,t)dB\_t^n)(dB\_t^l)\\ &=-\sum\_{l,m}\int\_0^T\frac{\partial g^{kl}}{\partial x\_m}(x\_t,t)^mg^{ml}(x\_t,t)dt \end{aligned}\]단, $A,B$는 다차원 Itô 공식에서 나오는 부가항들. 그러면
\[dC\_t^k = -\sum\_{l,m}\frac{\partial g^{kl}}{\partial x\_m}(x\_t,t)^mg(x\_t,t)^{ml}dt\]가 되므로 결국 우리가 얻고자 하는
\[\begin{aligned} dx\_t^k &= dC\_t^k + \hat{f}^k(x\_t,t)dt + \sum\_l g^{kl}(x\_t,t)(d\overline{B}\_t^l)^R\\ &=\bigg(\hat{f}(x\_t,t) - \sum\_{l,m}\frac{\partial g^{kl}}{\partial x\_m}(x\_t,t)g^{ml}(x\_t,t)\bigg)dt + \sum\_lg^{kl}(x\_t,t)(d\overline{B}\_t^l)^R \end{aligned}\]이 된다. 단,
\[\hat{f}(x\_t,t) = f^i(x\_t,t)-\frac{1}{p(x\_t,t)}\sum\_kg^{ik}(x\_t,t)\sum\_j\frac{\partial}{\partial x\_t^j}[p(x\_t,t)g^{jk}(x\_t,t)]\]이것이 Diffusion model에 사용되는 reverse-time diffusion equation이다. $g:\mathbb{R}\to\mathbb{R}$가 $x$에 의존하지 않고 $t$에만 의존하는 경우를 구체적으로 써보면, original SDE는 다음과 같고:
\[dx\_t = f(x\_t,t)dt + g(t)dw\_t\]Reverse-time SDE는 다음과 같아진다:
\[dx\_t = \big(f(x\_t,t)-g(t)^2\frac{\nabla\_{x\_t}p(x\_t,t)}{p(x\_t,t)}\big)dt + g(t)dB\_t = \big(f(x\_t,t) - g(t)^2\nabla\_{x\_t}\log p(x\_t,t)\big)dt + g(t)dB\_t\]