Posts 의학 진단기기와 온고지신
Post
Cancel

의학 진단기기와 온고지신

진단기기 연구자들이 기억해야 하는 온고지신

들어가며

Case 1

32세 여성. 복부의 날카로운 통증을 주소(chief complaints; cc)로 내원. 결혼 3개월차. 남편과의 자녀계획이 있음.

Case 2.

68세 남성. 복부 좌측 아래의 급성 통증을 주소로 내원.

Case 3

19세 남성. 우측 하복부의 통증을 주소로 내원. 병력 청취상 지난 일주일간 식욕이 없고 3회 구토를 했음. McBurney sign positive.

단순한 위의 예시들은 똑같은 복부 통증이라는 cc를 보이지만, 누가 보더라도 서로 다른 이유에 의한 복부 통증일 것만 같습니다. 단순히 저 진술들만을 가지고 진단이 무엇인지는 알 수 없지만 그래도 의심이 가는 것들이 이 글을 읽는 여러분의 마음속에 한 가지씩은 있을 것입니다.

우리는, 그리고 의사들은 어떻게 병을 의심하고 병을 진단하는 것일까요?

온고

온고지신의 온고는 옛 것을 익한다는 뜻인데요, 역사부터 살펴봅시다. 1959년 학술지 Science에는 Reasoning Foundations of Medical Diagnosis(출처)라는 글이 올라왔습니다. 이 글은 조건부 확률을 사용하여 의학 진단을 내고 치료를 선택하는 방법론에 관한 논문이었고 주된 아이디어는 논리적 기호를 사용하여 베이즈 정리를 적용한 접근이었습니다. 환자가 어떤 증상을 보일 때 어떠한 의학적 지식을 기반하여 어떤 병이 의심된다는 것을 수학적으로 형식화하여 가장 확률이 높은 병을 선택하고, 확률 모형과 값 이론(value theory)에 기반하여 최선의 치료까지 제안하는 논문이었지요.

이러한 연구 및 베이즈 이론에 기반하여 1970년대 영국 Leed 대학의 Tim de Dombal이라는 분의 팀은 AAPHelp (Acute Abdominal Pain Help)라는 컴퓨터 진단 프로그램을 세계 최초로 만들고 임상에 적용하였습니다(출처). 해당 소프트웨어는 단어 그대로 급성 복부 통증을 보이는 환자가 왔을 때 병을 진단해주는 프로그램으로, 수천 례의 환자 데이터를 통해 소프트웨어를 개발했고 증상과 신체 진찰 및 검사를 통해서 가장 확률이 높은 병을 제안해주는 시스템이었습니다. 이 소프트웨어가 개발되고 최초로 Leeds 대학의 General Infirmary 병원에 도입되어 300명 가량의 환자들에게 소프트웨어를 통해 진단하였을 때(출처) 결과는 정확도 91.8%로 놀라운 수준이었습니다.

하지만, 여러분들도 아시다시피 현재는 해당 AAPHelp 소프트웨어나 그것의 개량된 모델이 임상 현장에서 쓰이지 않습니다. 그 이유는 코펜하겐의 Bispebjerg 병원에서 해당 소프트웨어를 사용했을 때 정확도가 65%까지 떨어졌기 때문입니다(출처). 즉, extra-validation에서 형편 없는 성능을 보여준 것이죠.

왜 이러한 현상이 발생한 것일까요? 정답은 환자군이 다르기 때문, 즉 병원간의 급성 복부 통증의 역학(epidemiology)이 다르기 때문입니다. 단순히 환자군이 다른 것 이외에도 General Infirmary 병원에서는 난관염(salpingitis)과 요로 결석(urolithiasis)을 데이터셋에 포함하지 않았던 것에 비하여 코펜하겐의 Bispebjerg 병원에서는 이들을 급성 복통 데이터셋에 포함시켰던 것입니다.

이러한 맥락에서 de Dombal은 다음과 같은 말을 남겼습니다.

Databases don’t travel.

Leed의 데이터셋이 Bispebjerg 병원으로 옮겨가서 그대로 적용되지 않는다는 것을 말한 문구입니다. 일례로 Mayo clinic의 아버지인 William, Charles Mayo가 수천 례의 수술을 보고했을 때 거기에는 데이터셋에 관한 demographics 정보가 없었다고 합니다(출처). 19세기의 사회적, 지식적 상황을 감안했을 때 그 당시에는 백인의 결과를 모든 인구 집단에 적용할 수 있다는 것으로 믿었기 때문이겠죠.

하지만 20세기 후반부터 21세기로 오며 이러한 생각은 점점 깨졌습니다. 위 증례들에서 볼 수 있기도 하고 상식적으로 여자의 복통에 대한 원인들을 남자의 복통에 똑같이 적용할 수는 없습니다. 현대적인 예방의학의 용어로 이를 치환하면 양성예측도(positivie predictive value)는 집단의 유병률(prevalence)에 의존한다는 말이 되기도 합니다.

지신

21세기로 들어오며 근거 기반 의학(evidence-based medicine)을 통한 정밀의료(precision medicine)를 추구하는 바람이 불고 있습니다. 특히나 빅데이터와 머신 러닝을 통한 진단의 자동화는 의사의 업무를 줄여준다거나 극단적으로 대체한다는 주장까지 나오지만, 임상 현장의 현실에서 그러한 놀라운 적용 사례를 찾아보는 것은 생각보다는 쉽지 않습니다.

백인의 결과는 흑인에게, 흑인의 결과는 동양인에게, 남성의 결과는 여성에게 적용될 수 없습니다. 하지만 이렇게 큰 집단에서만 적용을 할 수 없는 것이 아니라 폐암 환자군이라는 집단 안에서조차 소세포폐암의 결과를 비소세포암 환자에게 적용할 수 없습니다. 이를 데이터셋의 해상도라고 부르기로 한다면, 우리가 만드는 모든 통계 및 딥러닝 모델은 데이터셋의 해상도가 조밀할수록 정밀의료에 가깝고, 데이터셋의 해상도가 성길수록 큰 틀에서만 맞을 뿐입니다.

라틴어 어원상 datum(data의 단수형)라는 단어는 given(주어지다)라는 단어에서 온 것이라고 합니다. 이는 데이터가 무작위로 생성되고 그 생성 과정이 복잡하여 우리가 알 수 없다는 뜻으로 이해할 수 있습니다. 하지만, 21세기의 무작위 임상 실험(randomized clinical trial)이나 임상 연구를 할 때 사용하는 환자의 포함 배제 기준(inclusion, exclusion criteria)을 생각해본다면 우리는 데이터가 주어지는 상황에서 사고를 하는 것이 아니라 데이터를 만들고 조작해가며 사고를 하고 의학을 발전시켜 나가는 것이 더 맞겠지요. 이러한 맥락에서 우리가 다루는 정보는 주어졌다는 뜻의 data가 아닌, 수행하고 만든다는 뜻의 facta(단수형 factum)가 더 적절할지도 모르겠습니다.

This post is licensed under CC BY 4.0 by the author.

Score-based Method에 대한 이해

R2 score - Nonliear model이어도 괜찮아