Posts 의료인공지능에 대한 개괄적 소개와 의료인공지능 사업에 대한 이해 - Part 5
Post
Cancel

의료인공지능에 대한 개괄적 소개와 의료인공지능 사업에 대한 이해 - Part 5

의료인공지능에 대한 개괄적 소개와 의료인공지능 사업에 대한 이해 - Part 5

그래서 그거 진짜 좋은거 맞아?

모델이 더 좋아진거 맞아?

의료인공지능을 연구하고 개발하다 보면 실제로 임상 현장에 썼을 때 불만이 많이 나오는 경우들을 접하게 됩니다. 제 예전 글에서도 언급했듯, positive predictive value (PPV) 와 같은 지표가 sensitivity와 같은 지표들보다 user인 의사들에게는 더 피부로 다가오지만 PPV는 유병률(prevalence)의 영향을 받기 때문에 적절한 target group의 설정이 필요합니다.

저는 항상 진단 기기를 평가할 때는 수많은 지표들을 동시에 고려해야 한다고 합니다. High sensitivity를 갖는 확진 기기, high specificity를 갖는 스크리닝 기기, high PPV를 보일 수 있도록 하는 target group (high prevalence group)의 설정과 같은 것들이 고려되어야 한다는 말입니다. 아무리 그래도, 하나의 수치로 모델을 평가할 수는 없을까요? 서울아산병원 박성호 교수님의 KJR 논문을 참고해서 이러한 수치에 대한 접근을 해 봅시다.

우리는 예방의학 시간에 AUROC, sensitivity, specificy와 같은 개념들을 배웠습니다. 이에 더불어 machine learning을 깊게 공부해보면 0.5라는 threshold를 넘어 Youden’s index라는 것을 공부하기도 하고, sensitivity 100% thereshold, specificity 100% threshold와 같이 threshold를 조정하는 법을 고민하기도 합니다. 하지만 이러한 작업들은 거의 항상 prevalence에 대한 이해가 없이 이루어지는 작업들입니다.

예를 들어, 95% sensitivity, 95% specificity 모델이 있다고 해 봅시다. 이 모델의 upgrade version에서 sensitivity가 99%로 올라가고, specificity가 0.5% 떨어졌다면 이 모델은 성능 향상이 있는 것일까요? 얼핏 봐서는 net benefit이 +4%-0.5% = 3.5%가 이루어졌으므로 성능이 올라갔다는 것으로 생각하기 쉽습니다. 하지만, 역시나 이러한 논증은 prevalence에 대한 이해가 없는 논증입니다. 실제 계산을 통해 살펴봅시다.

먼저, 유병률이 50%인 상황입니다. 민감도와 특이도가 모두 95%인 경우에는 다음처럼 정확도가 당연히 95%가 나오는 것이 맞습니다.

1

여기서 민감도가 99%로 4%p 올라가고, 특이도가 94.5%로 0.5%p 떨어진다면 다음과 같은 상황이 될 것입니다.

1

역시나 직관과 동일하게, 정확도가 직관적으로 net benefit일 것 같은 3.5%p 올라갔습니다.

하지만 유병률이 1%인 상황에서는 어떻게 될까요?

1

민감도 95%, 특이도 95%에서는 정확도가 95%로 잘 유지됨을 볼 수 있습니다. 하지만, 민감도가 99%, 특이도가 94.5%로 바뀌면

1

정확도가 오히려 0.5%p 떨어지는 것을 관찰할 수 있습니다. 결국 모델의 성능 향상이라는 것 또한 유병률의 영향을 받고 있었던 것입니다.

이러한 문제는 TP (true positive) 의 변화량과 TN (true negative)의 비율이 각각 FN (false negative) 와 FP (false positive) 의 변화량과 연결되어 있기 때문인데 본 논문에서는 이를 다음처럼 수식으로 풀어냈습니다.

1

식은 충분히 납득이 가고, 바로 확인할 수 있듯 변화량은 유병률에 영향을 받습니다.

이러한 것들을 고려하여 논문에서는 다음과 같은 net benefit을 정의합니다.

1

여기서 FP-to-TP outcome ratio는 다음처럼 정의됩니다.

  1. a: TP로 진단했을 때의 patient outcome
  2. b: FP로 진단했을 때의 patient outcome
  3. c: FN으로 진단했을 때의 patient outcome
  4. d: TN으로 진단했을 때의 patient outcome

그러면

FP-to-TP outcome ratio : (d-b)/(a-c)

로 정의합니다. 이렇게 정의된 net benefit은 온라인에서 계산기를 통해 계산해볼 수 있습니다.

하지만 인생은 실전인걸

제가 늘 하는 말 중에 하나는, 의료는 기술이 아니라 시스템이라는 것입니다. 따라서 기술의 발전만으로 의사를 대체하는 것은 불가능하다는 이야기를 자주 하고는 하고 시스템에 대한 이해를 해야 한다는 주장을 항상 해왔습니다. 위 글에서는 기술적 향상 여부를 논하는 관점인 인공지능 모델의 성능과 유병률 사이의 논의를 했었지만 이것만이 실제로 임상에서 도움을 준다는 것을 증명할수는 없습니다.

실제로 임상에서 도움을 준다는 것은 어떤 것일까요? 서울아산병원 박성호 교수님과 한국보건의료원 설아람 연구원께서 연구한 자료에 따르면, 임상에서의 도움은 크게 다섯 가지로 나눌 수 있고, 이들에 대한 간략한 설명은 다음과 같습니다.

  1. 환자 안전의 향상
    1. 의료 정보의 해석 정확도 향상
    2. 임상에서 발생하는 잘못된 처치 감소. 예를 들어 약물로 인한 유해사건과 같은 것들입니다.
    3. 예방할 수 있는 오류로 인한 사망률 감소
    4. 예후의 정밀도 및 속도 향상
    5. 환자에게 정보를 전달하는 관점에서의 의사소통 효율화 및 정확도 향상
    6. 환자 경험 및 만족도 향상
  2. 임상 의사결정 지원의 향상
    1. 질병의 아형(subtype)의 정확한 분류
    2. 진단 정밀도 향상, 진단 오류 감소
    3. 진단까지 걸리는 시간 감소
    4. 근거에 기반한 최적의 치료 시기
    5. 정밀의료로의 지향성
  3. 형평성 및 공정성 향상
    1. 사회 경제적 수준에 따른 건강 불평등 및 건강 편차 감소
    2. 인종 편차 감소
    3. 환자 자율성 강화
  4. 임상의를 위한 작업 환경의 개선
    1. 전문인력이 부족한 상황에서의 전문가 수준의 진단능 확보
    2. 임상의의 burn-out 감소
  5. 효율성의 향상
    1. 비용 절감. 즉, 비용-효과성
    2. 개선된 환자 분류(triage) 시스템
    3. 환자의 의료 지출 감소
    4. 병원 경영 효율화

와 같은 항목들로 분류해놓았습니다. 조금 항목들이 겹치는 것이 있어 보이지만 이들은 베타적 속성들이 아니므로 납득할 수 있습니다. 이를 재분류해보면 다음과 같이 항목을 설정할 수 있을 것입니다.

  1. 환자 안전의 향상, 형평성 및 공정성 향상: 환자중심결과 향상
  2. 임상 의사결정 지원의 향상: 진단 정확도 향상, 진료/환자 결과 향상
  3. 임상의를 위한 작업 환경의 개선: 의료기관 및 의료인 효율 향상
  4. 효율성의 향상: 의료기관 및 의료인 효율 향상, 거시적 의료비용 감소

정리해 보자면 AI 의료기기를 다면적으로 평가하는 데 있어서는 다섯 가지 측면이 고려되어야 합니다.

  1. 진단정확도 향상
  2. 진료/환자 결과 향상
  3. 거시적 의료비용 감소
  4. 의료기관 및 의료인 효율 향상
  5. 환자 중심 결과 향상

본 자료에서는, 이를 오갹형으로 두고 각 항목에 점수를 메기는 방식으로 의료 인공지능 기기의 다면적 가치평가를 수행하자고 이야기합니다. 예를 들면 다음과 같은 것이죠.

1

본 예시에서는 진단정확도가 향상되고 의료기관 및 의료인 효율이 향상되었지만 환자의 결과가 향상되지 않았고 거시적 의료비용 감소가 적으므로 국가 단위에서는 크게 이득을 볼 수 없습니다. 따라서 병원이 직접 제품을 구매해서 쓰는 것이 좋다는 결론을 내릴 수 있는 방식으로 의료인공지능 기기의 평가를 할 수 있는 것이죠.

이러한 관점에 대한 예시집도 한국보건의료원 홈페이지에 올라와 있으므로, 의료인공지능 기기를 제품화하거나 임상에 적용하려는 분들은 꼭 한 번 보시면 도움이 될 것이라 생각합니다.

다시 한 번 말하지만, 의료는 시스템입니다. 이전 의료인공지능 소개글들(1편, 2편, 3편, 4편)에서 공통적으로 이야기하였던 것들도 의료인공지능 연구자는 시스템에 대한 이해가 필요하다는 것이었고 5편인 본편에서도 이를 역시나 주장하며 글을 마칩니다.

This post is licensed under CC BY 4.0 by the author.

R2 score - Nonliear model이어도 괜찮아

의료인공지능 오마카세 Week 10 - 의학이 수학을 만날 때