Posts 의료인공지능 오마카세 Week 2 - 의료인공지능을 쓰는 의사들의 불만: 무엇이 문제일까?
Post
Cancel

의료인공지능 오마카세 Week 2 - 의료인공지능을 쓰는 의사들의 불만: 무엇이 문제일까?

양성예측도의 함정

이번주 오마카세는 조금 짧고 논문 리뷰는 아니지만, 제가 의료인공지능에서 가장 중요한 문제 중 하나라는 것을 다뤄보도록 하겠습니다. 저도 인지하지 못하고 있던 문제였는데 김치원 선생님의 블로그에서 처음 문제의식을 접하고 깨달았던 주제입니다.

저는 인공지능 하는 사람들, 특히 의료인공지능에 대한 이야기가 나오면 하나의 지표만 보지 말고 수많은 지표들을 다 함께 보고 고민하라고 말하곤 합니다. 정확도 99%면 의료 현장에서 쓸 수 있나요? 같은 질문을 하지 말라는 말이죠. 오늘은 이에 대한 이야기를 해 보도록 하겠습니다.

의료인공지능에서 높은 성능은 임상 현장에서 쓰기 위한 필요충분조건도, 필요조건도, 충분조건도 아닙니다. 그저 논문이나 인허가에 있어서 유리한 고지를 점하는 딱 그 정도 수준일 뿐이죠. 그렇다면 무엇을 보고 고민해야 하는 것일까요? 하나만 봐서는 안된다는 논지 중 오늘은 양성예측도 (Positive Predictive Value; PPV)에 대해서 이야기해보도록 하겠습니다.

의료에서, 특히 예방의학에서 민감도(sensitivity)와 특이도(specificity)는 매우 중요한 역할을 합니다. 어떤 진단적 도구의 성능을 측정해주는 두 가지 가장 중요한 지표라고 할 수 있죠. 특히 이 중에서 민감도에 대해서 자세히 살펴보면, 민감도는

Sentivity = (True Positive) / (True Positive + False Negative) = (True Positive) / (GT Positive)

진짜 환자 중에서 몇 명을 병이 있다고 예측했냐에 관한 지표입니다. 표를 통해 보면 다음과 같겠죠.

스크린샷 2023-03-05 오전 9.01.56.png

위 표에서 볼 수 있듯, 민감도는 파란색 박스로 표시된 것이 분모이고 True Positive가 분자가 됩니다. 단순히 이것만 있으면 충분할까요? 아닙니다. 의사들이 실제로 보고 느끼는 것은 Ground Truth가 아니라 어떤 진단 제품이 병이라고 예측한 것들 중 몇 case가 실제로 병이냐이기 때문에 양성예측도가 정말로 피부로 느끼게 되는 것입니다. 양성예측도는 표에서 볼 수 있듯이

PPV = (True Positive) / (True Positive + False Positive) = (True Positive) / (Pred Positive)

입니다. 빨간색 박스가 분모에 오게 되는 것이죠. 자, 그러면 이것이 왜 중요해지는지 살펴봅시다. 유병률(prevalence)라는 것은 전 인구 중에 몇 명이나 병에 걸려있냐를 나타내주는 비율입니다. 100명중에 30명이 병에 걸렸으면 유병률은 30%가 되는 것이지요. 먼저, 인구집단 20,000명에 대해서 민감도와 특이도가 99%인 진단 기기가 있고 유병률이 50%인 어떤 병이 있다고 가정해 봅시다. 그러면 위 표는 다음처럼 전개가 될 것입니다.

스크린샷 2023-03-05 오전 9.02.00.png

아주 좋습니다. 계산상 제품의 민감도도 훌륭할 뿐더러 의사들이 보게 되는 기기가 병이라고 예측한 것들 중에서 99%는 실제로 병이 있게 되는 것이지요. 문제는, 이 집단이 이 질병을 잘 예방 및 치료해서 유병률이 1%로 떨어졌을 때 나타납니다. 유병률이 1%라면, 표는 다음처럼 바뀝니다.

스크린샷 2023-03-05 오전 9.02.03.png

문제가 발생했습니다. 20,000명 중에서 200명만 병에 걸렸기 때문에 PPV가 50%로 낮아진 것입니다. 즉, 진단 기기가 병이 있다고 예측하는 사람 두 명 중에서 한 명은 실제로 병이 없는 것이지요. 따라서 의사들은 실제로는 병이 아닌데 병이 있다고 보게 되는 위양성(false positive)이 너무 많다고 느낄 수밖에 없고 이 제품에 대한 불신이 증가하게 되는 것입니다.

이는 실제로 의료인공지능이 현장에서 쓰이는 경우에 대한 가장 큰 불만입니다. 다음 기사를 보시겠습니다.

스크린샷 2023-03-05 오전 9.19.02.png

인공지능을 쓰는데 왜 의사 업무가 더 늘었다고 할까요? 바로 다음 이유 때문이라고 합니다.

스크린샷 2023-03-05 오전 9.20.14.png

바로 가짜 병변을 많이 표시하기 때문이라고 합니다. 이것은 PPV가 낮다는 말이 되는 것과 동치인 말입니다. 이 문제는 거의 모든 인공지능 제품이 고위험군을 대상으로 하는 것이 아닌 일반 집단에서 스크리닝 용도로 쓰이기 때문입니다.

나아가야 할 길

좋은 제품은 좋은 성능과 동치명제가 아닙니다. 사시미를 과일 깎는데 쓰지 않는 것처럼, 내가 만든 제품이 어느 집단에서 가장 유용하게 쓰여야 할 지 그 target group을 정확히 설정하는 것이 중요합니다. 이것이 PPV의 함정이자, 사용자인 의사들을 만족시키는 길이 될 것입니다.

This post is licensed under CC BY 4.0 by the author.

의료인공지능 오마카세 Week 1 - 폐암의 임파선 전이에 관하여

의료인공지능 오마카세 Week 3 - 우연히 발견되는 비정상 소견에 관하여