Deep Learning for Prediction of N2 Metastasis and Survival for Clinical Stage I Non-Small Cell Lung Cancer
Paper : Link
Introduction
NLST로 알려진 임상시험을 통해, 인류는 CT를 통한 조기검진으로 조기개입을 하여 폐암의 사망률을 약 20% 내외로 줄일 수 있다는 것을 알게 되었습니다. 이렇게 암이 있는 경우에 우리는 암을 특정 기준에 따라 분류하고는 하는데요, 그 기준이 바로 AJCC TNM Staging이라고 부르는 것입니다. 현재는 8판이 최신으로 출간되어 있고, 8판의 내용을 간략하게 설명하면 다음과 같습니다.
여기서 T는 tumor(종양)로, 암의 악성도가 얼마나 높은지에 대한 정보이고 N은 lymph node(임파선)로 국소 임파선이 어떤 악성도를 가지냐, M은 metastasis로 원격 전이 여부에 관한 정보이고 T,N,M 뒤에 붙은 숫자가 증가할수록 악성도가 증가한다고 이해하시면 됩니다. 자세한 내용은 여기를 참고하세요
1기 비소세포성 폐암(NSCLC; Non-Small Cell Lung Cancer)은 수술이 가장 우선되는 치료입니다. 하지만, 불행하게도 임상적으로 1기 폐암이라고 추정되는 환자들을 수술해보면 임파선에 암이 전이되어 N2 이상으로 진단받는, 즉 바로 3기 이상으로 staging이 up되는 비율이 4~8%가 된다고 합니다. 이렇게 3기로 staging up이 되고 나면 환자는 항암화학요법을 비롯한 다각적 측면의 항암치료를 받아야 하기 때문에 임상적으로 N2 여부를 진단하는 것이 중요하게 됩니다. 물론 PET-CT나 침습적 조직검사와 같은 것들이 있지만 PET-CT는 1기 비소세포성 폐암에서 false negative rate가 5-21%정도 존재하고 비용 측면이 있으며 침습적 조직검사는 과진단을 유도하여 각각의 한계가 존재하기 때문에 더 정확한 진단을 위해서는 새로운 방법을 고안해야 합니다.
저자들은 이러한 맥락에서 딥러닝을 통해 N2 staging을 정확하게 하는 모델과 방법론을 개발했습니다. 자세한 것은 아래를 봅시다.
Materials and Methods
Study Cohort
Retrospective Cohort, External Test Cohort
CT 이미지와 임상 데이터는 Shanghai Pulmonary Hospital에서 2011년 1월부터 2013년 12월까지 모였습니다. Inclusion criteria는
- CT상 4cm 미만인 폐의 병변이 있으면서
- 조영증강(contrast-enhanced) CT에서 종격동(mediastinal) 임파선이 1cm 이하로 있고
- 병리적 진단으로 NSCLC를 진단받았으며
- 종격동 임파선 또한 절제되어 병리적으로 전이가 확인된 데이터
만을 사용하였습니다. 이것은 내부 학습 데이터 및 내부 테스트 데이터에 관한 정보이고, 외부 검증 데이터(external test cohort)는 Appendix E1에서 확인할 수 있는데 정리하자면 다음과 같습니다.
- CT상 4cm 미만인 폐의 병변이 있으면서
- 조영증강(contrast-enhanced) CT에서 종격동(mediastinal) 또는 폐문부(hilar) 임파선이 1cm 이하로 있고
- 병리적 진단으로 NSCLC를 진단받은 환자들
을 포함시켰고
- 다수의 병변이 있거나
- 선행항암화학요법(neoadjuvant chemotherapy)을 받은 환자는
제외하였습니다.
뿐만 아니라 이 논문에서는 특이하게도 생물학적인 요인까지 평가에 집어넣었습니다. 바로 이것이 이 논문의 가장 큰 장점이자 남들이 쉽게 따라할 수 없는 포인트라고 생각합니다. 생물학적인 요인을 평가하기 위해 저자들은 Cancer Imaging Archive database에서 radiogenomics 정보가 가용한 데이터를 사용하였다고 합니다(자세하게 어떤 코호트인지는 찾지 못했습니다.).
Multicenter Prospective Test Cohort
2020년 5월부터 2020년 10월까지 전향적(prospective) 테스트 데이터 또한 수집되고 분석을 수행하였습니다. 전향적 데이터에 대한 포함 기준은 다음과 같습니다.
- 수술 전 thin-section CT scan에서 폐암이 의심되거나 확진되어 수술이 예정된 환자들 중
- CT에서 병변이 4cm 미만이면서
- 폐문부와 종격동 임파선의 지름이 1cm 이하이고
- 원발성 NSCLC이며
- PET 스캔을 해서 폐문부와 종격동 임파선의 최대 표준 흡수량(maximum standarized uptake value)이 2.5 미만이고
- 20-75세이면서
- 서면 동의를 받은 사람
을 대상으로 하였고 제외 기준은
- 다수의 폐 병변
- 영상 퀄리티가 좋지 않은 케이스
- 종격동 임파선 절제술을 받지 않은 사람
- 선행항암화학요법을 받은/는 사람
이었습니다.
Experimental Settings
코드는 github page에서 확인할 수 있습니다. 연구는 다음과 같은 방향으로 진행됩니다.
먼저 저자들은 RoI를 crop하여 모델이 N2 stage를 잘 맞추도록 학습하였고 internal validation set과 external validation set에서 세 가지의 clinical model들(Veterans Affairs model, Fundan model, Beijing model)과 성능을 비교하였습니다. 참고로 이 모델에 사용된 CT는 모두 contrast CT입니다. 모델은 학습된 후 0.5 threshold, high-sensitivity threshold (0.95), high-specificity threshold (0.95)에서 평가되었습니다. 또한 Youden index로도 평가하였습니다.
생물학적인 특성을 영상의학적인 특성과 합쳐 평가하기 위해 유전자 변이 분석이 수행되었습니다. 자세한 내용은 Results에서 보시겠습니다.
Results
Model Efficacy Evaluation
모델 성능은 본래 논문들이 그러하듯 좋다고 주장합니다.
(그런데 아래 수치들은 왜저렇게 그렸는지… 너무 한 눈에 안들어오네요)
Biologic Basis
그림에서 볼 수 있듯, 딥러닝 모델의 점수가 0.5 이상인 종양들은
- EGFR이라는 유전자의 돌연변이가 적었습니다 (31% vs 43 %)
- ALK fusion이라는 유전자의 현상이 높았습니다 (6% vs 2%)
뿐만 아니라 논문에서는 다음과 같은 현상도 설명합니다.
For tumors with a deep learning score of 0.5 or greater, pathways related to messenger RNA splicing, recombinant RNA processing in the nucleus and cytosol, metabolism of RNA, DNA replication, synthesis of DNA, metabolism of amino acids, and derivatives and translation were upregulated. Conversely, pathways such as collagen degradation, extracellular matrix proteoglycans, phospholipid metabolism, and collagen biosynthesis and modify-ing enzyme were substantially downregulated.
요약하자면 0.5 기준으로 생물학적인 현상들이 통계적으로 유의하게 났다는 것입니다.
Clinical Utility Investigation
Test set 중 prospective하게 모은 cohort에서, 딥러닝 모델은 0.81의 꽤나 좋은 성능을 보였습니다. 이는 기존에 임상에서 쓰던 모델들보다 더 좋은 성능입니다(Veterans Affairs model: 0.63; Fudan model: 0.63; Beijing model: 0.61). 기관별 성능 차이는 있었다고 보고했지만 이정도면 썩 나쁘지 않은 성적입니다.
Individualized Prognosis Stratification
Score에 따라서 얼마나 위험도가 달라지는지 보기 위해, 연구자들은 score에 따라서 그룹을 네 가지로 나누었습니다. 0.11 미만, 0.11 이상 0.50 미만, 0.50 이상 0.68 미만, 0.68 이상 이렇게요. 이렇게 나눈 네 그룹으로부터 Kaplan-Meier survival curve를 그렸더니 다음과 같은 결론이 나왔습니다.
Score가 높아질수록, 위험도가 증가하고 실제로도 생존률이 낮아지는 것을 관찰할 수 있었습니다. 뿐만 아니라 약을 썼을 때
항암화학치료요법은 low risk group (C), low to moderate risk (D)에서는 크게 효과가 없었지만 moderate to high risk (E), high risk (F)에서는 효과가 명확했다는 것을 보여주고 있습니다.
Discussion
술전 종격동 병기 설정은 Stage I NSCLC 환자에서 치료법이 달라지기 때문에 매우 중요합니다. 본 연구에서는 숨어있는 N2 stage를 찾아내고 그에 따른 다양한 요인들을 분석하였습니다. 성능이 잘 나오는 것은 둘쨰로 치고, low risk group과 high risk group의 survival curve까지도 분석할 수 있는 확장성을 보여주었다는 것이 놀라운 점입니다. 하지만 개인적으로는, 생물학적 변이들의 상관관계를 보여준 것은 아주 명확한 진단적, 임상적 의미를 가지는 것인지는 잘 모르겠습니다. Erlotinib과 같은 항암제들이 EGFR mutation lung cancer에 쓰여왔다고는 하지만, 단순히 특정 군에서 EGFR mutation의 발현량이 통계적으로 유의하게 높고 적다고 임상 workflow를 대체할 수 있는것은 아니라는 생각이 들었거든요. 본 논문에서는 EGFR mutation, ALK fusion, 그리고 기저에 깔린 대사적 pathway들이 다르게 발현된다는 것의 correlation만을 밝혔을 뿐 그것이 임상과 어떻게 연결되는지에 대한 고찰이 불분명합니다.
본 연구에서 ultimate goal of this study라고 말할 정도로 신경을 쓰는 것은 역시나 인공지능을 통한 임상 workflow의 개선입니다. Operating point optimization (high sensitivity, high specificity) 설정을 통한 N2 staging modality들의 allocation을 prioritize하려고 시도했고, 이를 통해 biopsy나 PET에 대한 추천 및 prioritize를 하려고 시도했습니다. 절대로 대체가 아님에 유의하기 바랍니다.
PET이 해당 기관에서 의무적인 검사는 아니었다는 점, 대부분의 암이 adenocarcinoma였다는 점과 같은 것들을 논문 저자들은 본 논문의 한계점으로 꼽습니다만 그래도 빼어난 연구임에는 의심의 여지가 없습니다.
서울대학교 영상의학과 박창민 교수님께서는 이 논문에 대한 editorial을 쓰셨는데요, 이의 주요 논지도 제가 본 오마카세에서 리뷰한 내용들과 전체적으로 비슷합니다. N2 staging에 대한 sensitivity가 70~85%밖에 되지 않는다는 점, 8.5%의 clinical N0 lung cancer는 사실 N2 stage로 판명된다는 점, N0에서 endobronchial biopsy는 진단적 가치가 명확하지 않다는 점을 문제의식으로 삼고 논문의 임상적 motivation에 동의하십니다.
박창민 교수님의 editorial 마지막 문단을 인용하며 첫 오마카세 리뷰를 마치겠습니다.
This study serves as an excellent example of deep learning research with the selection of clinically relevant topics, build-up of a simply applicable model structure, robust tests reflecting real-world clinical practice, and exploration of the biologic basis of the observed associations. Through high-quality deep learning studies satisfying these criteria, deep learning will be successfully implemented in real-world clinical practice in the near future.
번역하자면
본 연구는 임상적으로 의미있는 주제에 대한 인공지능 연구로, 간단한 모델 구조로부터 실제 현장을 반영하는 실험들을 수행했으며 생물학적인 기저의 주제까지 다루었다. 고퀄리티의 딥러닝 연구들이 이러한 요소들을 갖춘다면 머지 않은 미래에 딥러닝은 임상 현장에 적용되지 않을까 한다.