본 글은 Claude의 도움을 받아 작성되었습니다.
CAD의 분류
미국에는 연방 규정집(Code of Federal Regulations)이라는 것이 있습니다. 단어 그대로 미국의 연방 규정집인데, 여기서 Title 21은 식품, 의약품 관련 규정들입니다. 이 중에서도 892번째 부분이 방사선 의료기기 (Radiologic devices)의 분류를 규정하는 부분이고요. 즉, FDA가 인체용으로 상업 유통되는 모든 방사선 기기를 어떻게 분류하고 규제하는지를 명시한 법적 근거입니다.
21 CFR 892.1 Scope This part sets forth the classification of radiology devices intended for human use that are in commercial distribution. 이 부분은 상업 유통되는 인체용 방사선 의료기기의 분류를 정한다.
이런 scope를 가지고 쭉 내려가다 보면 2050, 2060, 2080, 2090 그리고 기타등등에 컴퓨터 보조 진단/검출 기기(Computer Aided Diagnosis/Detection; CAD)의 분류가 나옵니다.
- CADe (Detection): 21 CFR 892.2050에 분류되며, 이미지에서 비정상 소견이 있을 수 있는 부분을 식별, 표시, 강조하여 임상의의 판독 시 주의를 환기시키는 장치입니다. 흉부 CT 폐결절 검출, CXR 분석 등이 대표적인 예입니다. Class II입니다.
- CADx (Diagnosis): 21 CFR 892.2060에 분류, 제품 코드 POK. 병변의 위치를 명시적으로 표시하지 않으면서 점수나 카테고리 출력 등을 통해 진단을 보조하는 장치입니다. 암 의심 병변에 대한 진단 보조가 여기에 해당합니다. Class II입니다.
- CADt (Triage): 21 CFR 892.2080, 제품 코드 QAS, QFM. 우선순위 검토를 위해 케이스에 플래그를 다는 장치로, 이미지에 마크를 남기지 않으며, 다른 CAD 유형과 달리 임상의 판독 이전에 동작합니다. ICH, LVO, PE 검출 알림 등이 이에 해당합니다. Class II입니다.
- CADe/x (Detection & Diagnosis): 21 CFR 892.2090, 제품 코드 QBS, QDQ. 검출과 진단 기능을 모두 제공하며, 검출된 병변에 수치적 또는 범주형 점수가 부여되는 경우 이 카테고리로 분류됩니다. Class II입니다.
분류 변화
가장 중요한 규제적 변화는 2020년 1월 22일에 일어났습니다. FDA는 유방 mammography, 유방 초음파 병변, 흉부 X-ray 폐결절, 치과 X-ray 우식 검출용 CADe 장치 등 특정 영상 분석기를 Class III(PMA)에서 Class II(special controls가 포함된 510(k))로 재분류했고, 동시에 De Novo로 처리되던 CADx 및 CADt 장치 유형을 Class II로 공식 코드화했습니다. [출처]
통계
FDA 승인 104개 CAD 제품 분석에서 CADt가 59%로 가장 많고, CADe가 19%로 그 뒤를 잇습니다. 유방암과 두개내출혈(ICH)이 각각 14개 제품으로 질환별 가장 많은 승인 건수를 기록했습니다. [출처]
CADt 예시 - Lunit INSIGHT CXR
Intended Use
성인 흉부 X-ray에서 흉수(pleural effusion) 와 기흉(pneumothorax) 두 가지 시간 민감성 critical finding을 검출하여, PACS 워크리스트에서 우선순위를 부여하는 소프트웨어입니다. 케이스 레벨 출력만 제공하며, 영상 위에 마크업을 하지 않습니다.
CADt의 정체성을 잘 보여주는 “하지 않는 것” 목록
CADe/CADx와 CADt를 구분할 때 가장 헷갈려하는 부분인데, 이 문서에 명확히 나옵니다:
- 원본 영상에 마크업하지 않음 - “No markup on original image”. CADe와의 결정적 차이가 됩니다.
- 이미지의 특정 부위로 주의를 유도하지 않음 - “not intended to direct attention to specific portions of an image”.
- 단독 임상 의사결정에 사용 불가 - “not intended to be used on a stand-alone basis”.
- 워크리스트에서 케이스를 제거하지 않음 - 표준 진료 워크플로우와 병렬로(in parallel) 작동.
- 능동 알림 없음 - “passive notification”. 의사에게 직접 알림을 푸시하지 않고, PACS에서 플래그만 표시.
- 진단 정보 미제공 - flag 또는 blank의 case-level 출력만.
이것이 바로 21 CFR 892.2080 정의의 “does not mark, highlight, or direct users’ attention to a specific location”가 실제 제품에 어떻게 구현되는지 보여주는 실례입니다.
Predicate Device (substantial equivalence 구조)
- Primary Predicate: Zebra Medical Vision의 HealthCXR (K192320) - pleural effusion CADt
- Secondary Predicate: GE Medical의 Critical Care Suite (K183182) - pneumothorax CADt
Predicate가 두 개로 나뉜 이유는 이 디바이스가 두 finding을 모두 다루기 때문에, 각 finding마다 “이미 FDA가 CADt로서 적절하다고 인정한” 선례를 별도로 가져온 것입니다.
Performance Data
Standalone (1,385 images, 내부 validation):
- Pleural effusion: AUC 0.9864, Sens 94.29%, Spec 95.72%
- Pneumothorax: AUC 0.9973, Sens 96.08%, Spec 99.14%
Pivotal Clinical (NIH + India 데이터셋, 1,708 images):
- Pleural effusion: AUC 0.9686, Sens 89.86%, Spec 93.48%
- Pneumothorax: AUC 0.9630, Sens 88.92%, Spec 90.51%
Acceptance criteria는 AUC 하한 > 0.95, Sens/Spec 하한 > 0.85였습니다. CADt이라 검출 정확도뿐 아니라 알림 시간(time-to-notification) 도 핵심 평가 지표입니다 - Lunit 제품은 평균 14.66초.
중요 포인트
- 시간 축의 차이가 본질 - CADt는 판독 이전에 작동해 우선순위를 매기는 반면, CADe/CADx는 판독 중에 의사를 보조합니다. 그래서 CADt 평가에는 “notification timing”이라는 CADe/CADx에는 없는 지표가 들어갑니다.
- 출력 형식 = 분류의 본질 - 이 디바이스가 “flag/blank”라는 케이스 레벨 이진 출력만 제공한다는 것이 QFM(CADt)으로 분류되는 결정적 근거입니다. 만약 이 알고리즘이 동일한 검출 능력으로 영상 위에 박스를 그렸다면 CADe(MYN 또는 QBS)가 되었을 것이고, 중증도 점수까지 줬다면 CADe/x(QDQ)가 되었을 겁니다. 같은 백본 모델이라도 출력 설계와 라벨링에 따라 분류가 달라진다는 점을 잘 보여줍니다.
- 병렬 워크플로우 원칙 - 21 CFR 892.2080의 “operates in parallel with the standard of care”가 실제 디바이스 동작에 어떻게 반영되는지 확인할 수 있습니다 (워크리스트 제거 X, 능동 푸시 X).
CADe 예시 - Coreline AVIEW
제품 개요
AVIEW Lung Nodule CAD는 흉부 CT 영상에서 폐결절을 자동으로 검출하는 소프트웨어입니다. 결절 검출 모델은 deep convolutional neural network (CNN) 기반 알고리즘으로 흉부 CT 영상을 학습하여 구축되었으며, 3 ~ 20 mm 직경의 폐결절을 자동 검출합니다. DICOM 표준을 준수하여 PACS와 연동 가능하며, 결절 관련 정량 값의 분석·식별·저장·전송을 위한 별도의 사용자 인터페이스를 제공합니다. 사용자는 CAD가 제공한 마크를 선택 또는 해제할 수 있으며, 디바이스는 cleared AVIEW 플랫폼과 함께 사용되도록 의도되었습니다.
Indications for Use
AVIEW Lung Nodule CAD는 무증상 인구(asymptomatic populations) 의 흉부 CT 검사 판독 시 3 ~ 20 mm 직경의 폐결절 검출을 보조하는 Computer-Aided Detection (CAD) 소프트웨어입니다. 영상의학과 의사가 놓칠 수 있는 의심 결절 부위(region of interest)에 대해 보조 정보(adjunctive information)를 제공하여 주의를 환기시킵니다. AVIEW Lung Nodule CAD는 second reader로 사용되며, 즉 영상의학과 의사가 1차 판독을 완료한 이후에 사용됩니다.
알고리즘은 비조영(non-contrast) CT 영상으로 검증되었으며, 대부분의 검증 데이터는 Siemens SOMATOM CT 시리즈 스캐너로 획득되었습니다. 따라서 디바이스 사용은 Siemens SOMATOM CT 시리즈로 제한할 것이 권고됩니다.
Predicate 및 Reference Device
Primary Predicate는 Siemens Healthcare GmbH의 syngo.CT Lung CAD (VD20), K203258입니다. 동일하게 21 CFR 892.2050 / Product Code OEB로 분류된 디바이스입니다. Reference Device로는 두 가지가 사용되었습니다.
- Beijing Infervision Technology의 InferRead Lung CT.AI (K192880) - Product Code OEB, LLZ
- Coreline Soft 자사의 AVIEW (K200714) = Product Code LLZ, JAK
CADe/t/x 분류 관점에서의 의미 이 510(k)는 저희 회사 제품임에도 불구하고 매우 흥미로운 사례입니다. 제품명에 명시적으로 “CAD”가 포함되어 있고, 핵심 기능이 폐결절 자동 검출 + 영상 위 마크 표시임에도 불구하고, FDA는 이를 §892.2090(CADe/x) 또는 §892.2070(MYN, CADe)이 아닌 §892.2050 (Medical Image Management and Processing System) 으로 분류하였습니다.
여기서 핵심은 product code OEB입니다. OEB는 “Radiological computer-assisted detection software for lesions suspicious of cancer 외의 영상 처리 시스템” 범주 내에서 흉부 CT 폐결절 CAD를 위한 product code로 사용됩니다. 같은 §892.2050 하에 있어도 LLZ(일반 image processing)나 JAK(PACS)와는 구분되는, deep learning 기반 폐결절 검출 알고리즘에 특화된 product code입니다.
이 사례가 시사하는 바는 다음과 같습니다.
- 첫째, “CAD”라는 명칭은 마케팅 용어이지 FDA의 규제 분류와 직접 대응되지 않습니다. AVIEW Lung Nodule CAD는 기능적으로 명백한 CADe(검출 + 마크 표시)이지만, 분류 자체는 §892.2090이 아닌 §892.2050입니다.
- 둘째, FDA의 CAD 분류 체계는 시점과 predicate에 따라 진화해왔습니다. 동일한 흉부 CT 결절 CAD라도 어떤 시점에 어떤 predicate을 인용하느냐에 따라 §892.2050(OEB), §892.2070(MYN), §892.2090(QBS/QDQ) 중 다른 경로로 들어갈 수 있습니다. 폐결절 CAD는 역사적으로 OEB로 분류되어온 경향이 있어, predicate chain이 그쪽으로 이어집니다.
- 셋째, 동일 회사의 K193220 (AVIEW LCS, 2020) → K221592 (AVIEW Lung Nodule CAD, 2023)의 변화를 비교하면, 외부 CAD 통합(Mevis CAD) 의존에서 자체 deep learning CADe 알고리즘 보유로 전환된 것이 확인됩니다. Product code도 LLZ/JAK에서 OEB/LLZ로 변경되어, 자체 검출 알고리즘에 대한 별도 분류가 부여되었음을 알 수 있습니다.
Performance Data
이번 510(k)는 K193220과 달리 임상시험을 수행하였습니다. 이는 자체 deep learning 검출 알고리즘이 도입된 만큼, predicate과의 substantial equivalence 입증을 위해 임상 성능 평가가 필요했기 때문입니다.
Multi-Reader Multi-Case (MRMC) 임상 평가
HIPAA 준수 다중 케이스, 다중 판독자, 후향적 연구 설계가 사용되었습니다. 흉부 CT 전문 영상의학과 의사 3명(10년 이상 경력)이 ground truth를 결정하였으며, 데이터셋은 151건의 흉부 CT (음성 대조군 103건 + 결절 양성 48건) 으로 구성되었습니다. 모든 폐결절은 3D segmentation되었습니다. 위원회 인증 영상의학과 의사 11명이 맹검 방식으로 동일 케이스를 AI 보조 없이 판독하고, 무작위화 및 4주의 washout 기간 후 AI 보조 하에 재판독하였습니다.
MRMC 결과 (unaided vs aided)
| 지표 | Unaided | Aided | 차이 |
|---|---|---|---|
| AUC | 0.73 | 0.92 | 0.19 |
| Sensitivity | 0.68 | 0.91 | 0.23 |
| FP/Scan | 0.48 | 0.28 | 0.24 |
AI 보조 하에 폐결절 검출 성능이 통계적으로 유의하게 향상되었으며, 판독 시간도 감소하였습니다.
Standalone 성능 평가
미국 내 지리적으로 구분된 3개 임상 사이트에서 익명화된 의료 데이터를 구매하여 사용하였습니다. 총 282건(결절 양성 140건, 음성 142건)이 사용되었으며, AI 학습 또는 내부 검증에 사용된 데이터는 포함되지 않았습니다. 성별은 남성 132명, 여성 150명입니다. Incidental 인구와 screening 인구를 모두 포함하였고, 도전적이거나 혼동을 일으키는 케이스에 대한 subgroup 분석도 수행되었습니다.
지표결과Overall AUC (95% CI)0.961 (0.939 – 0.983)Overall Sensitivity (95% CI)0.907 (0.846 – 0.95)Overall Specificity (95% CI)0.704 (0.622 – 0.778)Sensitivity at FP/scan < 20.889 (0.849 – 0.93) at FP/scan = 0.504 Acceptance criteria는 환자 수준 및 결절 수준 sensitivity > 0.8, specificity > 0.6, ROC AUC > 0.8, FP/scan < 2에서 sensitivity > 0.8이었으며 모두 충족되었습니다.
결론
AVIEW Lung Nodule CAD는 기술적 특성, 일반 기능, 적용 분야, 의도된 사용 측면에서 predicate device(syngo.CT Lung CAD)와 substantially equivalent하며, 근본적으로 새로운 과학적 기술을 도입하지 않았고, 임상시험을 통해 안전성과 유효성이 입증되었다고 결론지어졌습니다.
| 지표 | 결과 |
|---|---|
| Overall AUC (95% CI) | 0.961 (0.939 – 0.983) |
| Overall Sensitivity (95% CI) | 0.907 (0.846 – 0.95) |
| Overall Specificity (95% CI) | 0.704 (0.622 – 0.778) |
| Sensitivity at FP/scan < 2 | 0.889 (0.849 – 0.93) at FP/scan = 0.504 |
Acceptance criteria는 환자 수준 및 결절 수준 sensitivity > 0.8, specificity > 0.6, ROC AUC > 0.8, FP/scan < 2에서 sensitivity > 0.8이었으며 모두 충족되었습니다.
결론
AVIEW Lung Nodule CAD는 기술적 특성, 일반 기능, 적용 분야, 의도된 사용 측면에서 predicate device(syngo.CT Lung CAD)와 substantially equivalent하며, 근본적으로 새로운 과학적 기술을 도입하지 않았고, 임상시험을 통해 안전성과 유효성이 입증되었다고 결론지어졌습니다.
CADx 예시 - Optellum VNC-CNN
제품 개요
Virtual Nodule Clinic (VNC)은 우연히 발견된 폐결절(incidentally detected pulmonary nodules)의 추적, 평가, 특성화에 사용되는 소프트웨어입니다. 두 가지 핵심 구성 요소로 이루어져 있습니다.첫째, 표준 데스크탑 웹 브라우저로 접근하는 웹 애플리케이션입니다. 둘째, 병원 내 또는 클라우드의 GPU 서버에 배포되는 LCP-CNN(Lung Cancer Prediction Convolutional Neural Network) 머신러닝 모델입니다.VNC는 병원의 PACS 및 RIS와 read-only 방식으로 연결되며, DICOM 영상과 임상 보고서를 표시·관리하는 기능을 제공합니다.
Indications for Use
VNC는 우연히 발견된 폐결절의 추적, 평가, 특성화에 사용되는 소프트웨어 디바이스입니다. 호흡기내과 의사 및 영상의학과 의사에게만 제공되는 CADx 기능을 포함하며, 사용자가 선택한 lung CT 데이터의 region of interest (ROI)를 자동으로 분석하여 형태학적 특성에 기반한 부피 및 컴퓨터 분석을 제공합니다.영상 특징(imaging features)만으로 인공지능 알고리즘이 단일 값인 LCP-CNN score를 계산하여 사용자에게 표시합니다. LCP-CNN score는 ground truth가 알려진 케이스 데이터베이스에서 생성된 LCP-CNN score들과의 상대적 위치를 히스토그램 형식으로 표시합니다.
적응증의 제한 사항이 매우 명확하게 규정되어 있습니다.
- 35세 이상 환자의 직경 5–30 mm 의 solid 및 semi-solid 우연 발견 폐결절에 대해서만 적응증
- 폐암 검진(lung cancer screening) 용도로는 사용되지 않음
- 순수 ground glass opacity (GGO) 결절에는 적응증 없음
- 고조영(>300 HU 대동맥궁 중간 감쇠) CT, 석회화 결절, 임플란트, 모션 아티팩트, 5개 초과 결절 케이스는 검증 데이터에서 제외됨
- 5년 이내 암 병력이 있는 환자는 전이성 병변 가능성 때문에 제외
영상의학과 의사 및 호흡기내과 의사 외의 사용자(임상의, 간호사, nurse practitioner, navigator)는 CT 영상과 보고서 조회, 환자 관리 워크플로우 정리, 환자 추적, 관리 결정 기록, nodule clinic 운영을 위해 VNC를 사용할 수 있으나, 이들에게는 LCP-CNN score가 제공되지 않습니다.
Predicate Device
Predicate는 Quantitative Insights, Inc.의 QuantX (DEN170022) 입니다. 이 디바이스는 De Novo 경로로 분류된 최초의 CADx 디바이스로, §892.2060 (POK) 분류를 신설한 케이스입니다. 즉 VNC는 §892.2060 자체를 만든 디바이스를 predicate으로 인용하고 있습니다.
흥미로운 점은 modality와 적용 부위가 다르다는 것입니다. QuantX는 유방암 MRI를 대상으로 하고, VNC는 폐암 CT를 대상으로 합니다. 그럼에도 불구하고 “이미지 기반 사용자 선택 ROI에서 머신러닝으로 단일 점수를 산출하여 진단을 보조한다” 는 작동 원리가 동일하다는 점에서 substantial equivalence가 인정되었습니다.
VNC가 §892.2060 / POK로 분류된 이유는 다음과 같습니다.
- 첫째, 출력의 성격이 진단 보조 점수입니다. §892.2060은 “암 의심 병변의 특성화(characterization) 를 보조하는” 디바이스를 위한 분류이며, VNC의 LCP-CNN score(1–10의 정수, 10이 가장 악성에 가까움)가 정확히 이에 해당합니다. AVIEW Lung Nodule CAD의 출력이 “결절의 위치 마크”인 것과 결정적으로 다릅니다.
- 둘째, 검출이 아니라 사용자 선택 ROI에 대한 분석입니다. VNC는 결절을 자동으로 찾지 않습니다. 사용자(영상의학과 또는 호흡기내과 의사)가 결절 중심을 클릭하면, 그 ROI에 대해 악성도 점수를 산출합니다. 이는 §892.2060이 명시한 “characterization of lesions” 정의와 일치하며, §892.2090(CADe/x)이나 §892.2070(CADe)의 검출 정의와 구분됩니다.
- 셋째, 점수의 해석 방식이 CADx 특유의 형태입니다. LCP-CNN score는 악성 확률(probability of malignancy)이 아니라, ground truth 데이터베이스의 score 분포에 대한 likelihood function입니다. 사용자에게는 score 값과 함께 양성/악성 케이스 데이터베이스의 히스토그램이 함께 제시되어, 사용자가 이를 임상 의사결정의 한 입력으로 활용합니다. 이는 CADx의 출력 디자인 패턴을 잘 보여줍니다. 이 사례에서 또 하나 주목할 점은 사용자 역할에 따라 CADx 기능 접근을 제한하고 있다는 것입니다. VNC는 영상의학과 의사와 호흡기내과 의사에게만 LCP-CNN score를 제공하고, 간호사나 nurse navigator에게는 환자 관리 기능만 제공합니다. 이러한 역할 기반 접근 제어는 §892.2060의 special control과 risk management 요구사항을 만족시키기 위한 설계 결정입니다.
Performance Data
§892.2060의 special control 1(iv) 및 1(ii)/1(iii)에 따라 standalone 성능 평가와 임상 성능 평가 가 모두 수행되었습니다.
Standalone Performance
LCP-CNN 모델 단독 성능을 양성/악성 결절 판별 능력으로 평가하였으며, AUC 사전 기준은 0.8이었습니다. 결과는 standalone performance 0.867로 패스였습니다.
Clinical Performance - MRMC Reader Study
12명의 판독자(영상의학과 의사 6명, 호흡기내과 의사 6명)가 300명의 우연 발견 폐결절 CT를 판독하는 fully-crossed multi-reader multi-case (MRMC) 연구가 수행되었습니다. 데이터셋은 미국과 EU의 9개 학술 및 지역사회 병원에서 후향적으로 수집되었으며, 양성과 악성이 각각 150건으로 구성되었습니다.
판독자는 LCP-CNN score에 맹검 상태에서 악성 가능도(LoM1)를 평가한 후, score를 공개받고 다시 평가(LoM2)하는 방식으로 진행되었습니다.
| 지표 | Unaided (LoM1) | Aided (LoM2) | 차이 |
|---|---|---|---|
| 평균 AUC | 81.9 | 88.8 | +6.85 (95% CI 4.29-9.41, p < 0.001) |
모든 12명의 판독자가 LCP-CNN 사용 시 정확도가 향상되었으며, 판독자 간 일관성도 통계적으로 유의하게 증가하였습니다. 평균 효과 크기는 6.85 AUC point였습니다.
Sub-analysis
미국 vs 비미국, 학술 vs 지역사회 병원, 검진 vs 우연 발견, 결절 크기(5–9mm, 10–15mm, >15mm), 결절 감쇠도(solid, semi-solid), 스캐너 제조사(GE, Siemens, Philips, Canon/Toshiba), CT dose, 재구성 슬라이스 두께, 재구성 알고리즘, 판독자 전문 분야, 판독자 경력, 환자 성별, 데이터 수집 병원, 환자 연령대 등 광범위한 subgroup 분석이 수행되었습니다. 학술 vs 지역사회, 검진 vs 우연 발견, CT 에너지, 슬라이스 두께, 재구성 타입, 영상의학과 vs 호흡기내과, 연령대, 성별 간에는 유의한 차이가 관찰되지 않았습니다. 결절 크기와 형태에 따른 일부 차이는 예상된 임상적 패턴을 따랐습니다(>15mm 및 solid에서 더 우수한 판독 성능).
Benefit-Risk 평가에서 주목할 점
검증 데이터셋 중 약 30%가 검진 발견 결절이었으나 적응증은 우연 발견 결절로 한정됩니다. 검진 인구가 우연 발견 인구보다 일반적으로 암 유병률이 높기 때문에, 적응증 범위 밖에서 사용 시 과진단(overdiagnosis) 위험이 존재합니다. 이를 통제하기 위해 디바이스 라벨링, 사용자 가이드, UI에 명시적 경고가 포함되었으며, 학습 및 검증 데이터의 암 유병률을 의도된 사용 환경의 유병률과 비교 검토하도록 사용자에게 안내합니다.
또한 검증 데이터에서 제외된 조건들(GGO, 5년 이내 암 병력, 5개 초과 결절, 임플란트, 35세 미만)은 모두 명시적 contraindication으로 라벨링에 포함되었으며, 일부 한계 조건(불규칙한 슬라이스 간격, 비축상 방향)에 대해서는 디바이스가 자체적으로 score 기능을 비활성화하도록 설계되었습니다.
결론
VNC는 predicate device(QuantX)와 동일한 의도된 사용을 가지며, 기술적 차이가 안전성과 유효성에 새로운 의문을 제기하지 않습니다. 임상 및 비임상 성능 시험을 통해 VNC가 적어도 predicate device만큼 안전하고 유효하게 작동함이 입증되었으며, 안전성과 유효성 요구사항을 충족하고 새로운 잠재적 안전 위험을 도입하지 않는다고 결론지어졌습니다.
CADe/x 예시 - Median Technologies Eyonis
얼마 전인 2026년 2월 6일 승인이 난 제품입니다.
제품 개요
eyonis® LCS는 AI/ML 기반 end-to-end CADe/CADx Software as a Medical Device (SaMD) 로, 흉부 CT 검사에서 획득된 LDCT(Low-Dose CT) DICOM 영상으로부터 폐 실질 결절(pulmonary parenchymal nodules)의 조기 검출, 위치 파악, 특성화를 수행합니다.
이 제품은 별도의 viewer 없이 컨테이너 기반 영상 처리 체인으로만 구성됩니다. 알고리즘은 solid 및 part-solid 결절의 검출, 위치 파악, 특성화를 수행하며, proprietary AI 및 머신러닝 모델은 폐암 병변과 양성 결절의 입증된 사례를 포함하는 대규모 데이터베이스로 학습되었습니다.
처리 결과는 DICOM ‘result report’ 형태로 제공되며, 각 결절을 probably benign / suspicious / very suspicious 로 분류하고, 결절별 악성도 점수와 reference population에서 관찰된 악성률을 함께 표시합니다. 결과는 점수 순으로 순위화됩니다.
DICOM 파일은 PACS에 저장되며, Median Gateway를 통해 로컬 하드 드라이브 또는 DICOM Service class provider로 전송 가능하고 DICOM Web과 HL7도 지원됩니다. 배포는 Kubernetes를 지원하는 환경(클라우드 또는 온프레미스)에서 가능하며, 인프라에 따라 3가지 설치 방법이 제공됩니다.
Indications for Use
eyonis® LCS는 영상의학과 의사의 사용을 위해 적응증이 부여된 디바이스입니다. 직경 4–30 mm의 solid 및 part-solid probably benign / suspicious / very suspicious 폐 실질 결절의 검출, 위치 파악, 특성화에서 영상의학과 의사를 보조합니다.
제외 대상:
- 순수 ground glass opacity (GGO)
- Mediastinal lesions and masses (hilar masses 포함)
eyonis® LCS의 결절 result report는 각 보고된 결절에 대해 슬라이스 번호, 악성도 점수, 전체 스냅샷, 클로즈업 스냅샷, 직경(long/short/average), 부피를 제공합니다. 진단 보조 및 follow-up 검사 평가, 임상/환자 관리 보조에 적응증이 있으나, 의료 전문가의 임상적 판단을 대체할 수는 없습니다.
대상 환자는 USPSTF 기준에 따른 폐암 검진 프로그램 참여 자격이 있는 고위험 환자(50–80세, 흡연력 보유)이며, 순수 GGO 암 환자와 hilar/mediastinal 암 환자는 의도된 환자군에서 제외됩니다. LDCT(Low-Dose Chest CT) DICOM 영상에 대해 사용됩니다.
판독 모드는 concurrent read mode로, AI 분석 결과가 원본 CT 영상과 함께 표시됩니다. 이는 K202300(VNC, 사용자 ROI 선택 후 점수 산출)이나 K221592(AVIEW Lung Nodule CAD, second reader)와 다른 워크플로우 위치입니다.
Predicate Device
Predicate는 ScreenPoint Medical B.V.의 Transpara™ 2.1.0 (K241831) 입니다. Transpara는 유방암 검진 영상을 위한 CADe/x 디바이스로, eyonis® LCS와 동일한 §892.2090 / QDQ로 분류되어 있습니다.
흥미로운 부분은 K202300(VNC)이 유방 MRI CADx인 QuantX를 polmonary CT CADx의 predicate으로 인용한 것과 유사한 패턴입니다. modality와 적용 부위가 다르더라도 작동 원리(AI 기반 검출/특성화 점수 산출)가 동일하면 substantial equivalence가 인정되는 FDA의 일관된 입장이 다시 한번 확인됩니다.
CADe/t/x 분류 관점에서의 의미
앞선 사례들과 비교하면 분류 체계의 결정적 차이가 드러납니다.
| 510(k) | 분류 | Product Code | 카테고리 | 출력 형태 |
|---|---|---|---|---|
| K193220 (AVIEW LCS) | §892.2050 | LLZ, JAK | Image Processing | 정량 측정 + Lung-RADS |
| K221592 (AVIEW Lung Nodule CAD) | §892.2050 | OEB, LLZ | Image Processing (CADe 기능) | 결절 위치 마크 |
| K202300 (Optellum VNC) | §892.2060 | POK | CADx | 사용자 선택 ROI에 대한 LCP-CNN score |
| K251474 (eyonis® LCS) | §892.2090 | QDQ | CADe/x | 결절 위치 + 마크 + 악성도 점수 통합 |
eyonis® LCS가 §892.2090 / QDQ로 분류된 이유는 검출(detection)과 진단(diagnosis) 기능이 단일 디바이스에 결합되어 있기 때문입니다. 디바이스는 다음을 모두 수행합니다.
- Detection: 결절을 자동으로 찾아냄
- Localization: 슬라이스 번호와 위치를 표시
- Characterization: 각 결절에 악성도 점수(1–10) 및 악성률 부여
이 세 기능의 통합이 §892.2090의 정의 - “the detection, localization, and characterization of fracture, lesions, or other disease-specific findings” - 와 정확히 일치합니다. 만약 검출만 했다면 §892.2050(OEB)이나 §892.2070(MYN)으로 분류되었을 것이고, 사용자가 ROI를 선택해야만 점수가 산출되었다면 §892.2060(POK)으로 분류되었을 것입니다.
또한 QDQ의 적용 범위가 유방암에서 폐암까지 확장되고 있다는 점도 주목할 만합니다. 앞서 검토한 자료에서 “QDQ는 주로 유방 mammography 기반”이라고 정리하였으나, 이번 K251474 사례는 QDQ가 흉부 CT 폐결절 CADe/x에도 적용된 사례입니다. 이는 FDA의 product code 적용 범위가 케이스 별로 확장되어 가는 양상을 보여줍니다.
점수 체계의 차이도 흥미롭습니다. Predicate인 Transpara는 1–100의 연속 점수를 직접 사용자에게 제공하는 반면, eyonis® LCS는 같은 100-point 연속 점수를 단조 변환하여 1–10의 이산 점수로 단순화하여 제공합니다. FDA는 두 디바이스 모두 “악성 가능도(likelihood of malignancy)로 해석되도록 의도된 100-point 점수”라는 본질에서 동일하다고 판단하여 substantial equivalence를 인정하였습니다.
Performance Data
§892.2090의 special controls에 따라 standalone 성능 평가와 임상 MRMC 평가가 모두 수행되었습니다.
Standalone Performance
후향적 cohort 연구로 수행되었습니다. 총 1,147명의 환자(암 342건, 비암 805건)가 7개의 서로 다른 데이터셋(유럽 학술기관 2곳, 미국 학술기관 3곳, 미국 민간 데이터 제공자 2곳)에서 수집되었습니다. 데이터셋은 암 유병률, 결절 크기, 침상화(spiculation)에 대해 enriched되었으며, 1:2의 암:양성 비율로 구성되었습니다. 50–80세 흡연력 보유 고위험 환자가 대상이었고, ground truth는 조직병리학적 검증 또는 12개월 이상의 안정성으로 확인되었습니다.
Clinical Operating Threshold (COT) 는 사전에 LCS score 3과 4의 경계로 정의되었습니다.
| 지표 | 결과 | Acceptance Criterion |
|---|---|---|
| 환자 수준 AUROC | 0.904 [0.881–0.926] | > 0.800 |
| Sensitivity at COT | 84.50% [80.22–88.17] | > 70% |
| Specificity at COT | 80.25% [77.33–82.95] | > 70% |
| AULROC | 0.869 [0.843–0.894] | > 0.750 |
AULROC는 위치 파악(localization) 성능을 검증하는 지표로, 일반 AUROC가 단순히 환자 수준 분류만 평가하는 것과 달리 결절의 정확한 위치까지 함께 평가합니다. CADe/x 디바이스가 §892.2090의 localization 요건을 충족하기 위해 필요한 평가 지표입니다.
탐색적 분석에서 FROC 분석 결과 sensitivity at COT가 80.59% [76.20–84.49], false-positive rate가 스캔당 0.271 [0.235–0.313]이었습니다.
Clinical Performance - Paired Split-Plot MRMC
16명의 임상 판독자(평균 13.31년 경력, 2–32년 범위)가 480명의 환자 영상을 판독하는 paired split-plot multi-reader multi-case (PSP MRMC) 후향적 reader study가 수행되었습니다. 환자군은 미국과 유럽에서 수집되었으며, 모든 판독자는 US Board Certified radiologist입니다.
연구는 임상 진료를 시뮬레이션하기 위해 순차적으로 진행되었으며, 120명의 블록마다 판독자가 각 환자를 두 번 판독하였습니다(unaided control vs aided test, 무작위 순서).
| 지표 | Unaided | Aided | 차이 (p-value) |
|---|---|---|---|
| AUC (primary) | 0.8276 | 0.8434 | +0.0158 [0.0032–0.0288], p = 0.0277 |
| Sensitivity | 92.50% | 93.75% | +1.25 [-1.52–4.02] (n.s.) |
| Specificity | 49.45% | 53.59% | +4.14 [0.27–8.01], p < 0.05 |
Primary endpoint(AUC)에서 통계적으로 유의한 향상이 입증되었습니다. Sensitivity는 비열등성을 유지하였고(수치적으로는 향상되었으나 우월성 검정에서는 비유의), Specificity는 통계적으로 유의하게 향상되었습니다. 이는 AI 보조가 환자 안전(sensitivity)을 유지하면서 임상적 효익(specificity)을 향상시킨다는 해석을 가능하게 합니다.
추가 임상 효익도 탐색되었습니다.
- 판독자 간 일치도 향상: ICC가 0.707 → 0.830 (p < 0.0001)
- 환자 관리 결정 일치도 향상: Kappa가 0.3507 → 0.4898 (p < 0.05)
- 미국 환자 subgroup: ΔAUC = 0.017 [0.006–0.028] (p < 0.05)
결론
비임상 및 임상 성능 시험 결과 eyonis® LCS는 안전하고 유효함이 입증되었습니다. Predicate device(Transpara 2.1.0)와의 차이는 검출 대상 질환과 영상 modality, 환자군에 있으나, 임상의를 보조하는 사용 방식이 동일하므로 새로운 안전성·유효성 우려를 제기하지 않습니다.
§892.2090의 CADe/CADx special controls는 standalone 시험과 임상 MRMC 시험에서 보조 판독의 비보조 판독에 대한 우월성을 입증함으로써 충족되었으며, eyonis® LCS는 적응증 범위 내에서 안전하고 유효한 사용이 입증되었고 predicate device와 substantially equivalent하다고 결론지어졌습니다.
의료기기의 자율성에 따른 분류
의료 AI의 자율성 분류 - Assistive / Augmentative / Autonomous
이 분류 체계는 AMA(American Medical Association)의 CPT Editorial Panel이 2021년 9월에 채택한 CPT Appendix S 에서 공식화된 AI taxonomy입니다. 의료 서비스 및 처치에 사용되는 AI 애플리케이션을 AI가 의료진을 대신하여 수행하는 작업의 성격에 따라 세 가지 범주로 분류합니다.
이 분류는 단순히 학술적 구분이 아니라 CPT 코드 신청 시 참조해야 하는 공식 분류 체계입니다. AI가 적용된 의료 서비스에 대한 새로운 CPT 코드 신청(Code Change Application, CCA)은 반드시 이 taxonomy를 참조해야 합니다.
분류 기준
분류는 두 가지 요소에 기반합니다.
- 환자에게 제공되는 임상적 처치 또는 서비스의 성격
- AI 기계가 의료진을 대신하여 수행하는 작업의 성격
여기서 “AI”라는 용어 자체에 대한 정의는 의도적으로 코드 세트에 포함되지 않았습니다. 이는 AI라는 용어가 expert system, machine learning, algorithm-based service 등 다양한 기술을 포괄하며, 단순히 “AI”라는 명칭만으로는 임상적 사용 의도나 유용성을 충분히 설명할 수 없기 때문입니다.
- Assistive - 검출
기계가 임상적으로 관련 있는 데이터를 검출(detect) 하되, 분석이나 결론 생성은 수행하지 않습니다. 의료진의 해석과 보고가 반드시 필요합니다.
Assistive AI는 인간 의료진이 놓칠 수 있는 영역을 강조하거나 데이터 포인트를 식별하는 수준에 머무릅니다. AI는 “여기에 무엇인가 있다”는 신호를 제공할 뿐, 그것이 무엇이며 어떤 의미인지에 대한 분석은 하지 않습니다.
Assistive에 해당하는 사례
- CADe (예: K221592 AVIEW Lung Nodule CAD) - 결절을 검출하여 마크하지만, 그것이 양성인지 악성인지에 대한 분석은 제공하지 않음
- CADt (예: K211733 Lunit INSIGHT CXR Triage) - 시간 민감성 finding의 존재 가능성을 플래그하여 우선순위를 제안하지만, 영상에 대한 분석은 제공하지 않음
- Augmentative - 분석/정량화
기계가 데이터를 분석(analyze) 하거나 정량화(quantify) 하여 임상적으로 의미 있는 출력을 산출합니다. 의료진의 해석과 보고가 반드시 필요합니다.
Augmentative AI는 단순한 검출을 넘어, 데이터의 의미를 풀어냅니다. 점수, 등급, 수치, 분류 결과를 제공하지만, 최종적으로 그 결과를 임상적 결론으로 해석하는 것은 인간 의료진의 책임입니다.
Augmentative에 해당하는 사례
- CADx (예: K202300 Optellum VNC) - LCP-CNN score(1–10)와 ground truth 데이터베이스 분포를 제공하여 악성 가능도 평가를 보조
- CADe/x (예: K251474 eyonis® LCS) - 결절을 검출하고 동시에 악성도 점수까지 산출
- Image Processing 기반 정량화 (예: K193220 AVIEW LCS) - Lung-RADS 자동 분류, PANCAN 악성도 점수 등 정량적 정보 제공
- Autonomous - 자율적 해석 및 결론 도출
기계가 데이터를 자동으로 해석(automatically interpret) 하고 의료진의 동시적 개입 없이 임상적으로 의미 있는 결론을 독립적으로 생성(independently generate) 합니다.
Autonomous AI 카테고리는 데이터의 조회와 분석을 모두 포함하며, 알고리즘의 작업 범위에 데이터의 획득, 준비, 전송이 포함될 수도 있습니다. 도출되는 임상적 결론은 진단을 확립하거나 치료적 개입을 시행하기 위해 사용되는 데이터의 특성화(예: 병태생리의 가능도)일 수 있습니다.
하위 분류
Autonomous AI는 의료진의 개입 정도에 따라 3가지 하위 레벨로 다시 세분화됩니다.
Level I
Autonomous AI가 결론을 도출하고 진단 또는 관리 옵션을 제안하며, 이는 반박 가능(contestable) 하고 시행을 위해 의료진의 행동(action)을 요구합니다.
AI가 진단을 내리지만, 그 진단에 따라 어떤 조치를 취할지는 인간 의료진이 결정합니다. 의료진이 동의하지 않으면 AI의 결론을 거부할 수 있고, 동의하더라도 실제 시행은 인간이 합니다.
Level II
Autonomous AI가 결론을 도출하고 진단 또는 관리 옵션을 개시(initiate) 하며, 알림 및 무효화(override) 기회가 제공되고, 시행을 위해 의료진의 행동이 필요할 수 있습니다.
AI가 한 단계 더 나아가서 진단뿐 아니라 다음 조치까지 자동으로 시작합니다. 인간 의료진은 알림을 받고 원하면 무효화할 수 있지만, 무효화하지 않으면 AI가 시작한 절차가 진행됩니다. 이는 인간의 적극적 개입이 없으면 AI의 결정이 그대로 유지되는 모드입니다.
Level III
Autonomous AI가 결론을 도출하고 관리를 개시(initiate) 하며, 이를 반박하기 위해 의료진의 적극적 행동(initiative)이 필요합니다.
가장 높은 자율성 레벨입니다. AI가 진단과 처치 시행을 모두 자율적으로 수행하며, 인간 의료진이 명시적으로 개입하여 반박해야만 그 결정을 뒤집을 수 있습니다. 인간의 개입이 디폴트가 아닌 예외가 되는 모드입니다.
CADe/t/x 분류와의 매핑
CADe/t/x 분류와 AMA의 자율성 분류를 매핑하면 다음과 같습니다.
| AMA 분류 | 작업의 성격 | CAD 매핑 | 510(k) 사례 |
|---|---|---|---|
| Assistive | 검출 only | CADt, CADe | K211733 (Lunit Triage), K221592 (AVIEW Lung Nodule CAD) |
| Augmentative | 분석/정량화 | CADx, CADe/x, 일부 Image Processing | K202300 (Optellum VNC), K251474 (eyonis® LCS), K193220 (AVIEW LCS) |
| Autonomous Level I | 자율적 결론, 의료진 시행 필요 | - | IDx-DR / LumineticsCore (당뇨망막병증 자율 진단) |
| Autonomous Level II | 자율적 개시, 무효화 가능 | - | (현재 FDA 승인 사례 거의 없음) |
| Autonomous Level III | 자율적 시행, 반박 시 개입 필요 | - | (현재 FDA 승인 사례 없음) |
여기서 결정적인 분기점은 Augmentative와 Autonomous 사이입니다. CADe/t/x는 모두 §892.20XX 정의에서 “aid the user”, “adjunctive information”, “not intended to replace the clinical judgment”를 명시적으로 요구하기 때문에, 본질적으로 Assistive 또는 Augmentative 범주를 벗어날 수 없습니다. AI가 자율적으로 진단을 내리려면 §892.20XX의 CAD 분류로는 부족하며, 별도의 De Novo 경로를 통해 새로운 분류를 받아야 합니다.
- 첫 AI CPT 코드: LumineticsCore (IDx-DR)
- 자율 AI 분류의 첫 번째 CPT 코드 사례는 LumineticsCore (이전 명칭 IDx-DR) 입니다. 망막 영상에서 당뇨망막병증을 검출 및 진단하는 디바이스로, 비전문가가 망막 카메라로 촬영하면 AI가 단독으로 “재검 필요 / 정상” 판정을 내립니다. 이는 AMA 분류상 Autonomous Level I에 해당합니다 - AI가 결론을 내리고, 그 결론에 따른 후속 조치(안과 의뢰 등)는 인간 의료진이 결정하고 시행합니다.
이 디바이스가 자율 AI로 인정받기 위한 규제적 부담은 일반 CAD와 본질적으로 다릅니다. 약 900명의 prospective clinical trial이 수행되었고, 비전문가 사용을 명시적으로 허용하는 라벨링이 부여되었으며, FDA는 De Novo 경로를 통해 Class II로 분류하였습니다.
한국 식약처(MFDS)의 자율성 분류
MFDS는 의료기기로서 인공지능 의료기기에 대한 별도 가이드라인을 통해 유사한 자율성 개념을 도입하고 있습니다. 다만 MFDS의 분류 체계는 IMDRF N12 프레임워크(정보의 중요성 × 의료 상황의 심각도)에 더 가깝게 정렬되어 있으며, AMA의 Assistive/Augmentative/Autonomous 명명을 직접 채택하지는 않았습니다. 그러나 임상적으로는 AI의 자율성 정도를 평가 시 고려하는 요소로 활용되고 있습니다.
자율성과 책임의 분배
AMA 분류가 단순한 기술적 구분을 넘어 법적·임상적 책임의 분배 구조를 반영한다는 점이 중요합니다.
- Assistive에서는 AI의 출력은 단순한 정보 제공이며, 모든 임상적 책임은 인간에게 있습니다.
- Augmentative에서는 AI의 분석이 의사결정에 영향을 미치지만, 최종 해석과 보고는 인간이 수행하므로 책임도 인간에게 있습니다.
- Autonomous에서는 AI가 임상적 결론을 내리므로, 책임 구조가 인간 의료진, AI 제조사, 의료 기관 사이에서 새롭게 분배되어야 합니다.
이러한 이유로 Autonomous AI는 보험 수가, 의료 과실 책임, 환자 동의 등 비기술적 측면에서도 별도의 규제적 검토가 필요하며, FDA 승인을 받았다고 해서 자동으로 임상 도입이 보장되지는 않습니다.
Autonomous AI 예시 - Digital Diagnostics의 LumineticsCore
이 디바이스는 De Novo 경로로 승인되었으며, FDA에 기존 분류가 존재하지 않았기 때문에 IDx-DR을 위해 새로운 regulation (21 CFR 886.1100), 새로운 device type, 새로운 product code (PIB) 가 모두 신설되었습니다. 이는 IDx-DR이 기존 어떤 분류에도 들어맞지 않는 새로운 종류의 디바이스였음을 의미합니다.
제품 개요
IDx-DR은 안과 영상에서 망막 질환을 식별하기 위한 진단 스크리닝을 수행하는 adaptive algorithm을 탑재한 처방용 소프트웨어 디바이스입니다. 환자의 fundus 영상을 자동으로 평가하여 당뇨망막병증의 존재 여부를 진단합니다.
시스템은 세 가지 컴포넌트로 구성됩니다.
- Topcon NW400 fundus 카메라: 망막 영상 획득
- IDx-DR Client: 클리닉 측 PC에 설치되어 영상 전송 및 결과 표시
- IDx-DR Analysis (서버): 영상 품질 평가 및 mtmDR 검출 알고리즘 실행
각 환자에게 눈당 2장의 fundus 영상(시신경유두 중심 1장 + 황반 중심 1장) 을 입력받아, 이미지 품질이 충분한 경우 다음 두 가지 출력 중 하나를 자동 생성합니다.
- “more than mild diabetic retinopathy detected” (mtmDR+) → 안과 의뢰 권고
- “more than mild diabetic retinopathy not detected” (mtmDR−) → 12개월 후 재검사 권고
Indications for Use
당뇨로 진단되었으나 당뇨망막병증 진단 이력이 없는 성인에서, healthcare provider가 mtmDR(more than mild Diabetic Retinopathy)을 자동으로 검출하기 위해 사용됩니다. 디바이스는 Topcon NW400과의 사용에 한정됩니다.
여기서 결정적인 표현은 “by health care providers to automatically detect” 입니다. 이는 다른 모든 CADe/x/t 디바이스의 indication에서 발견되는 “to aid the user”, “adjunctive information”, “not intended to replace clinical judgment” 와 명확히 구별됩니다. “automatically detect” 라는 표현 자체가 자율성을 명시적으로 인정하는 규제 언어입니다.
또한 사용자가 영상의학과 의사나 안과 전문의가 아닌 healthcare provider, 즉 1차 진료 클리닉의 비전문가까지 포함한다는 점도 자율성의 핵심 증거입니다.
임상시험
이 De Novo의 가장 결정적인 차별점은 prospective pivotal clinical trial을 수행했다는 것입니다. 앞서 검토한 모든 CAD 510(k) 사례들이 후향적 reader study를 사용한 것과 본질적으로 다릅니다.
시험 설계
10개의 1차 진료 사이트에서 900명의 환자가 등록되었으며, 22세 이상의 무증상 당뇨 환자 중 당뇨망막병증 진단 이력이 없는 자를 대상으로 하였습니다. 시험은 prospective, multi-site로 수행되었으며 시험 인구는 mtmDR+ 환자의 등록 가능성을 높이기 위해 HbA1c 상승자 enrichment가 적용되었습니다.
Operator 자격
이 부분이 자율 AI의 핵심 검증 지점입니다. IDx-DR operator trainee는 시험 시작 전 이전에 안과 영상 촬영 경험이 없음을 attest해야 했으며, 단 한 번의 4시간 표준화 교육만 받았습니다. 시험 기간 동안 추가 교육은 제공되지 않았습니다. 즉 시험 자체가 “비전문가가 단기 교육만으로 이 시스템을 운영할 수 있는가”를 검증하는 설계였습니다.
Reference Standard
전문 안과 사진사가 별도의 FDA-cleared 카메라(Topcon 3D OCT-1 Maestro)로 4-widefield stereo color fundus photography 및 macular OCT 영상을 추가 획득하였습니다. 모든 영상은 Fundus Photography Reading Center (FPRC) 로 전송되어 3명의 검증된 판독자가 ETDRS 척도로 등급을 매겼습니다(다수결). 이는 임상시험에서 사용 가능한 가장 엄격한 reference standard입니다.
핵심 성능 결과
| 지표 | 결과 | Pre-specified threshold |
|---|---|---|
| Sensitivity | 87.4% [81.9–92.9] | > 85.0% |
| Specificity | 89.5% [86.9–93.1] | > 82.5% |
| Imageability | 96.1% | - |
| PPV | 72.7% | - |
| NPV | 95.7% | - |
연령, 성별, 인종, 민족, HbA1C, 렌즈 상태, 사이트에 대해 sensitivity와 specificity 모두 통계적으로 유의한 차이가 없었습니다. 65세 이상에서 specificity가 약간 더 높게 관찰되었습니다(p = 0.030).
CSDME(Clinically Significant DME)에 대해서는 29명 중 28명을 정확히 검출(96%)하였고, ETDRS level 43 이상의 모든 참가자를 검출하였습니다.
Precision Study
24명의 참가자(mtmDR+ 12명, mtmDR− 12명)를 대상으로 reproducibility 및 repeatability 평가가 수행되었습니다. 각 참가자가 3명의 다른 operator와 2대의 다른 NW400 카메라로 imaging protocol을 10회 반복하여, 총 240회의 imaging 세트가 수집되었습니다. 24명 중 23명에서 10회 모두 동일한 출력이 산출되었으며, 1명에서 10회 중 9회 동일한 출력이 산출되어 99.6%의 일치도가 확인되었습니다.
Human Factors Validation
이 부분도 자율 AI 특유의 요건입니다. 이전에 안과 영상 촬영 경험이 없는 operator가 표준화된 교육 자료만으로 시스템을 정확히 운영할 수 있는지를 평가하는 별도의 시험이 수행되었으며, “이전에 훈련받지 않은 operator가 80% 이상의 환자에서 의료급 망막 영상 4장을 획득할 수 있는가”가 검증 기준이었습니다. 임상시험에서 96%의 image-ability가 달성되어 이 기준을 충족하였습니다.
Special Controls
§886.1100 신설과 함께 부여된 special controls는 다음과 같습니다.
- Software verification and validation - 알고리즘 전체 특성, 영상 획득 하드웨어 영향, 사이버보안, 서브시스템 실패 완화 측정
- Clinical performance data - Sensitivity, specificity, PPV, NPV 모두 평가, 예상 사용 조건에서 평가, 통계적 독립성 가정 시 정당화, 사용자 및 영상 획득 디바이스에 따른 출력 변동성 평가
- Training program - 품질 영상 획득 및 처리에 대한 교육 프로그램 제공
- Human factors validation testing - 교육 프로그램이 사용자 성능에 미치는 영향 평가
- Specification change protocol - 안전성 또는 유효성에 영향을 미치는 변경 정의
- Labeling - 사용 지침, 입력 데이터 유형, 출력 형식, 영상 품질 경고, 출력 해석에 대한 경고 (적응증 외 질환 스크리닝 금지, 스크리닝 진단일 뿐이며 후속 진료가 필수임을 명시, 디바이스가 치료를 수행하지 않음을 명시), 임상 성능 요약, 신뢰구간
§892.20XX의 CAD special controls와 비교했을 때 추가된 가장 중요한 요소는 3, 4번의 training program 및 human factors validation입니다. 이는 자율 AI가 비전문가에 의해 운영될 가능성을 직접 다루는 규제 요건입니다.
왜 IDx-DR이 자율 AI로 분류되었는가
이 De Novo 결정문 전체에서 IDx-DR을 자율 AI로 만든 결정적 요소들을 정리하면 다음과 같습니다.
첫째, 출력의 성격이 진단 결론입니다.
IDx-DR의 출력은 mtmDR+ 또는 mtmDR− 의 binary 진단 결정입니다. 이는 점수, 가능도, 특성 분석이 아닌 임상적 결론입니다. 결정문 자체에서 “the autonomous detection of more than mild DR”, “automatically (without physician assistance) detect mtmDR” 라고 명시적으로 표현하고 있습니다.
CADe(검출 마크), CADx(점수), CADt(우선순위 플래그), CADe/x(검출 + 점수)의 모든 출력은 인간이 해석해야 할 정보인 반면, IDx-DR의 출력은 인간 의료진의 해석 단계 없이 그 자체로 임상적 행동(안과 의뢰 또는 12개월 후 재검사)을 직접 트리거합니다.
둘째, 의료진의 영상 해석을 우회합니다.
다른 모든 CAD 디바이스는 영상의학과 의사 또는 전문의가 영상을 직접 검토하는 것을 전제로 합니다. CAD는 그 검토 과정을 보조할 뿐입니다. 반면 IDx-DR은 안과 전문의나 영상의학과 의사가 영상을 보지 않고도 진단이 완결됩니다. 1차 진료 의사가 IDx-DR의 출력만 보고 환자를 안과로 의뢰할지 결정합니다.
이는 AMA CPT Appendix S의 자율 AI 정의 - “automatically interprets data and independently generates clinically meaningful conclusions without concurrent physician or other QHP involvement” - 와 정확히 일치합니다. “Concurrent physician involvement” 이 없다는 것이 핵심입니다.
셋째, 비전문가 사용을 명시적으로 인정합니다.
라벨링과 임상시험 설계 모두에서 IDx-DR은 이전에 안과 영상 촬영 경험이 없는 operator가 4시간 교육 후 사용하도록 의도되었습니다. 만약 IDx-DR이 영상의학과 의사를 보조하는 도구였다면 이러한 operator 자격 요건은 무의미했을 것입니다. 비전문가 사용이 가능하다는 것은 곧 AI가 전문가의 해석을 대체한다는 의미이며, 이것이 자율성의 정의입니다.
넷째, AMA CPT Appendix S Level I과 정렬됩니다.
CPT Appendix S에서 자율 AI Level I은 “draws conclusions and offers diagnosis and/or management options, which are contestable and require physician or other QHP action to implement” 로 정의됩니다.
IDx-DR은 정확히 이 정의에 부합합니다. AI가 mtmDR+/− 결론을 내리고 안과 의뢰 또는 12개월 재검 권고라는 management option을 제시합니다. 이 결론은 의료진이 반박 가능(contestable) 하며(예: 다른 임상 소견을 고려하여 추가 평가를 결정할 수 있음), 실제 시행(안과 의뢰서 발행, 환자 교육)은 의료진의 행동으로 이루어집니다. AI가 진단을 내리지만, 실제 의뢰 절차를 자동으로 시작하지는 않습니다.
만약 IDx-DR이 진단 결과를 자동으로 안과 진료 시스템에 의뢰서로 등록했다면 Level II였을 것이고, 의뢰뿐 아니라 치료 시작까지 자동화했다면 Level III였을 것입니다. IDx-DR은 의도적으로 Level I 자율성에 머물러 있으며, 이는 1차 진료에서 활용 가능하면서도 의료진의 최종 판단권을 유지하는 균형점입니다.
다섯째, prospective trial이 자율성에 비례한 평가 부담입니다.
자율 AI는 인간 의료진의 검토 과정이 빠지므로, 그 출력 자체가 환자의 임상 경로를 결정합니다. 따라서 MRMC reader study(인간이 AI 보조로 더 잘 진단하는가)는 평가 도구로 부적절합니다. 평가해야 할 것은 “AI 단독의 성능이 1차 진료 환경에서 임상적으로 충분한가” 입니다.
이를 위해 IDx-DR은 다음을 모두 수행해야 했습니다.
- Prospective enrollment (후향적 데이터셋 아님)
- 1차 진료 환경에서의 실제 사용 시뮬레이션
- 비전문가 operator의 실제 운영
- 가장 엄격한 reference standard (FPRC + ETDRS)
- Human factors validation
- Repeatability/reproducibility 시험
이러한 평가 부담은 신약 임상시험에 준하며, 단순 510(k)로는 결코 충족할 수 없습니다.
CADe/t/x 사례들과의 결정적 차이
510(k) 사례들과 DEN180001을 한 번에 비교하면 자율성의 본질이 명확히 드러납니다.
| 항목 | CAD 510(k)들 (K193220, K221592, K202300, K251474, K211733) | DEN180001 (IDx-DR) |
|---|---|---|
| 분류 경로 | 510(k) (predicate 기반) | De Novo (신규 분류 신설) |
| Indication 표현 | “to aid the user”, “adjunctive information” | “to automatically detect” |
| 사용자 | 영상의학과 의사 또는 전문의 | Healthcare provider (비전문가 포함) |
| 출력의 성격 | 위치 마크, 점수, 분류, 우선순위 플래그 | Binary 진단 결정 |
| 의료진 해석 | 필수 | 불필요 |
| 임상 평가 설계 | MRMC reader study (후향적) | Prospective pivotal trial |
| AMA 분류 | Assistive 또는 Augmentative | Autonomous Level I |
| IMDRF 분류 | Inform 또는 Drive | Diagnose |
이 비교가 보여주는 결정적 메시지는 자율 AI는 단순한 기술적 차이가 아니라 규제적·임상적 패러다임 자체가 다르다는 점입니다. 다음의 모든 측면이 함께 변합니다 - 분류 경로, 라벨링 언어, 사용자 자격, 출력의 성격, 임상시험 설계, 책임 구조.
CPT Category I 92229
코드의 정식 정의
CPT 92229의 공식 description은 다음과 같습니다.
“Imaging of retina for detection or monitoring of disease; point-of-care autonomous analysis and report, unilateral or bilateral”
이를 풀어보면 “질환의 검출 또는 모니터링을 위한 망막 영상 촬영 - point-of-care에서 자율적 분석 및 보고, 일측 또는 양측” 입니다. 코드 description 안에 “autonomous” 라는 단어가 명시적으로 포함되어 있다는 점이 핵심입니다.
코드 신설의 배경과 시기
이 코드의 신설 과정은 미국 의료 AI 보험 수가 역사에서 결정적인 사건입니다.
- 2018년 4월 - IDx-DR이 FDA De Novo로 승인 (DEN180001)
- 2020년 9월 - AMA CPT Editorial Panel이 코드 92229를 신설 결정
- 2021년 가을 - CMS(Centers for Medicare & Medicaid Services)가 92229를 자율 AI 디바이스를 위한 첫 번째 CPT billing code로 정식 승인
- 2022년 - Medicare Physician Fee Schedule에 따른 비시설(외래) reimbursement 금액이 약 $45.75로 책정
DEN180001 승인 이전에는 자율 AI 디바이스를 위한 청구 프레임워크가 미국 내에 존재하지 않았습니다. IDx-DR이 자율 AI라는 새로운 카테고리를 만들었기 때문에, 그에 상응하는 보험 수가 체계도 새로 만들어져야 했습니다. 92229는 그 결과물입니다.
왜 92229가 의미 있는가
이 코드가 자율 AI 분류 체계와 직접 연결되는 이유는 다음과 같습니다.
첫째, AMA가 “자율 AI에 보험 수가를 지급한다”고 공식 선언한 첫 사례입니다.
CPT Appendix S의 자율성 분류(Assistive/Augmentative/Autonomous)가 단순한 학술적 구분이 아니라 실제 보험 청구 체계에 반영된 첫 번째 사례가 92229입니다. 즉 “자율 AI”라는 분류가 FDA 승인 → AMA taxonomy 분류 → 실제 보험 수가로 이어지는 완결된 경로의 종착점이 됩니다.
둘째, “Point-of-care autonomous”가 분류의 본질을 압축합니다.
92229의 description에 포함된 “point-of-care autonomous analysis and report”라는 표현은 자율 AI의 핵심 특성을 단 한 줄에 압축한 것입니다.
- Point-of-care - 환자가 클리닉에 있는 동안, 즉 전문의 의뢰 없이 결과가 즉시 제공됨
- Autonomous analysis - AI가 단독으로 영상 분석 수행
- Report - 분석 결과가 임상적 보고서 형태로 제공됨
이 세 요소가 결합될 때 비로소 자율 AI가 됩니다. CADe/x/t 디바이스는 이 중 어느 것도 충족하지 않습니다 - 영상의학과 의사의 판독을 거쳐야 하고(point-of-care 아님), AI 분석은 의사의 검토를 보조하며(autonomous 아님), 출력은 마크나 점수일 뿐 임상 보고서가 아닙니다(report 아님).
셋째, 책임과 보상의 재분배가 시작됩니다.
전통적인 영상 진단 코드는 영상 획득 + 의사의 판독이 한 묶음으로 청구됩니다. 그러나 92229는 의사의 판독이 없는데도 보험 수가가 지급됩니다. 이는 AI가 수행한 임상적 작업에 대해 직접 보험 수가가 매겨지는 첫 사례이며, 향후 자율 AI 보험 수가 체계의 모델이 됩니다.
92229 사용의 실제
미국 1차 진료에서 92229는 다음과 같이 운영됩니다.
- 당뇨 환자가 1차 진료 클리닉을 방문
- 비전문가 operator(간호사 등)가 fundus 카메라로 망막 영상 촬영
- LumineticsCore가 자동으로 영상 분석 → mtmDR+ 또는 mtmDR− 결과 산출
- 1차 진료 의사가 결과 확인 후 환자에게 즉시 안내(안과 의뢰 또는 12개월 후 재검)
- 클리닉이 92229 코드로 보험 청구
전체 과정에서 안과 의사도, 영상의학과 의사도 영상을 보지 않습니다. AI가 진단을 내리고, 의료 시스템은 그 진단에 대해 보험 수가를 지급합니다. 이것이 자율 AI가 의료 워크플로우에 통합되는 실제 모습입니다.
LumineticsCore (이전 IDx-DR)의 진화
DEN180001(2018, IDx-DR v2.0)에서 시작된 디바이스는 다음과 같이 진화하였습니다.
| 시점 | 사건 |
|---|---|
| 2018년 4월 | IDx-DR v2.0 De Novo 승인 (DEN180001) |
| 2020년 9월 | AMA가 CPT 92229 신설 결정 |
| 2021년 5월 | LumineticsCore 510(k) 승인 (IDx-DR을 predicate으로) |
| 2021년 가을 | CMS가 92229를 정식 청구 코드로 승인 |
| 2023년 | IDx-DR이 LumineticsCore로 명칭 변경 |
여기서 흥미로운 점은 2021년 510(k) 승인은 De Novo가 신설한 special controls를 그대로 적용받았다는 것입니다. 즉 한 번 De Novo로 새로운 분류(21 CFR 886.1100, PIB)가 만들어지면, 이후 동일 카테고리의 후속 디바이스들은 510(k)로 들어올 수 있게 됩니다.
이는 앞서 설명드린 K202300(Optellum VNC)이 QuantX(DEN170022)를 predicate으로 §892.2060 분류를 활용한 것과 동일한 패턴입니다. De Novo가 새로운 분류를 만들고, 510(k)가 그 분류를 확장한다 는 FDA 분류 체계 진화의 일반 법칙입니다.
92229가 다른 자율 AI에 미치는 영향
LumineticsCore의 De Novo와 92229 코드 신설 이후, 다음과 같은 후속 자율 AI 디바이스들이 동일한 경로를 따랐습니다.
- EyeArt (Eyenuk) - 2020년 510(k) 승인, LumineticsCore와 함께 92229로 청구 가능한 자율 AI 디바이스
- AEYE-DS (AEYE Health) - 2022년 510(k) 승인
세 디바이스 모두 동일한 21 CFR 886.1100 / PIB 분류를 받으며, 모두 92229로 청구 가능합니다. 즉 한 번 생긴 자율 AI 코드가 산업 전체의 보험 수가 인프라가 된 것입니다.
자율 AI 분류 체계의 완성도
지금까지 다룬 내용을 한 표로 정리하면, DEN180001 → CPT 92229 의 흐름이 자율 AI 분류 체계가 완결된 경로임이 드러납니다.
| 단계 | 항목 | DEN180001 / IDx-DR | CADe/t/x 디바이스들 |
|---|---|---|---|
| 1. FDA 분류 | Regulation | §886.1100 (신설) | §892.20XX (기존) |
| Class | Class II (De Novo) | Class II (510(k)) | |
| Product Code | PIB (신설) | OEB, POK, QBS, QDQ, QFM 등 | |
| 2. AMA 분류 | CPT Appendix S | Autonomous Level I | Assistive 또는 Augmentative |
| 3. 보험 수가 | CPT Code | 92229 (자율 AI 전용 신설) | 99XXX (기존 영상 진단 코드 + 의사 판독) |
| 4. CMS 승인 | Reimbursement | 약 $45.75 (2022 기준) | 의사 판독료에 포함 |
| 5. 임상 워크플로우 | 사용자 | 비전문가 operator | 영상의학과 또는 전문의 |
| 판독자 | AI 단독 | 인간 (AI는 보조) | |
| 의뢰 의사결정 | 1차 진료 의사 | 영상의학과 의사 |
이 표가 보여주는 것은 자율 AI가 단순한 기술적 분류가 아니라 FDA → AMA → CMS → 클리닉 워크플로우까지 연결된 완결된 의료 시스템 통합이라는 점입니다. 한 단계라도 빠지면 자율 AI는 임상 현장에 도달하지 못합니다.
한국 맥락에서의 시사점
한국에는 아직 자율 AI에 해당하는 CPT 92229 같은 직접 청구 코드가 정립되지 않은 상황입니다. MFDS는 자율 AI 분류 자체는 인정하지만, 건강보험심사평가원(HIRA)의 수가 체계는 여전히 의사 판독을 전제로 한 영상 진단 코드 위주로 구성되어 있습니다.
이는 한국의 의료 AI 회사들이 자율 AI 제품을 미국 시장에 출시할 때 두 가지 도전을 동시에 마주한다는 것을 의미합니다.
- 규제적 도전 - FDA De Novo 또는 510(k) 경로 확보 (이미 IDx-DR이 길을 닦아둠)
- 수가적 도전 - 92229 같은 적용 가능한 CPT 코드 확보 또는 기존 코드 사용 가능성 입증
CADe/t/x 분류에 머무는 디바이스는 기존 영상 진단 코드의 일부로 청구되거나 별도 청구가 어려운 반면, 자율 AI는 92229처럼 디바이스 자체에 직접 보험 수가가 매겨진다는 차이가 있습니다. 이 점에서 자율 AI는 수익 모델 측면에서도 본질적으로 다른 카테고리입니다.
CPT Category I을 받기 위한 조건들?
CPT Category I 코드 획득 조건
CPT Category I 코드는 AMA(American Medical Association)의 CPT Editorial Panel 에 의해 신설·승인되며, 다섯 가지 핵심 기준을 모두 충족해야 합니다. 이 다섯 가지는 AND 조건입니다 - 하나라도 충족하지 못하면 Category I이 아닌 Category III(임시 코드)로 분류됩니다.
다섯 가지 핵심 기준
기준 1. FDA 승인
처치 또는 서비스의 수행에 필요한 모든 디바이스 및 약물이, 그 수행에 FDA 승인이 요구되는 경우, FDA clearance 또는 approval을 받았어야 합니다.
이는 가장 명확한 기준입니다. 의료 AI의 경우 디바이스가 510(k), De Novo, 또는 PMA로 FDA 승인을 받지 못하면 Category I 코드 신청 자체가 불가능합니다. 단순한 RUO(Research Use Only) 또는 LDT(Laboratory Developed Test)는 자격이 없습니다.
자율 AI인 IDx-DR/LumineticsCore의 경우 2018년 4월 De Novo 승인(DEN180001) 이 이 기준을 충족시킨 출발점이었습니다. FDA 승인 없이 92229를 신청할 수 없었습니다.
기준 2. 광범위한 미국 내 사용
처치 또는 서비스가 미국 전역의 다수의 의사 또는 자격 있는 의료 전문가에 의해 수행되어야 합니다.
이것이 Category III와의 결정적 차이입니다. 단일 학술 의료기관이나 소수의 early adopter 클리닉에서만 사용되는 서비스는 Category I 자격이 없습니다. “많은 의사가 미국 전역에서” 라는 표현이 핵심입니다.
이 기준은 두 가지 함의를 가집니다.
- 시장 침투 기간이 필요함: 새로 FDA 승인을 받은 디바이스가 즉시 Category I을 받기 어렵습니다. 일반적으로 임상 도입 후 수 년의 사용 기간이 필요합니다.
- Multi-vendor 사용이 도움이 됨: 단일 회사의 단일 디바이스만 시장에 있을 때보다, 같은 카테고리의 여러 디바이스가 경쟁할 때 “널리 수행됨”이 입증되기 쉽습니다.
92229의 경우 LumineticsCore 단독이 아니라 EyeArt(2020 510(k)) 까지 시장에 진입한 이후에 Category I 코드 신설 결정이 가능했습니다. 동일 카테고리의 다수 디바이스 존재가 “광범위한 사용” 입증에 결정적이었습니다.
기준 3. 사용 빈도의 적절성
처치 또는 서비스가 의도된 임상적 사용에 부합하는 빈도로 수행되어야 합니다 - 일반적인 질환에 대한 서비스는 high volume이어야 합니다.
이는 희귀 질환 vs 흔한 질환 의 비대칭을 반영합니다. 흔한 질환에 대한 서비스는 절대 사용량이 많아야 하고, 희귀 질환에 대한 서비스는 그 임상적 맥락에서 적절한 빈도여야 합니다.
당뇨망막병증의 경우 미국에서 약 3천만 명의 당뇨 환자가 있고, ADA 가이드라인이 연 1회 망막 검진을 권고하므로 high-volume 서비스 자격을 자연스럽게 충족합니다. 이것이 92229가 비교적 빠르게 Category I을 받을 수 있었던 임상적 배경입니다.
기준 4. 현재 의료 관행과의 부합성
처치 또는 서비스가 현재의 의료 관행(current medical practice) 과 부합해야 합니다.
이 기준은 두 방향으로 작용합니다.
- 구식 기술은 안 됨: 더 이상 사용되지 않거나 outdated된 기술은 새로운 Category I 코드를 받을 수 없습니다.
- 너무 새로운 기술도 안 됨: 임상 가이드라인에 통합되지 않은 emerging technology는 Category I이 아니라 Category III에 머무릅니다.
이 기준은 임상 가이드라인 학회의 인정과 깊이 연관됩니다. 92229의 경우 ADA(American Diabetes Association)의 표준 진료 권고가 자율 AI를 당뇨망막병증 검진의 대안으로 인정한 것이 결정적 영향을 미쳤습니다.
기준 5. 임상 효능의 동료 평가 문헌 입증
처치 또는 서비스의 임상적 효능이 CPT code-change application의 요구사항을 충족하는 문헌에 기록되어 있어야 합니다.
여기서 “문헌”은 단순한 임상시험 보고서가 아니라 동료 평가(peer-reviewed) 학술지에 출판된 논문 을 의미합니다. 또한 영어로 출판되어야 하며 CPT Editorial Panel이 검토할 수 있어야 합니다.
자율 AI인 IDx-DR의 경우 Nature Digital Medicine (Abramoff et al., 2018)에 pivotal trial 결과가 출판된 것이 결정적 근거였습니다. FDA 승인만으로는 부족하며, 그 결과가 학술 커뮤니티에 의해 평가받고 출판되어야 Category I 자격이 인정됩니다.
Category III와의 구조적 차이
Category I 자격을 충족하지 못하는 emerging technology는 Category III 임시 코드를 받습니다. 두 카테고리의 차이는 다음과 같습니다.
| 항목 | Category I | Category III |
|---|---|---|
| 성격 | 영구적, 정식 코드 | 임시, 추적용 코드 |
| FDA 승인 | 필수 | 필수 아님 (현재/최근 인체 사용이면 가능) |
| 광범위한 사용 | 필수 | 불필요 |
| Peer-reviewed 문헌 | 필수 | IRB 승인 프로토콜 또는 진행 중 임상시험으로 대체 가능 |
| RUC 평가 | 거침 (수가 책정) | 거치지 않음 (수가 미책정) |
| 효력 발생 | 매년 1월 1일 | 신청 후 6개월 (1월 또는 7월) |
| Medicare 자동 적용 | 자동 적용됨 | 적용되지 않을 수 있음 |
| 코드 형식 | 5자리 숫자 (예: 92229) | 4자리 숫자 + T (예: 0XXXT) |
자율 AI 디바이스는 통상 다음 경로를 따릅니다.
- FDA 승인 (De Novo 또는 510(k))
- 임상 도입 및 peer-reviewed 출판 누적
- Category III 코드 부여 (early adoption phase에서 사용량 추적)
- Category I 코드로 전환 (위 5가지 기준 모두 충족 시)
92229의 경우 IDx-DR 출시 이후 약 2년의 임상 도입 기간을 거쳐 2020년 9월 Category I로 직접 신설되었습니다. 이는 자율 AI라는 새로운 카테고리이면서도 위 5가지 기준이 모두 충족된 드문 사례입니다.
추가 형식 요건
위 다섯 가지 핵심 기준 외에도 신청서가 만족해야 하는 형식적 요건이 있습니다.
기준 6. Descriptor의 고유성
제안된 코드 descriptor는 고유하고 잘 정의되어야 하며, 기존 CPT 코드의 절차나 서비스와 명확히 구분되어야 합니다. 92229의 경우 “autonomous point-of-care analysis”라는 표현이 기존의 “imaging of retina” 코드와 명확히 구분되는 핵심 요소입니다.
기준 7. 비분할(non-fragmentation)
기존 코드의 일부분을 떼어내거나, 이미 다른 코드로 보고할 수 있는 서비스를 새로 만드는 것은 금지됩니다. 즉 동일 서비스를 두 가지 코드로 청구할 수 있게 만드는 fragmentation은 거부됩니다.
기준 8. Editorial Panel 표준과의 일관성
Descriptor 구조, 가이드라인, 지침이 현재 CPT Editorial Panel의 코드 세트 유지 표준과 일관되어야 합니다.
신청 및 심사 프로세스
CPT Editorial Panel은 연 3회 회의를 개최하며, 신청서는 회의 60일 전까지 Panel 위원에게 배포됩니다. 심사 절차는 다음과 같습니다.
- Code Change Application(CCA) 제출 - AMA에 공식 신청서 제출
- AMA 사전 검토 - 신청서 완결성 확인, 필요 시 5영업일 내 보완 요구
- CPT Advisor 평가 - 해당 분야 전문 학회가 임명한 advisor가 임상적·코딩 관점에서 평가하고 서면 의견 제출
- CPT Editorial Panel 심의 - Panel 회의에서 reviewer가 신청을 소개하고 토론, Panel 위원·Advisor·참석자가 참여
- 결정 - Category I, Category III, 거부, 또는 보류
- RUC 평가 (Category I만 해당) - Relative Value Update Committee가 수가를 책정
- CMS 결정 - Medicare가 최종 reimbursement 금액을 결정
92229의 경우 2020년 9월 Panel이 코드 신설을 결정한 후, 약 1년의 RUC 평가 및 CMS 검토를 거쳐 2021년 가을에 정식 청구 코드로 활성화되었습니다.
자율 AI에 적용된 92229의 의미
이 다섯 가지 기준을 자율 AI 분류에 적용해보면, 92229는 자율 AI가 위 모든 조건을 처음으로 모두 충족한 사례라는 점에서 역사적 의미를 가집니다.
| 기준 | 92229의 충족 |
|---|---|
| 1. FDA 승인 | DEN180001 (2018) + EyeArt 510(k) (2020) |
| 2. 광범위한 미국 내 사용 | 1차 진료 클리닉, IHS, FQHC, 임상 시스템 도입 |
| 3. 빈도 적절성 | 미국 당뇨 환자 약 3천만 명, 연 1회 검진 권고 |
| 4. 현재 의료 관행 부합성 | ADA 가이드라인의 자율 AI 검진 인정 |
| 5. Peer-reviewed 문헌 | Abramoff et al. (Nature Digital Medicine, 2018) 외 다수 |
만약 한국 또는 다른 의료 AI 회사가 자율 AI 제품에 대해 미국에서 별도의 CPT Category I 코드를 받으려 한다면, 위 다섯 가지를 모두 충족시켜야 합니다. 이는 단순한 FDA 승인보다 훨씬 긴 로드맵입니다 - FDA 승인 후 임상 도입, 다수 기관의 사용, peer-reviewed 출판, 학회 가이드라인 통합까지 통상 3~5년이 소요됩니다.
CADe/t/x 디바이스에 대한 함의
이 글에서 다룬 CADe/t/x 디바이스들은 별도의 Category I 코드를 받기 매우 어렵습니다. 그 이유는 다음과 같습니다.
기준 1 (FDA 승인) 은 충족하지만, 기준 2~4 가 문제입니다.
- 기준 2: CADe/t/x는 영상의학과 의사의 판독 워크플로우 안에서 작동하므로, 별도 서비스로 광범위하게 수행되는 것이 아닙니다. 의사 판독료의 일부로 흡수됩니다.
- 기준 4: 현재 의료 관행은 영상의학과 의사의 판독을 요구하며, CADe/t/x는 그 보조 도구로 인식됩니다.
- 기준 7 (non-fragmentation): CADe/t/x를 별도 코드로 청구하면 기존 영상 진단 코드와의 fragmentation으로 간주될 수 있습니다.
이것이 CADe/t/x 디바이스의 보험 수가 모델이 자율 AI와 본질적으로 다른 이유입니다. CADe/t/x는 “의사 판독료의 일부”로 흡수되거나 별도 NCD/LCD를 통해 청구되며, 자율 AI만이 별도 CPT Category I 코드를 받을 수 있는 구조 입니다.
이는 자율 AI가 단순히 더 발전한 CADe/t/x가 아니라, 보험 수가 측면에서 별개의 카테고리 임을 다시 한번 확인시켜 줍니다. 자율 AI는 의사 판독을 대체하므로, 그 자체로 청구 가능한 임상 서비스가 됩니다. 반면 CADe/t/x는 의사 판독을 보조하므로, 의사 판독료의 일부로만 인정됩니다.
지금까지의 흐름을 종합하면 자율 AI와 CADe/t/x의 차이는 다음 다섯 축에서 일관되게 나타납니다.
| 축 | CADe/t/x | 자율 AI |
|---|---|---|
| FDA 분류 | §892.20XX (510(k)) | §886.1100 (De Novo) |
| AMA Taxonomy | Assistive 또는 Augmentative | Autonomous Level I+ |
| 임상 평가 | 후향적 MRMC reader study | Prospective pivotal trial |
| 사용자 | 영상의학과 또는 전문의 | 비전문가 가능 |
| CPT Code | 의사 판독료에 흡수 | 별도 Category I 코드 (예: 92229) |
자율 AI를 만든다는 것은 단순히 더 좋은 알고리즘을 만드는 것이 아니라, 위 다섯 축 모두에서 다른 길을 선택한다는 것입니다. FDA 분류부터 임상시험 설계, 라벨링, 보험 수가 전략까지 모두 다른 게임이 됩니다.
이것이 “자율 AI는 기술적 카테고리가 아니라 의료 시스템적 카테고리” 라는 메시지로 글을 닫을 수 있는 근거입니다. 한국 의료 AI 회사가 미국 시장에서 자율 AI를 만들고자 한다면, FDA De Novo 경로 → peer-reviewed 출판 → 학회 가이드라인 통합 → CPT Category I 신청 → CMS 수가 책정의 전체 로드맵을 처음부터 설계해야 한다는 실무적 함의가 도출됩니다.
Outro
의료 AI의 분류는 기술적 문제가 아니라 시스템적 문제입니다. FDA 분류(21 CFR 892 vs 886), AMA taxonomy(Assistive/Augmentative/Autonomous), CMS 보험 수가(99XXX vs 92229), 클리닉 워크플로우(전문가 판독 vs 비전문가 운영) - 이 네 가지 축이 모두 정렬되어야 비로소 의료 AI가 임상 현장에서 작동합니다.
CADe/t/x는 그 정렬의 한 가지 모드이고, 자율 AI는 또 다른 모드입니다. 두 모드는 서로의 상위·하위 개념이 아니라 평행한 두 개의 의료 AI 운영 체제입니다. 어느 쪽이 우월한 것이 아니라, 임상적 필요와 책임 분배 구조에 따라 선택되는 것입니다.