Posts 지극히 개인적인 흉부영상 AI의 현재와 미래에 관한 고찰 1 - 공개 데이터셋
Post
Cancel

지극히 개인적인 흉부영상 AI의 현재와 미래에 관한 고찰 1 - 공개 데이터셋

이 글은 지극히 개인적인 관점임을 밝혀둡니다.

시리즈

  1. 지극히 개인적인 흉부영상 AI의 현재와 미래에 관한 고찰 1 - 공개 데이터셋
  2. 지극히 개인적인 흉부영상 AI의 현재와 미래에 관한 고찰 2 - 역사와 현재
  3. 지극히 개인적인 흉부영상 AI의 현재와 미래에 관한 고찰 3 - 트렌드와 나아가는 길

흉부영상 AI의 시작

데이터의 공개

대표적인 데이터셋만 추렸고, 빠진 데이터셋이 있을 수 있습니다. 추가를 원하시면 jryoungw2035@gmail.com 으로 알려주세요.

General Chest X-ray (CXR)

2012년 AlexNet이 ILSVRC에서 1위를 한 이래로 의료영상 연구는 AI가 지배하다시피 발전해왔습니다. 특히나 2017년에 Stanford에 계셨던 Rajpurkar 교수님(현재는 Harvard 소속)이 Andrew Ng 교수님과 함께 연구했던 CheXNet을 시작으로 수많은 흉부영상 AI 연구들이 시작되었습니다.

image.png

ChexNet은 121-DenseNet 구조를 가지고, Chest-X-ray 14라는 데이터셋 기반으로 학습된 14 disease classification network입니다. Chest-X-ray 14 데이터셋은 NIH dataset이라고도 불리는 데이터셋으로, 미국의 NIH에서 release한 Chest-X-ray 8 데이터셋을 확장한 데이터셋으로 14개의 흉부 질환에 대한 label 정보를 담고 있습니다. 이후 2019년에는 CheXpert라는 Stanford의 데이터셋이 나오기도 하고 MIMIC-CXR 데이터셋이 공개되기도 하며 방대한 양의 CXR 데이터가 공개되었습니다. 특히나 Kaggle에서 대회로도 열린 Vingroup의 VinBigData CXR 데이터셋은 Nature Scientific Data에 논문으로 출간되기도 했고, 2019년의 PadChest 데이터셋과 같은 데이터셋 Medical Image Analysis에 논문으로 출간되었고 이는 200가지 정도의 CXR finding을 제공하는 데이터셋입니다. 이를 간단하게 표로 정리하면 다음과 같습니다.

cxr dataset.png

Disease Specific CXR Dataset

  1. Lung segmentation - Lung segmentation 관련 데이터셋으로는 JSRT, Montgomery 두 개의 데이터셋이 가장 유명하게 쓰입니다. 두 데이터의 차이점은 cardiac margin을 고려한 lung mask가 있냐 아니냐의 여부인데, 이는 연구자들의 연구 목적에 따라 달라지게 됩니다.
  2. Pneumothorax segmentation 대회가 kaggle에서 열린 적이 있습니다. AP사진과 PA 사진이 모두 섞여있어서 원하는 목적에 맞게 잘 사용해야 합니다.
  3. Pneumonia segmentation 대회도 kaggle에서 열린 적이 있습니다. 정확히 말해서 폐렴은 CXR 하나만으로 판단하는 대회가 아니기 때문에 pneumonia challenge라고 하기보다는 lung opacity challenge라고 부르는 것이 맞을 것 같지만, 대회명 자체는 pneumonia를 사용하고 있습니다.
  4. Tuberculosis segmentation - 위에서 언급한 Montgomery 데이터셋은 사실 tuberculosis segmentation을 위해서 만들어진 데이터셋입니다. 아쉽게도 active, inactive, tuberculosis scar 같은 레이블이 붙어있지는 않지만 screening 목적을 위해서는 충분히 사용할 수 있을 것으로 보입니다.
  5. 위에서 언급한 CXR 데이터셋이 PA scan에서 촬영되는 사진들이었다면 AP에서 특별히 모아진 공개 데이터셋은 kaggle에 올라온 catheter and line position 데이터셋입니다.

Chest CT

Chest CT 데이터셋은 CXR 데이터만큼 대규모로 release 되지 않았다고 생각할 수 있는데, volume 자체는 아주 큰 데이터셋들이 있습니다만 segmentation label은 당연히 다 붙어있지는 않습니다.

  1. Lung cancer screening 데이터셋으로 가장 대표적인 데이터셋은 NLST 데이터셋LUNA16 데이터셋일 것입니다. 거의 모든 상용 프로그램들은 LUNA16을 기반으로 nodule detection과 segmentation이 학습되었습니다. 하지만 이들의 문제점은 2mm slice thickness와 같이 thick slice를 가지는 것이라는 단점과(LCS는 1.5mm 이하의 slice thickness가 권장됩니다.), 30mm 이상의 size를 가지는 lung mass가 아닌 3~4mm부터 30mm까지의 nodule만을 포함하고 있다는 문제점이 있습니다. 이와 다르게 2025년에 새로 개최된 LUNA25 대회는 lung cancer screening에서 detection과 segmentation을 하는 것이 아니라 malignancy risk를 예측하는 모델을 제작하는 대회로 현재(2025.05) 진행중에 있으며 누구나 참여 가능합니다.
  2. Interstitial lung disease 관련 데이터셋은 Open-Source Imaging Consortium (OSIC) 데이터베이스가 있습니다(저도 membership 인터뷰로 OSIC 블로그에 인터뷰가 올라가 있습니다.). (정확하지는 않지만) OSIC 데이터에 접근하려면 병원은 본인들의 데이터 일부를 제공하면 전체 access가 가능하고 회사와 같은 기관은 membership fee를 내면 전체 데이터에 access를 해준다는 것으로 알고 있습니다. OSIC 또한 ILD 환자의 FVC decline을 예측하는 Kaggle 대회를 개최한 적이 있습니다. 그리고 Pulmonary fibrosis foundation (PFF) registry도 있지만, 미국 바깥으로 데이터 반출을 엄격하게 금지해서 만약 이 데이터를 사용하고 싶다면 미국의 연구자와 collaboration을 해야 합니다.
  3. Pulmonary embolism 관련해서는 Kaggle에서 열린 RSNA STR PE 대회의 데이터베이스가 있습니다.
  4. Huggingface에도 데이터셋이 많이 올라오고 있습니다. 예를 들어 CT VLM 데이터셋이나, CT report, VQA, segmentation이 합쳐져 있는 데이터셋과 같은 것들을 포함하여 잘 찾아보시면 귀한 데이터셋을 많이 발견하실 수 있을 것입니다.

Chest MRI

폐는 MRI를 잘 촬영하지 않기 때문에(임상적으로 무조건 찍어야만 하는 이유가 없기 때문에) 특별히 MRI 데이터셋은 없는 것으로 알고 있고 더 조사를 해보지도 않았습니다.

This post is licensed under CC BY 4.0 by the author.