深層学習をはじめ人工知能(AI)分野の進歩は著しく、特に専門医が不足している領域において医用画像診断などへの臨床応用が期待されている。しかし、高い判別能を実現する深層学習モデルであっても、医学的な妥当性や信頼性を備えているかは明らかでない。東北大学大学院医用画像工学分野のYuwen Zeng氏らは、死後画像診断において放射線診断医が重視する医学的な「重要領域」とAIが判別に用いる「注目領域」を比較。その結果、「注目領域と重要領域には齟齬が見られ、AI医用画像診断の妥当性に懸念が示された」とJ Imaging Inform Med2024年2月9日オンライン版)に報告した。

溺死者の死後CT画像313例で検証

 死体検案を専門とする法医学者や病理専門医、放射線診断医が不足している中、AIを用いた診断補助ツールの臨床導入が期待されており、先行研究では死後CT画像を用いた深層学習モデルが高い分類精度を示すことが報告されている。しかし、診断の妥当性は十分に検証されておらず、臨床における信頼性は明らかでない。

 そこでZeng氏らは、AIによる医用画像診断の妥当性を検証する後ろ向き研究を実施。対象は、2012~21年に東北大学で死後剖検を受けた8~91歳の313例〔女性119例、溺死153例、その他の死因160例(心血管疾患、窒息、感染症中毒、外傷、糖尿病/アルコール性ケトアシドーシスなど)〕の死後CT画像。訓練・検証データセット(263例)とテストデータセット(50例)に割り付け、特徴的な所見が少ないため診断が難しい溺死の判別能について、放射線診断医による評価と深層学習モデルによる評価を比較した。なお、ヘリカルスキャンデータ欠損例、胸腔に損傷がある例は除外した。

 同氏らは、既存の深層学習モデル(AlexNet、VGG16、Inception-ResNet-V2)を用いて分類器を3種類作成した。これらのモデルが判別時に参照した画像の特徴を可視化技術で特定し「注目領域」と定義。放射線診断医が画像所見において重視した領域を医学的な「重要領域」と定義し、「注目領域」との一致度を比較検討した。

判別能は高いが根拠は不適切

 まず、深層学習モデルの判別能を受信者動作特性(ROC)曲線解析で検証したところ、AlexNet〔曲線下面積(AUC)0.94、正答率88.9%、感度87.5%、特異度90.2%〕、VGG16(同0.97、92.1%、95.7%、88.5%)、Inception-ResNet-V2(同0.98、92.1%、91.3%、92.9%)のいずれも高かった。

 次に、深層学習モデルの注目領域と医学的な重要領域の一致度を検証した()。その結果、正答例でも30%弱しか一致していないケースや、80%以上の一致度を示しても重視すべき領域(の赤色部分)が異なるケースがあり、深層学習モデルの判断基準と医学的所見の間に齟齬が示された。

図. 深層学習モデルの注目領域と医学的重要領域の比較

52619_fig01.jpg

(東北大学プレスリリースより)

 以上の結果を踏まえ、Zeng氏らは「正答率が高い深層学習モデルであっても、判定に至った根拠と専門医が重視する所見との一致度は必ずしも高くなかった。実臨床において、不適切な根拠に基づく診断は思わぬ結果を招くリスクがあり、AI医用画像診断の妥当性に懸念が示された」と結論。その上で、「齟齬が生じた原因として、深層学習モデルが訓練データに過剰に適合することで未知のデータへの適応性が失われるオーバーフィッティングが考えられる。適切な訓練法の開発などさらなる検証と対策を進め、より安全性が高いAIの臨床応用を目指したい」と展望している。

(小田周平)