Deep learning-based automated diagnostic system in classifying mammographic lesions(DLADS)は、マンモグラフィの乳がん判定において、人工知能(AI)による自動読影判定がヒトと同等以上の性能を示すか否かを検討した多施設共同研究である。DLADS実行委員会のメンバーで湘南記念病院(神奈川県)乳がんセンターの井上謙一氏は第32回日本乳癌検診学会(11月11~12日)で、DLADSの結果を報告するとともに臨床応用に向けた今後の展望を示した。

乳がん検出精度は良好

 DLADSの主要評価項目は、AIによるマンモグラフィ自動読影の感度、特異度とも80%以上。副次評価項目は、AIによる乳房構成の自動判定モデルの構築である。

 乳がん検出用として、2019年9月~21年8月に日本乳がん検診精度管理中央機構の講習会でA評価相当以上の読影力を有する医師72人が所属する63の医療機関で撮影されたマンモグラフィ画像を収集。乳がん、良性病変、正常乳房に分類し、不適切画像を除外した1万1,451症例・3万6,787画像を訓練用、検証用、テスト用に8:1:1でランダムに割り付けた。

 訓練用画像を用いてAIに学習させた上で、ヒートマップ画像を作成()。一定の値を超えた場合を乳がん有りと判定するモデルを構築した。

図.ヒートマップ画像の作成

39429_fig01.jpg

(井上謙一氏提供)

 乳がん検出精度を検証したところ、正診率は83.0%、感度は81.3%、特異度は83.6%、受信者動作特性(ROC)解析の曲線下面積(AUC)は0.895と、良好な結果が得られた。

 井上氏は「懸念された機器メーカーによるマンモグラフィ画像の差はなく、ほとんどの機器で同様の精度が得られた」と述べた。

乳房構成判定も精度良好

 乳房構成の判定には、2019年9月~21年7月に撮影された8,120画像のうち、不適切画像を除く正常乳房内外斜位方向画像7,890件を用いた。内訳は、脂肪性が1,092例、乳腺散在が3,063例、不均一高濃度が2,207例、極めて高濃度が1,528例。これらを乳がん検出時と同様、訓練用、検証用、テスト用に8:1:1でランダムに割り付けた。

 訓練用画像を用いてAIに学習させ、乳房構成の自動判定モデルを構築。学習結果を評価した。2019年に乳房構成の判断基準に関する「乳房構成判定アトラス」が示されたことから、判定のばらつきを防ぐためDLADS実行委員2人を加えた3人で判定し、2人以上の結果が一致した場合を最終判定とした。3人とも不一致だった場合は、実行委員全員で協議した。

 検証の結果、AIの判定との一致率は76.4%、重み付けκ係数は0.8860と良好な精度を示した。

AIの利用で個別化検診が可能に

 続いて井上氏は、乳がん検出におけるAI自動読影判定の将来展望を示した。1つは読影精度で、AIによるマンモグラフィ自動読影が臨床応用されれば、見落としが防げ、読影精度が全国一律に向上することが期待できるという。

 2つ目は検診システムの構築。AIが十分な精度を保つというエビデンスが蓄積されれば、一次読影をAIが担い、二次読影のみを読影医が担当するといったシステムの構築が可能になる。

 3つ目としては、能力の拡張が挙げられる。乳がん検診における要精検率は約5%で、そのうち9割以上が正常画像だという。AIが読影の優先順位付けをして、精検の9割を占める正常画像を除外してくれれば、読影医1人当たりの処理画像数が現在の10倍になる。

 4つ目は個別化検診だ。乳房構成判定にAIを利用できるようになれば、乳房構成別のがん発見率を正確に評価でき、将来的な個別化検診の足がかりになるという。

 最後に、同氏は「臨床応用を実現するには、①前向き試験でAIを用いた読影の精度向上を検証する、②医薬品医療機器総合機構(PMDA)に医療機器として認証申請する、③承認されれば全国の医療機関で利用可能なインフラを整備する、④さらなるデータの収集により、AIをアップデートする手法を確立する―ことが必要だ」と述べ、講演を締めくくった。

(比企野綾子)