ノルウェー・Holberg EEG社のJesper Tveit氏らは、ルーチンの脳波検査における所見データを用いて、てんかんを自動診断する人工知能(AI)モデルを開発し、検証結果をJAMA Neurology(2023年6月20日オンライン版)に報告。「専門医による判読との一致率が高く、臨床応用されれば専門医不在地域において、てんかんの診断精度や効率の改善に役立つ可能性がある」と述べている。

脳波を判読できる専門家は世界的に不足

 脳波所見は神経学的疾患の評価に不可欠だが、判読には専門的技能が必要であり、十分な資格と経験を有する専門家は世界の多くの地域で不足している。このアンメットニーズの解決策としてAIへの期待が大きいが、既存のAIモデルの性能は正常脳波と異常脳波との区別といった断片的な判定に限られていた。

 Tveit氏らは今回、脳波所見の正常/異常を判定するだけでなく、異常所見を主な診断カテゴリー(焦点てんかん、全般てんかん、非てんかん性の焦点発作/びまん性発作)に自動的に分類することを目指して開発された畳み込みニューラルネットワークSCORE-AI(Standardized Computer-based Organized Reporting of EEG-Artificial Intelligence)の診断精度を検証する多施設研究を実施した。

3万の脳波記録を基に開発し、3つのデータセットで検証

 まず脳波記録3万493件(男性1万4,980人、年齢中央値25.3歳)のデータセット(専門家17人の注釈付き)を用いてSCORE-AIを開発した。

 そして、①専門家11人が判読した多施設検証データセット(脳波記録100件、男性61人、年齢中央値25.8歳)、②専門家14人が判読した単施設検証データセット(同9,785件、5,168人、35.4歳)を用いて精度を検証し、③テストデータセット(同60件、27人、36歳)を用いて、他のAIモデルとのベンチマークテストを実施した。

 さらに、2,549件のデータセットでホールドアウト検証を実施した。

診断精度は極めて高く専門家との一致率も高い

 受信者動作特性(ROC)曲線解析によるホールドアウト検証の結果、SCORE-AIは、正常〔曲線下面積(AUC) 0.95〕、全般てんかん(同0.96)、焦点てんかん(同0.91)、非てんかん性のびまん性発作(同0.93)、非てんかん性の焦点発作(同0.89)のいずれも高い精度を示した。

 既報(Epilepsia 2022; 63: 1064-1073)モデルとのベンチマークテストでは、てんかん様異常所見の検出のみを比較したが、SCORE-AIの精度は88.3%(95%CI 79.2~94.9%)と3つのAIモデル(Encevis、SpikeNet、Persyst)に比べて有意に高く(P<0.001)、専門家と同等だった。

 判読の一致率については、専門家間(11人)の一致率、SCORE-AIと11人のコンセンサスとの一致率をGwet の一致係数(AC1)で評価した。その結果、全般性てんかんに関する専門家間の一致率0.901(95%CI 0.854~0.949)に対し、SCORE-AIとコンセンサスとの一致率は0.928(同0.865~0.991)と極めて高かった。焦点性てんかん、非てんかん性のびまん性発作に関しては、専門家間の一致率は0.6~0.7程度で、SCORE-AIとコンセンサスとの一致率も同程度であった。

新生児や重症患者のデータは含まれていない

 以上の結果を踏まえ、Tveit氏らは「SCORE-AIはルーチン検査による脳波所見を専門家と同レベルで自動判読できることが確認された」と結論。「SCORE-AIが臨床応用されれば、専門医のいない地域の診断向上に役立つと考えられる。また、専門施設でも診断効率を改善しうる可能性がある」と付言している。

 研究の限界としては、今回のモデルはルーチン検査における脳波データに基づいて開発されたものであり、3カ月齢以下の新生児や重症患者のデータが含まれていないことを挙げている。

木本 治