急速に浸透しつつある対話型人工知能(AI)サービスChatGPTは、回答が必ずしも正確でないことが問題になっているが、これを用いて受診前に自身の症状について自己診断を行う患者が増加している。東京医科歯科大学大学院整形外科学の黒岩智之氏らは、ChatGPTによる一般的な整形外科疾患における自己診断の信頼性を検証した結果、同じ質問でも日によって診断結果が異なるなど正答率および再現性の低さが示されたことをJ Med Internet Res2023; 25: e47621)に発表した。

疾患に特徴的な症状や平易な質問を入力

 ChatGPTは、医療補助用にデザインされた生成AIではないものの、米国の医師資格試験で合格ラインに近い正答率を示しており、医師による鑑別診断のサポートや医学学習支援への活用が期待されている(関連記事「ChatGPTが米医師資格試験で合格ライン」)。一方で、患者によるChatGPTを用いた自己診断が健康上の利益をもたらすかは不明である。

 そこで黒岩氏らは、ChatGPT(ver. 3.5)による自己診断の正答率、再現性、受診勧奨の程度について検証した。診断の対象は、一般的な整形外科疾患である手根管症候群、頸髄症、腰部脊柱管狭窄症変形性膝関節症変形性股関節症の5疾患。試験は5日間(2023年4月30日~5月4日)で行い、各疾患について特徴的な症状をChatGPTに入力して平易な質問をした。期間中は毎日同じ質問を行った。

 回答は、①診断名が1つだけの「単独診断」、②複数の診断名を挙げつつ、最も可能性の高い診断名を示した「階層的診断」、③複数の診断名を階層性なく示した「複数診断」―に分類した上で、単独診断または階層的診断の最上位の診断が正しい場合を「正解」、階層的診断の最上位以外の答えの中に正しい診断が含まれていた場合を「部分的正解」、正しい診断が含まれていない場合を「不正解」と判定。5日間の平均正答率(部分的正解を除く)や誤答率を評価した。

 評価者は5人で、Fleiss κ係数を用いて試験日間および評価者間の再現性を評価。0未満を一致しない、0.01~0.20をわずかに一致、0.21~0.40をだいたい一致、0.41~0.60を適度に一致、0.61~0.80をかなり一致、0.81~1.00をほぼ一致と定義した。

 また、同氏らはChatGPTの受診勧奨の程度も評価。「医療」「医師」「セルフケア」などの単語と「必須」「推奨」といった表現を組み合わせた文を強力な推奨と定義した。

頸髄症の正答率は4%

 検討の結果、正答率は手根管症候群が100%、腰部脊柱管狭窄症が96%、変形性股関節症が68%、変形性膝関節症が64%、頸髄症が4%だった。

 試験日間の再現性は手根管症候群が1.0、腰部脊柱管狭窄症が0.7、変形性膝関節症が0.6、変形性股関節症が0.6、頸髄症が0.15だった。評価者間の再現性は、手根管症候群が1.0、腰部脊柱管狭窄症が0.64、変形性股関節症が0.04、頸髄症が0.1、変形性膝関節症が-0.12だった。

 受診勧奨を明示していた回答は12.8%程度だった。

 黒岩氏らはさらに、質問の仕方を変えて正答率を検証したところ、頸髄症を除きいずれも高い正答率が示された。頸髄症は約半数が部分的正解を示した。

誤診や使用者へ混乱を与えるリスクも

 黒岩氏らは、今回検証した5つの疾患のうち頸髄症の正答率が最も低かった理由として、「多病巣性の症状であり、このような広範な疾患は特定できない可能性がある」と指摘した。

 その上で「ChatGPTは自己診断に関して再現性が低く、誤診や使用者を混乱させるリスクがあることを考慮すると、医療機関への受診勧奨を提示することを目標とすることが重要だ」と結論。「今回明らかになったChatGPTの医療利用の問題点を、患者への啓発やソフトウェアの開発・進化の土台して生かすことを期待している」と展望した。

 (植松玲奈)