「医」の最前線 AIと医療が出合うとき

医療における大規模言語モデルの価値
~急進する新技術がもたらすもの~ (岡本将輝・ハーバード大学医学部講師)【第17回】

 対話型人工知能(AI)「ChatGPT」は米OpenAIが開発した大規模言語モデルで、GPT(Generative Pre-trained Transformer)アーキテクチャーを基にする。文章の生成や意味理解、文章に対する応答生成など、さまざまな自然言語処理タスクを実行することができ、コンテキストから次の適切な応答を生成するために、周囲の文脈を理解することができるという特徴を持つ。チャット形式のウェブサービスとして公開され、わずか2カ月後の2023年1月にはユーザー数が1億人を突破した。同時期にはMicrosoftが100億ドル規模の追加投資を行ったことも話題を呼んでいる。これまでに示されてきたAI関連技術の中でも、特に大きな技術的インパクトを持ち、領域を問わず多大な影響を示している。このことは医療においても変わらず、ChatGPTをはじめとする大規模言語モデルに対する関心は急速に高まっており、多様な医学研究成果が公表されている。今回は「医療における大規模言語モデル」に関する先端事例の一部を紹介し、その可能性を見ていきたい。

ChatGPTのパソコン画面

ChatGPTのパソコン画面

 ◇ 大規模言語モデルの医学的回答能力

 大規模言語モデルの医療応用に関連して特に多く見られる種の研究論文が、「医学的質問・問題に対する大規模言語モデルの回答能力」を検証するものだ。市民によるセルフトリアージは、これまで主にGoogle検索に依存してきたのが世界の実情だが、一方でその多くが成功しない(あるいは時に大きな誤解を招く)のは、健康情報の高度専門性と複雑さ、オンラインリソースの質の低さによるところが大きい。大規模言語モデルが専門医に匹敵する回答能力を示す場合、人々の日常的健康管理は大きく変わる可能性がある。

 実際、種々の検証成果はかなり有望な結果を示している。業界に大きな衝撃を与えたのは、米マサチューセッツ総合病院の研究者らが公開した研究成果(※1)で、ChatGPTが米国の医師資格試験に相当するUSMLEにおいて、特別な学習を加えることなく合格ラインに及ぶ結果を示したことだ。この後、各国における医師資格試験での評価が進み、画像問題など解釈不可能なものは排除されるケースが多いものの、おしなべて良好な結果を示すなど、一般的な臨床的推論能力の高さも明らかにされている。

 医学問題に対する回答能力の高さが知られるようになるにつれ、次第にその評価は細分化された専門領域へと進む。全インド医科大学の研究チームが23年5月、オンラインアクセスジャーナルであるCureusから公開した論文(※2)では、感染症診断学の基本となる微生物学の知識を問い、ChatGPTの適用可能性を評価した。回答精度は約80%を示し、「ChatGPTが微生物学分野における自動質問応答ツールとしても有効である可能性を示唆する」と結論付けている。また、オランダ・アムステルダム大学病院の研究チームは「循環器領域の質問に対するChatGPTの回答能力」を検証しており、medRxivから公開したプレプリント論文(※3)でその潜在的有効性に言及している。さらに、米カリフォルニア大学サンディエゴ校のチームによる研究(※4)では、「ソーシャルメディア上のフォーラムに寄せられた質問に対する回答調査で、医師による回答よりもChatGPTが生成した回答が好まれる可能性」を明らかにした。品質と共感の両面からChatGPTが生成した回答が有意に高く評価されており、医療従事者の燃え尽き症候群予防の観点からも、このツールをAIアシスタントとして利用できる可能性があることを強調している。

 これらの回答能力検証の結果を受けて、研究者らが「ChatGPTを含む大規模言語モデルの臨床的有効性や診断支援の可能性」を高く見積もる一方、特定の質問において明らかな誤りやバイアスを含む点など、精度の不安定性にも一定の懸念を表明している。持続的なモデルアップデートにより、回答精度は経時的な改善をみる可能性が高いものの、現時点では重要な判断が伴うケースで、専門家のレビューなく出力結果を利用することは難しい状態にある。

  • 1
  • 2

「医」の最前線 AIと医療が出合うとき