2007年のIBM Watsonの登場以来、人類は医療用人工知能(AI)の開発に絶えず取り組んできました。実用的で強力な医療AIシステムは、現代医療のあらゆる側面を変革し、よりスマートで正確、効率的、そして包括的なケアを可能にし、医療従事者と患者の幸福を増進し、ひいては人類の健康を大きく向上させる大きな可能性を秘めています。過去16年間、医療AI研究者は様々な分野で蓄積を重ねてきましたが、現段階ではまだSF小説を現実のものにするまでには至っていません。
今年、ChatGPTなどのAI技術の革命的な発展に伴い、医療AIは多くの面で大きな進歩を遂げました。医療AIの能力は前例のない突破口を開き、Nature誌は医療用大規模言語モデルと医療画像基本モデルの研究を継続的に発表しました。GoogleはMed-PaLMとその後継をリリースし、米国の医師国家試験問題で専門家レベルに到達しました。主要な学術誌が医療AIに焦点を当て、Natureは汎用医療AI基本モデルの展望を発表しました。今年初めのAI in Medicineシリーズのレビューに続き、New England Journal of Medicine(NEJM)は11月30日に初のデジタルヘルスレビューを発表し、12月12日にNEJMサブジャーナルNEJM AIの創刊号を発売しました。医療AIの着地土壌はさらに成熟:JAMAサブジャーナルはグローバルな医療画像データ共有イニシアチブを発表しました。米国食品医薬品局(FDA)は医療AIの規制に関するガイドライン草案を策定しています。
以下では、2023年に実用的な医療AIの実現に向けて世界中の研究者が成し遂げた大きな進歩を振り返ります。
医療AI基本モデル
医療AI基本モデルの構築は、間違いなく今年の最もホットな研究焦点です。ネイチャー誌は、この1年間でヘルスケアのユニバーサル基本モデルとヘルスケアの大規模言語モデルに関するレビュー記事を掲載しました。業界トップのジャーナルであるMedical Image Analysisは、医療画像解析における基本モデル研究の課題と機会をレビューして展望し、医療AIの基本モデル研究の発展をまとめ、導くために「基本モデルの系譜」という概念を提唱しました。ヘルスケアのための基本AIモデルの未来はより明確になりつつあります。ChatGPTなどの大規模言語モデルの成功例を参考に、より高度な自己教師あり事前学習法と膨大な学習データの蓄積を用いて、医療AI分野の研究者は、1)疾患特有の基本モデル、2)汎用基本モデル、そして3)膨大なパラメータと優れた機能を備えた幅広いモードを統合したマルチモーダル大規模モデルの構築に取り組んでいます。
医療データ取得AIモデル
下流の臨床データ分析タスクで大きな役割を果たす大規模AIモデルに加え、上流の臨床データ取得においても、生成AIモデルに代表される技術が登場しています。AIアルゴリズムによって、データ取得のプロセス、速度、品質を大幅に向上させることができます。
今年初め、Nature Biomedical Engineering誌は、トルコのストレーツ大学の研究を発表しました。この研究では、生成AIを用いて臨床応用における病理画像支援診断の問題を解決することに焦点を当てていました。手術中の凍結切片組織のアーティファクトは、迅速な診断評価の障害となります。ホルマリン・パラフィン包埋(FFPE)組織はより高品質なサンプルを提供しますが、その作製プロセスは時間がかかり、12~48時間かかる場合が多いため、手術での使用には適していません。そこで研究チームは、凍結切片の組織の外観をFFPEに似せることができるAI-FFPEというアルゴリズムを提案しました。このアルゴリズムは、凍結切片のアーティファクトを修正し、画像品質を向上させると同時に、臨床的に関連する特徴を保持することに成功しました。臨床検証において、AI-FFPEアルゴリズムは腫瘍サブタイプに対する病理医の診断精度を大幅に向上させ、臨床診断時間を大幅に短縮しました。
Cell Reports Medicineは、吉林大学第三臨床学院、復旦大学付属中山病院放射線科、上海科技大学のチームによる研究成果を報告している[25]。 この研究では、汎用性と柔軟性に優れたディープラーニングと反復再構成融合フレームワーク(ハイブリッドDL-IR)を提案し、高速MRI、低線量CT、高速PETで優れた画像再構成性能を示した。 このアルゴリズムは、100秒でMR単一臓器マルチシーケンススキャンを実現し、放射線量をCT画像のわずか10%に低減し、ノイズを排除し、2~4倍の加速でPET取得から小さな病変を再構成し、モーションアーティファクトの影響を低減することができる。
医療従事者と連携した医療AI
医療AIの急速な発展により、医療従事者はAIと連携して臨床プロセスを改善する方法を真剣に検討し、模索するようになりました。今年7月、DeepMindは複数の機関の研究チームと共同で、相補的駆動型臨床ワークフロー遅延(CoDoC)と呼ばれるAIシステムを提案しました。診断プロセスは、まず予測AIシステムによって診断され、次に前回の結果に基づいて別のAIシステムによって判断され、疑いがある場合は最終的に臨床医が診断を下すことで、診断の精度と効率のバランスが向上します。乳がん検診では、CoDoCは、英国の現在の「二重読み取り仲裁」プロセスと比較して、偽陽性率を25%削減し、偽陰性率は同じで、臨床医の作業負荷を66%削減しました。結核分類では、独立したAIと臨床ワークフローと比較して、偽陽性率は同じ偽陰性率で5~15%削減されました。
同様に、英国ロンドンの Kheiron 社の Annie Y. Ng 氏らは、二重読み取り調停プロセスでリコール結果がなかった場合に結果を再検討するための追加の AI 読み取り装置を(人間の検査官と協力して)導入し、早期乳がんスクリーニングでの検出見逃しの問題を改善し、プロセスで偽陽性がほとんどなくなるようにしました。テキサス大学マクガバン医学部のチームが主導し、4 つの脳卒中センターで完了した別の研究では、コンピューター断層撮影血管造影 (CTA) ベースの AI 技術を適用して、大血管閉塞性虚血性脳卒中 (LVO) の検出を自動化しました。臨床医と放射線科医は、CT イメージングが完了してから数分以内に携帯電話でリアルタイムのアラートを受け取り、LVO が存在する可能性があることを通知されます。この AI プロセスにより、急性虚血性脳卒中の院内ワークフローが改善され、入院から治療までの door-to-groin 時間が短縮され、救助が成功する機会が提供されます。
普遍的な利益のためのAIヘルスケアモデル
2023年には、医療AIを活用して、より入手しやすいデータから人間の目には見えない特徴を見つけ出し、普遍的な診断と大規模な早期スクリーニングを可能にする優れた研究も数多く見られるだろう。年初、ネイチャー・メディシン誌は、中山大学中山眼科センターと福建医科大学第二付属病院による研究を掲載した。スマートフォンをアプリケーション端末として使い、漫画のような動画で子どもの視線を誘導し、子どもの視線行動と顔の特徴を記録した。さらに、ディープラーニングモデルを用いて異常モデルを分析し、先天性白内障、先天性眼瞼下垂、先天性緑内障など16種類の眼疾患を平均85%以上の精度で特定することに成功した。これは、乳幼児の視覚機能障害および関連する眼疾患の大規模な早期スクリーニングに、効果的で普及しやすい技術的手段を提供するものである。
年末、ネイチャー・メディシン誌は、上海膵臓病研究所や浙江大学第一付属病院など、世界10以上の医療機関・研究機関による研究成果を報じました。著者らは、健康診断センターや病院などで無症状の人を対象に実施される膵臓がん検診にAIを適用し、肉眼だけでは検出が難しい単純CT画像中の病変特徴を検出することで、膵臓がんの効率的かつ非侵襲的な早期発見を実現しました。このモデルは2万人以上の患者のデータを検証した結果、臨床的に見逃されていた病変を31例も特定し、臨床転帰を大幅に改善しました。
医療データの共有
2023年には、データのプライバシーとセキュリティを保護するという前提の下で、マルチセンターの協力とデータのオープン性を確保する、より完璧なデータ共有メカニズムと成功事例が世界中で数多く登場しています。
まず、AI技術そのものの力を借りて、AI研究者は医療データの共有に貢献してきました。米国ラトガース大学のQi Chang氏らは、Nature Communications誌に論文を発表し、分散型合成敵対ネットワークに基づく連邦学習フレームワークDSLを提案しました。このフレームワークは、生成AIを用いて多施設の特定の生成データを学習し、その後、多施設の実データを生成データに置き換えることで、多施設ビッグデータに基づくAI学習を実現し、データのプライバシーを保護します。同チームは、生成された病理画像とその注釈のデータセットもオープンソース化しています。このデータセットで学習したセグメンテーションモデルは、実データと同様の結果を得ることができます。
清華大学の戴瓊海氏らの研究チームは、npj Digital Healthに論文を発表し、リレー学習(Relay Learning)を提案した。これは、ローカルデータ主権とクロスサイトネットワーク接続なしを前提とし、マルチサイトのビッグデータを用いてAIモデルを学習させるもので、データセキュリティとプライバシーへの懸念とAI性能の追求を両立させている。同研究チームはその後、広州医科大学第一付属病院および全国24病院と共同で、連邦学習に基づく胸部CT全縦隔腫瘍診断システム「CAIMEN」を共同開発・検証した。12種類の一般的な縦隔腫瘍に適用可能なこのシステムは、人間の専門家が単独で使用した場合と比較して、単独で使用した場合の精度が44.9%向上し、人間の専門家の支援を受けた場合の診断精度は19%向上した。
一方で、安全でグローバルな大規模医療データセットの構築に向けた取り組みもいくつか進められています。ハーバード大学医学大学院生物医学情報学部のAgustina Saenz氏らは、2023年11月にLancet Digital Health誌に、医療画像データを共有するためのグローバルフレームワーク「Artificial Intelligence Data for All Healthcare(MAIDA)」をオンライン公開しました。彼らは、世界中の医療機関と協力し、データ収集と匿名化に関する包括的なガイダンスを提供し、米国連邦デモンストレーションパートナー(FDP)テンプレートを用いてデータ共有を標準化しています。世界各地のさまざまな地域や臨床現場で収集されたデータセットを段階的に公開していく予定です。最初のデータセットは2024年初頭に公開される予定で、パートナーシップの拡大に伴い、さらに多くのデータセットが公開される予定です。このプロジェクトは、グローバルで大規模かつ多様な公開AIデータセットを構築するための重要な試みです。
この提案を受けて、英国バイオバンクは模範を示しました。11月30日、英国バイオバンクは50万人の参加者の全ゲノム配列から得られた新たなデータを公開しました。50万人の英国人ボランティア一人ひとりの完全なゲノム配列を公開するこのデータベースは、世界最大の完全ヒトゲノムデータベースです。世界中の研究者は、匿名化されたこのデータへのアクセスを申請し、健康と疾患の遺伝的基盤を探るために使用することができます。遺伝子データはこれまで検証において常に非常にセンシティブなものでした。英国バイオバンクのこの歴史的な成果は、オープンでプライバシーフリーなグローバルな大規模データベースの構築が可能であることを証明しています。この技術とデータベースにより、医療AIは新たな飛躍を遂げることは間違いありません。
医療AIの検証と評価
医療AI技術自体の急速な発展と比較すると、医療AIの検証・評価の発展はやや遅れています。一般的なAI分野における検証・評価は、臨床医や患者のAIに対する真のニーズを無視していることが多いのです。従来のランダム化比較臨床試験は、AIツールの急速な進化に対応するにはあまりにも手間がかかりすぎます。医療AIツールに適した検証・評価システムを早急に整備することが、医療AIが研究開発から臨床へと真に飛躍的に発展していくために最も重要なことです。
GoogleがNature誌に掲載したMed-PaLMに関する研究論文では、大規模言語モデルの臨床知識獲得能力を評価するための評価ベンチマークであるMultiMedQAも公開されています。このベンチマークは、既存の6つの専門医療Q&Aデータセット(専門医療知識、研究など)と、オンライン検索医療質問データベースデータセットを組み合わせ、医師と患者のオンラインQ&Aを考慮し、多角的にAIを有能な医師に育成することを目指しています。さらに、研究チームは、事実、理解、推論、そしてバイアスの可能性といった多次元を考慮した、人間の評価に基づくフレームワークを提案しています。これは、今年発表されたヘルスケア分野におけるAI評価研究の中でも、最も代表的な研究の一つです。
しかし、大規模言語モデルが臨床知識のエンコードレベルが高いという事実は、大規模言語モデルが実際の臨床タスクに適していることを意味するのでしょうか? 医学生が満点を取って専門医試験に合格しても、まだ一人の主治医には程遠いように、Googleが提案する評価基準は、AIモデルの医療AI評価というテーマに対する完璧な答えではないかもしれません。 早くも2021年と2022年には、研究者らは、臨床実用性、安全性、ヒューマンファクター、透明性・解釈可能性などの要素を考慮した上で、医療AIの早期開発と検証を導くことを目指し、Decid-AI、SPIRIT-AI、INTRPRTなどの報告ガイドラインを提案しています。 つい最近、Nature Medicine誌は、オックスフォード大学とスタンフォード大学の研究者による、AIツールの検証に「外部検証」と「定期的なローカル検証」のどちらを使用するかについての研究を発表しました。
AIツールのバイアスのなさも、今年Science誌とNEJM誌の両方の記事で注目を集めた重要な評価方向です。AIは学習データに制限されているため、しばしばバイアスを示します。このバイアスは社会的不平等を反映している可能性があり、それがアルゴリズムによる差別へと発展する可能性があります。米国国立衛生研究所(NIH)は最近、Bridge2AIイニシアチブを立ち上げました。このイニシアチブは、医療AIツールのバイアスのなさを検証するために使用できる多様なデータセット(前述のMAIDAイニシアチブの目標に沿って)を構築することを目的としており、推定1億3000万ドルの費用がかかります。MultiMedQAではこれらの側面は考慮されていません。医療AIモデルをどのように測定し、検証するかという問題については、依然として広範かつ詳細な議論が必要です。
1月、ネイチャー・メディシン誌は、テキサス大学MDアンダーソンがんセンターのヴィヴェック・スビア氏による「エビデンスに基づく医療の次世代」と題するオピニオン記事を掲載しました。この論文では、COVID-19パンデミックを背景に露呈した臨床試験の限界を検証し、イノベーションと臨床研究プロセスの遵守との間の矛盾を指摘しています。最後に、臨床試験の再構築、すなわち人工知能を活用した次世代の臨床試験の将来像を示唆しています。つまり、膨大な歴史的研究データ、リアルワールドデータ、マルチモーダル臨床データ、ウェアラブルデバイスデータから人工知能を用いて重要なエビデンスを見出すというものです。これは、AI技術とAI臨床検証プロセスが将来的に相互に補完し合い、共進化していく可能性を示唆しているのでしょうか。これは、2023年の未解決かつ示唆に富む問いと言えるでしょう。
医療AIの規制
AI技術の進歩はAIの規制にも課題をもたらしており、世界中の政策立案者は慎重かつ慎重に対応しています。2019年、FDAは初めて人工知能医療機器のソフトウェア変更に関する規制枠組み案(討議草案)を公表し、AIおよび機械学習主導のソフトウェア変更の市販前審査への潜在的なアプローチを詳述しました。2021年には、FDAは「医療機器行動計画としての人工知能/機械学習ベースのソフトウェア」を提案し、5つの具体的なAI医療規制措置を明確にしました。今年、FDAはデバイスソフトウェア機能の市販前申請を再発行し、機械学習手法でトレーニングされた機械学習モデルを使用する一部のソフトウェアデバイス機能を含む、デバイスソフトウェア機能の安全性と有効性に関するFDAの評価のための市販前申請の推奨事項に関する情報を提供しました。FDAの規制政策は、最初の提案から実践的なガイダンスへと進化しています。
EUは昨年7月に欧州健康データ空間(European Health Data Space)を公表した後、再び人工知能法を制定した。前者は、健康データを最大限に活用して質の高い医療を提供し、格差を縮小し、予防、診断、治療、科学革新、意思決定、立法のためのデータを支援するとともに、EU市民が個人の健康データに対するコントロールを強化することを目的としている。後者は、医療診断システムが高リスクのAIシステムであることを明確にし、対象を絞った強力な監督、ライフサイクル全体にわたる監督、事前評価監督を採用する必要があるとしている。欧州医薬品庁(EMA)は、医薬品の開発、規制、使用を支援するためのAIの活用に関するリフレクションペーパー草案を公表し、患者の安全と臨床研究結果の完全性を確保するためのAIの信頼性の向上に重点を置いている。全体として、EUの規制アプローチは徐々に具体化しつつあり、最終的な実施の詳細はより詳細かつ厳格になる可能性があります。 EUの厳格な規制とは全く対照的に、英国のAI規制の青写真では、政府が今のところは柔軟なアプローチを取り、新たな法案を制定したり新たな規制当局を設置したりしない計画であることを明確にしている。
中国では、国家薬品監督管理局医療機器技術審査センター(NMPA)がこれまでに「ディープラーニング支援意思決定ソフトウェアの審査要点」「人工知能医療機器登録審査の指導原則(意見募集稿)」「人工知能医療ソフトウェア製品の分類と定義の指導原則に関する通達(2021年第47号)」などの文書を発行している。今年、「2023年第一回医療機器製品分類結果概要」が再び発表されました。この一連の文書は、人工知能医療ソフトウェア製品の定義、分類、規制をより明確かつ容易にし、業界各社の製品ポジショニングと登録戦略に明確な指針を提供します。これらの文書は、AI医療機器の科学的規制のための枠組みと管理上の決定を提供します。12月21日から23日まで杭州で開催された中国医療人工知能会議の議題に、デジタル医療ガバナンスと公立病院の高品質開発に関する特別フォーラムと人工知能医療機器試験評価技術標準化産業発展フォーラムが設けられたことは、注目に値します。その時、国家発展改革委員会とNMPAの関係者が会議に出席し、新しい情報を発表する可能性があります。
結論
2023年には、医療AIは医療の上流・下流プロセス全体に統合され始め、病院のデータ収集、融合、分析、診断・治療、コミュニティスクリーニングを網羅し、医療・疾病管理従事者と有機的に連携し、人類の健康にウェルビーイングをもたらす可能性を示しています。実用的な医療AI研究の夜明けが訪れています。今後、医療AIの発展は、技術開発そのものだけでなく、産業界、大学、医療研究機関の全面的な協力、そして政策立案者や規制当局の支援が不可欠です。こうした分野横断的な連携こそが、AI統合医療サービスを実現するための鍵であり、人類の健康の発展を間違いなく促進するでしょう。
投稿日時: 2023年12月30日




