ページバナー

ニュース

大規模言語モデル(LLM)は、プロンプトワードに基づいて説得力のある記事を書いたり、専門能力試験に合格したり、患者に優しく共感的な情報を提供したりすることができます。しかし、LLMにはフィクション、脆弱性、不正確な事実といったよく知られたリスクに加え、AIモデルの作成と利用において差別的な「人間の価値観」を潜在的に含んでいるなど、未解決の問題が徐々に注目されつつあります。また、LLMがコンテンツを捏造しなくなり、明らかに有害な出力結果を排除したとしても、「LLMの価値観」は依然として人間の価値観から逸脱する可能性があります。

 

AIモデルの学習に用いられるデータが、個人的および社会的な価値観を符号化し、モデル内に定着させる可能性があることを示す例は無数にあります。これらの例は、胸部X線写真の自動読影、皮膚疾患の分類、医療資源配分に関するアルゴリズムによる意思決定など、幅広い応用に及びます。当誌の最新記事で述べたように、偏った学習データは、社会に存在する価値観や偏見を増幅させ、露呈させる可能性があります。一方で、AIは偏見を軽減するためにも活用できることが研究で示されています。例えば、研究者たちは膝のX線写真にディープラーニングモデルを適用し、標準的な重症度指標(放射線科医による評価)では見逃されていた膝関節内の要因を発見しました。これにより、黒人患者と白人患者の間の説明のつかない痛みの違いを軽減することができました。

AIモデル、特にトレーニングデータにおけるバイアスについて認識する人が増えている一方で、AIモデルの開発・展開プロセスにおいて、人間の価値観に関わる他の多くの要素は十分に考慮されていません。医療AIは近年目覚ましい成果を上げていますが、その多くは人間の価値観とリスク評価や確率的推論との相互作用を明確に考慮しておらず、モデル化もされていません。

 

これらの抽象的な概念を具体化するために、あなたが内分泌科医であり、年齢の3パーセンタイル未満の8歳の男児に組み換えヒト成長ホルモンを処方する必要があると想像してみてください。この男児の刺激ヒト成長ホルモン値は2 ng/mL未満(基準値は10 ng/mL超、米国以外の多くの国では基準値は7 ng/mL超)であり、ヒト成長ホルモンコード遺伝子に稀な不活化変異が検出されています。この臨床現場において、ヒト成長ホルモン療法の適用は明白かつ議論の余地がないと私たちは考えています。

次のような状況では、ヒト成長ホルモン療法の適用は議論を呼ぶ可能性があります。14 歳の少年の身長は常に同年代の 10 パーセンタイルにあり、刺激後のヒト成長ホルモンのピークは 8 ng/mL です。身長に影響を与える機能的変異や低身長の他の原因は知られておらず、骨年齢は 15 歳です(つまり、発達遅延はありません)。この議論の一部は、成長ホルモン単独欠損症の診断に使用されるヒト成長ホルモンレベルに関する数十の研究に基づいて専門家が決定した閾値の違いによるものです。少なくとも同程度の議論は、患者、患者の親、医療専門家、製薬会社、保険支払者の観点から見たヒト成長ホルモン療法のリスクとベネフィットのバランスから生じています。小児内分泌専門医は、2 年間毎日成長ホルモンを注射することによるまれな副作用と、成人の体格が現在と比較して全く成長しないか、ごくわずかしか成長しない可能性を天秤にかけることがあります。男の子は、たとえ身長が2cmしか伸びなくても成長ホルモンを注射する価値があると信じるかもしれないが、支払者と製薬会社は異なる見解を持っているかもしれない。

 

クレアチニンベースのeGFRを例に挙げます。これは、慢性腎臓病の診断とステージ分類、腎移植またはドナーの条件設定、そして多くの処方薬の減量基準と禁忌の決定に広く用いられている腎機能指標です。EGFRは、参照基準となる測定値である糸球体濾過率(mGFR)を推定するために使用される単回帰式ですが、評価方法が比較的煩雑です。この回帰式はAIモデルとは言えませんが、人間の価値観や確率的推論に関する多くの原理を示しています。

eGFRに人間の値が入力される最初のエントリポイントは、フィッティング式のためのデータを選択する時です。eGFRの式を設計するために使用された元のキューは、主に黒人と白人の参加者で構成されており、他の多くの民族グループへの適用性は明確ではありません。人間の値がこの式に入力される次のエントリポイントは、腎機能評価の主要目的としてmGFRの精度を選択すること、許容可能な精度レベルとは何か、精度をどのように測定するか、そしてeGFRを臨床意思決定(腎移植の条件決定や薬の処方など)の閾値として使用することなどです。最後に、入力モデルの内容を選択する際にも、人間の値がこの式に入力されます。

例えば、ガイドラインでは、2021年より前に、患者の年齢、性別、人種(黒人か非黒人かのみに分類)に基づいてeGFR式のクレアチニン値を調整することを推奨しています。人種に基づく調整はmGFR式の精度向上を目的としていますが、2020年には主要病院が、患者の移植適格性の遅延や人種を生物学的概念として具体化することなどの理由を挙げ、人種に基づくeGFRの使用に疑問を呈し始めました。研究によると、人種の観点からeGFRモデルを設計すると、精度と臨床結果に重大かつさまざまな影響を与える可能性があります。したがって、選択的に精度に焦点を当てたり、結果の一部に焦点を当てたりすることは、価値判断を反映し、透明性のある意思決定を隠す可能性があります。最終的に、国家ワーキンググループは、パフォーマンスと公平性の問題のバランスを取るために、人種を考慮せずに再調整された新しい式を提案しました。この例は、単純な臨床式でさえ、人間の価値観に影響を与える多くのエントリポイントがあることを示しています。

病院の手術室で仮想現実を使用する医師。外科医が、科学と医学のコンセプトにおいて革新的な、技術的なデジタル未来的仮想インターフェース、デジタル ホログラフィックで患者の心臓検査結果と人体構造を分析します。

少数の予測指標しかない臨床式と比較すると、LLMは数十億から数千億、あるいはそれ以上のパラメータ(モデルの重み)で構成される場合があり、理解が困難です。「理解が難しい」と言う理由は、ほとんどのLLMでは、質問を通じて回答を引き出す正確な方法をマッピングできないためです。GPT-4のパラメータ数はまだ発表されていませんが、その前身であるGPT-3は1750億のパラメータを持っていました。パラメータが多いほど必ずしも能力が強くなるわけではなく、より多くの計算サイクルを含む小型モデル(LLaMA [Large Language Model Meta AI]モデルシリーズなど)や、人間のフィードバックに基づいて細かく調整されたモデルは、大規模モデルよりも優れたパフォーマンスを発揮します。例えば、人間の評価者によると、InstrumentGPTモデル(13億のパラメータを持つモデル)は、モデル出力結果の最適化においてGPT-3よりも優れています。

GPT-4の具体的な学習内容はまだ公開されていませんが、GPT-3、InstrumentGPT、その他多くのオープンソースLLMなど、前世代のモデルの詳細は公開されています。現在、多くのAIモデルにはモデルカードが付属しており、GPT-4の評価データとセキュリティデータは、モデル作成会社OpenAIが提供する同様のシステムカードで公開されています。LLMの作成は、初期の事前学習段階と、モデルの出力結果を最適化することを目的とした微調整段階の2段階に大別されます。事前学習段階では、モデルに元のインターネットテキストを含む大規模なコーパスを提供し、次の単語を予測するように学習させます。この一見単純な「自動補完」プロセスは強力な基礎モデルを生み出しますが、有害な動作につながる可能性もあります。GPT-4の事前学習データの選択や、事前学習データからポルノコンテンツなどの不適切なコンテンツを削除することなど、人間の価値観が事前学習段階に介入します。これらの努力にもかかわらず、基本モデルは依然として有用ではなく、有害な出力結果を含むことができない可能性があります。次の微調整の段階では、有用かつ無害な動作が数多く出現するでしょう。

微調整段階では、教師あり微調整と人間のフィードバックに基づく強化学習によって、言語モデルの挙動が大きく変化することがよくあります。教師あり微調整段階では、雇用された契約社員がプロンプト語に対する応答例を作成し、モデルを直接トレーニングします。人間によるフィードバックに基づく強化学習段階では、人間の評価者がモデルの出力結果を入力コンテンツの例として分類します。次に、上記の比較結果を適用して「報酬モデル」を学習し、強化学習によってモデルをさらに改善します。驚くべき低レベルの人間の関与によって、これらの大規模モデルを微調整できます。たとえば、InstrumentGPTモデルは、クラウドソーシングWebサイトから募集した約40人の契約社員のチームを使用し、さまざまな人口グループの好みに敏感なアノテーターのグループを選択することを目的としたスクリーニングテストに合格しました。

シンプルな臨床式[eGFR]と強力なLLM[GPT-4]という2つの極端な例が示すように、人間の意思決定と人間の価値観は、モデルの出力結果を形作る上で不可欠な役割を果たしています。これらのAIモデルは、患者と医師の多様な価値観を捉えることができるでしょうか?医療におけるAIの応用をどのように公に導くべきでしょうか?後述するように、医療意思決定分析の再検討は、これらの問題に対する原理的な解決策をもたらす可能性があります。

 

医療意思決定分析は多くの臨床医に馴染みがありませんが、確率的推論(意思決定に関連する不確実な結果、例えば図 1 に示すような議論の多い臨床シナリオでヒト成長ホルモンを投与するかどうかなど)と考慮要因(これらの結果に付随する主観的な価値、その価値は「効用」として定量化される、例えば男性の身長が 2 cm 増加する価値など)を区別することができ、複雑な医療意思決定に対する体系的なソリューションを提供します。意思決定分析では、臨床医はまず各結果に関連するすべての可能な意思決定と確率を特定し、次に各結果に関連する患者(または他の当事者)の効用を考慮して、最も適切なオプションを選択する必要があります。したがって、意思決定分析の妥当性は、結果の設定が包括的であるかどうか、および効用の測定と確率の推定が正確かどうかに依存します。理想的には、このアプローチは、意思決定がエビデンスに基づき、患者の好みと整合していることを保証するのに役立ち、それによって客観的なデータと個人の価値観のギャップを縮めます。この手法は数十年前に医療分野に導入され、一般の人々に大腸がん検診の推奨を行うなど、個々の患者の意思決定や集団の健康評価に適用されました。

 

医療意思決定分析において、効用を求めるための様々な手法が開発されてきました。従来の手法の多くは、個々の患者から直接価値を導き出します。最も単純な手法は、評価尺度を用いるものです。患者は、特定の結果に対する選好度をデジタルスケール(例えば、1から10までの線形スケール)で評価します。その際、最も極端な健康状態(完全な健康や死亡など)を両端に配置します。時間交換法も、よく用いられる手法の一つです。この手法では、患者は、健康状態が悪い期間と引き換えに、どれだけの健康な時間を過ごす意思があるかを決定する必要があります。標準的なギャンブル法も、効用を決定するためによく用いられる手法の一つです。この手法では、患者は2つの選択肢のうちどちらを好むかを尋ねられます。1つは、特定の確率(p)(t)で一定期間正常な健康状態で生き、1-pの確率で死亡リスクを負うか、もう1つは、交差する健康状態下でt年間確実に生きるかです。患者がどの選択肢にも選好を示さなくなるまで、異なるp値で複数回質問することで、患者の回答に基づいて効用を計算できます。
個々の患者の嗜好を引き出す手法に加え、患者集団全体の効用を得るための手法も開発されています。特に、フォーカスグループディスカッション(患者を集めて特定の経験について話し合う)は、患者の視点を理解するのに役立ちます。集団の効用を効果的に集計するために、様々な構造化されたグループディスカッション手法が提案されています。
実際には、臨床診断および治療プロセスに効用を直接導入するには非常に時間がかかります。解決策として、通常、ランダムに選択された集団に調査質問票を配布し、集団レベルの効用スコアを取得します。例としては、EuroQol 5次元質問票、6次元効用重み付け短縮版、健康効用指数、がん特有の欧州がん研究治療機構(ECOR)のQuality of Life Questionnaire Core 30ツールなどが挙げられます。


投稿日時: 2024年6月1日