治療用アプリ（プログラム医療機器）のシャムアプリとは｜対照群のホーソン効果・プラセボ効果をどう考えるか？

上記は2025年4月に実施した勉強会で使用したスライドです。

「医療機器非該当」の薬事戦略を活用し、ソフトウェア（SaMD）を規制対象外とするための具体的な方法論と薬事戦略を記載しています。

近年、スマートフォンアプリやソフトウェアを用いて、患者さんの行動変容を促し、疾病の治療や管理を行う「治療用アプリ（デジタルセラピューティクス）」が、医療の新たな選択肢として急速に注目を集めています。

これら「アプリで病気を治す」プログラム医療機器も、医薬品や従来の医療機器と同様に、その有効性（本当に効くのか）と安全性（害はないか）を科学的に証明し、国の承認（製造販売承認）を得る必要があります。そのために行われるのが「治験」です。

しかし、疾病治療用プログラムの治験には、医薬品とは異なる特有の難しさが存在します。それは、人の「心理」が治療効果に大きく影響を与えやすいという特性です。

本記事では、厚生労働省が示した「行動変容を伴う医療機器プログラムに関する評価指標」に基づき、治療用アプリの治験を設計する上で重要な留意点、特にバイアスに対するPMDA審査について、詳しく解説していきます。

1. 治験設計の最大の壁：「ホーソン効果」と「プラセボ効果」

疾病治療用プログラムの有効性を正しく評価する上で、大きな障害となるのが以下の二つの心理的な影響（バイアス）です。

ホーソン効果

治験に参加し、「自分は特別な観察対象である」と意識するだけで、行動が（無意識的に）良い方向に変化してしまう現象です。例えば、生活習慣病のアプリ治験に参加した患者が、アプリの機能とは無関係に、食事や運動に普段以上に気をつけるようになる、といったケースが挙げられます。

プラセボ効果（偽薬効果）

「これは効果のある治療だ」と期待するだけで、実際に症状が改善する現象です。医薬品の治験で、効果のない「偽薬（プラセボ）」を飲んだ群でも一定の改善が見られることが知られています。

なぜこれが問題なのか？

これらの心理的バイアスが存在すると、開発中のプログラムが持つ「真の有効性」を過大評価してしまう危険性があります。ホーソン効果やプラセボ効果による「上乗せ」なのか、プログラム自体の機能による「真の効果」なのか、区別がつかなくなってしまうのです。

したがって、治験を設計する際は、これらのバイアスを可能な限り排除し、製品の真の価値を客観的に評価できるデザインを組むことが不可欠となります。

2. 理想のデザイン：「二重盲検ランダム化比較試験」

心理的バイアスを排除し、科学的に厳密な評価を行うための「ゴールドスタンダード（最適解）」とされる試験デザインが「二重盲検ランダム化比較試験（RCT）」です。

ランダム化比較試験（RCT）

治験に参加する患者さんを、くじ引きのようにランダム（無作為）に2つのグループに分けます。

実薬群（介入群）：開発中の治療（例：開発中のアプリ）を使用するグループ
対照群（コントロール群）：比較対象となる治療（例：標準的な治療）を受けるグループ

二重盲検（Double-Blind）

さらに、「患者さん自身」も「治療を行う医師（評価者）」も、どちらのグループに割り当てられたか分からない状態にします。これにより、「自分は新しい治療を受けている」という期待（プラセボ効果）や、評価者の主観（ホーソン効果）が入り込むのを防ぎます。

行動変容評価指針でも、まずはこのRCTの実施が可能かどうかを最優先で検討するよう求められています。

3. プログラム医療機器における「プラセボ」＝「シャムアプリ」

医薬品の治験では、プラセボとして「有効成分の入っていない偽薬（例：乳糖の錠剤）」が使われます。では、プログラム医療機器の治験では、何が「偽薬」になるのでしょうか。

そこで登場するのが「シャムアプリ（Sham App）」という概念です。

シャムアプリとは、**見た目や基本的な操作感は開発中のアプリと酷似しているものの、治療に有効とされる核心的な機能（例：行動変容を促す特定のロジック、フィードバック機能など）だけを意図的に抜き取った、いわば「偽のアプリ」**です。

治験の対照群には、一般的にその疾患に対する「標準治療（現在行われている最も標準的な治療法）」が設定されます。DB-RCTを行う場合、以下のような群構成で比較することになります。

介入群：標準治療＋ 開発中のアプリ
対照群：標準治療＋ シャムアプリ

この2群を比較することで、シャムアプリによるプラセボ効果やホーソン効果を差し引いた、開発中のアプリの「真の上乗せ効果」を評価しようと試みるわけです。

4. なぜ難しい？「シャムアプリ」導入の現実的な課題

理想的なシャムアプリですが、実際にはその作成と運用には大きな困難が伴います。

課題(1) 「効果のない」アプリを作る難しさ

医薬品のプラセボ（乳糖）と違い、ソフトウェアの場合、「全く効果のない」状態を作るのが困難です。例えば、単に症状を記録するだけのシャムアプリであっても、記録という行為自体が患者の意識を変え（ホーソン効果）、一定の治療効果を生んでしまう可能性があります。

課題(2) 「盲検性」を保つ難しさ

シャムアプリが、患者さんに「これは偽物だ」と気づかれてしまっては、盲検性が破綻し、DB-RCTの意味がなくなります。

患者が「どうもこのアプリは中身がないぞ」と感じないか？
操作感や見た目で、本物と区別がついてしまわないか？
これを防ぐには、非常に精巧なシャムアプリを作る必要があります。治験実施前（探索的試験など）に、このシャムアプリの盲検性が本当に保たれているかを、事前に評価・検証しておくことが理想とされています。

これらの課題から、盲検性を保ちつつ効果のないシャムアプリを作成することは極めて困難な場合が多く、結果としてDB-RCTの実施自体が現実的でないケースも少なくありません。

5. 二重盲検試験が困難な場合の「次善策」

では、DB-RCTが難しい場合、どうすればよいのでしょうか。その場合は、ホーソン効果やプラセボ効果が入り込むことをある程度「許容」した上で、できるだけその影響を受けにくい試験デザインを工夫することが求められます。

工夫(1) 評価項目の工夫

シャムアプリが、患者さんに「これは偽物だ」と気づかれてしまっては、盲検性が破綻し、DB-RCTの意味がなくなります。

客観的指標の優先

治験の「ゴール」として設定する主要評価項目は、まず**心理的影響を受け難い「客観的指標」**を用いることを検討します。

良い例（客観的）：検査数値（HbA1c、血圧など）、歩数、服薬率、再入院率
悪い例（主観的）：「気分の改善度」「痛みの感覚」（これらは心理的影響を受けやすい）

もちろん、患者さんの主観（QOLなど）も重要ですが、それらを主要なゴールに設定する場合は、バイアスの影響をどう低減するか、より慎重な設計が求められます。

工夫(2) 対照群への配慮

「気落ち」させない工夫

問題点

対照群の成績が、気落ちによって「通常の標準治療」よりも悪くなってしまうと、相対的に介入群（アプリ使用群）の成績が良く見え、アプリの効果を過大評価することにつながります。

対策例

6. 実際の薬事承認

ここまで二重盲検試験が推奨されていると述べてきましたが、実際の薬事承認では以下のような形で二重盲検で承認されている事例のほうが少ないのが実態です。

対象疾患	申請者	主たる有効性評価	対照群	承認日
ニコチン依存症	CureApp	多施設共同、無作為化、2群比較対照介入試験、非盲検	標準治療 + 記録用アプリ（非盲検）	2020年8月
高血圧症	CureApp	ランダム化、オープンラベル、並行群間比較、多施設共同、国内治験	標準治療のみ（非盲検）	2022年4月
不眠障害	サスメド	シャム対照、多施設共同、動的割付、並行群間、二重盲検比較試験	シャムアプリ（二重盲検）	2023年2月
注意欠如多動症患者（ADHD）	塩野義製薬	無作為化、非盲検、並行群間比較	標準治療のみ（非盲検）	2025年2月
アルコール依存症	CureApp	無作為化、非盲検、並行群間比較、多施設共同試験	標準治療 + 記録用アプリ（非盲検）	2025年2月

製品の特性や探索的検証の結果等を踏まえて、必ずしも二重盲検でなければ承認されないということではないことが示されていると言えます。

各承認品目の審査報告書を確認する限りにおいては、非盲検であろうと、二重盲検であろうと、バイアスに関しては審査において照会されていることが確認されています。

7. 個別最適化とPMDAへの相談

疾病治療用プログラムの治験設計は、対象とする疾患、プログラムの特性、臨床的な位置づけによって、取るべき戦略が大きく変わります。二重盲検試験の実施可否、シャムアプリの要否、対照群の設計、評価項目の選定など、検討すべき論点は多岐にわたります。

最も重要なのは、開発者自身が「なぜこの試験デザインが科学的に妥当であり、バイアスを最小限にできると考えるか」を明確に説明できるプロトコルを設計することです。

その上で、設計した治験プロトコルの妥当性について不安がある場合や、規制当局と認識を共有しておきたい場合は、医薬品医療機器総合機構（PMDA）の「医療機器プロトコル相談」といった制度を活用し、早期に議論することが推奨されています。