評価メソドロジー | The Augmented Clinician

これらの評価とは何か——そして何ではないか

各ツールは5つのカテゴリで0から10まで評価されます。これらは検証済みの事実から導かれた編集上の評価であり、測定された正確性スコアではありません。 私たちは独自の正確性ベンチマークを実施しておらず、ツールに関する文書化され確認可能な事実——価格、提供状況、コンテンツの出典、機能、連携、ガバナンス——まで遡れない数値は公開しません。

ツールの正確性や安全性に関する独立した公表済みの研究が存在する場合（たとえば査読付きの比較や、Stanford/Harvard/ARISEのNOHARM安全性研究など）、私たちはそれらを引用し帰属を明示します——ベンダーのマーケティング上の正確性の主張を、私たち自身の結論として言い換えることは決してありません。

総合スコアは5つのカテゴリの単純平均です。カテゴリの選択とその均等な重み付けは編集上の判断であり、あなたが同意できるかどうかを判断できるよう、ここで率直に明示しています。あるカテゴリを私たちより重視する読者は、ツールを異なる順位付けにするのが妥当かもしれません。

5つのカテゴリ

01 — アクセシビリティ

実際に誰がそのツールを使えるか。私たちはコスト（無料、フリーミアム、有料、または機関向け）、地理的な到達範囲、専門職認証ゲート、そして製品が広告で運営されているかを考慮します。有料または機関限定のツール、あるいは単一地域に限定されたツールは、コンテンツがどれほど優れていてもここでは低くなります。

02 — コンテンツとエビデンス

回答の背後にある実質。私たちは基盤となるコーパスの幅と精選、回答が一次資料まで追跡可能な引用を伴っているか、そしてエビデンスの強さがどれほど透明に格付けされているかを考慮します。ここでは生の正確性は採点しません——それには私たちが実施していないベンチマークが必要になるためです。

03 — 臨床機能

臨床医が実際に使える意思決定支援機能の幅：鑑別診断、薬剤および相互作用のリファレンス、治療・管理ガイダンス、ドキュメンテーション／スクライビング、試験対策。より関連性が高く検証可能な機能ほど高く評価されます。

04 — 連携

ツールが実際のワークフローにどれだけ適合するか：EHR連携（例：SMART on FHIR）、開発者向けAPI、ウェブとモバイルでの提供。優れていてもスタンドアロンのツールは、臨床医がすでに働いている場所に組み込まれたツールより低くなります。

05 — 信頼性とガバナンス

ツールを取り巻く安全策：HIPAAおよびGDPRへの対応、独立した検証、規制上のステータス、そして利益相反（たとえば広告や製薬による資金提供モデル）。独立した第三者による認知はこのスコアを上げます。監査されていないベンダーの主張は上げません。

私たちがしないこと

カバレッジと引き換えに、支払い、無料クレジット、ベータアクセスを受け取らない。
ベンダーが公開前に評価を確認することを許さない。
文書化された事実まで遡れないスコアを公開せず、編集上の評価を測定されたベンチマーク結果として提示しない。
何がなぜ変わったかを公開せずに、評価を遡って変更しない。

利益相反と開示

編集チームの誰かがカバーするベンダーと過去の関係を持っている場合、その関係は開示ページで公開され、当該メンバーはそのツールの評価から外れます。あるツールが「トップ・ピック」「ハイライト」とされている場合、その位置づけは公開された事実とルーブリックから擁護できるものでなければなりません——編集の好みだけで決まることは決してありません。

更新と訂正

評価は四半期ごとに見直され、評価が変わるのは、ツールに関する検証可能な事実——価格、提供状況、機能、ガバナンス——が実際に変わったときだけであり、その変更は日付とともに記録されます。事実を間違えた場合、該当する記事に訂正を掲載し、編集方針の記録を更新します。