私たちはどう臨床AIを評価するか
私たちは各ツールを固定された臨床質問のベンチマークでテストし、5つの次元を独立して評価し、すべての変更を公開します。私たちの結論を信頼できるかどうか、あなた自身が判断できるように、メソドロジーはすべて公開しています。
5つの次元
01 — 正確性
各ツールは、ベッドサイドでの一般的な症例提示、薬物相互作用、ガイドライン主導の判断、そして稀ではあるが重要な診断をカバーする同じ50問のベンチマークに回答します。回答は現行の一次資料(ガイドライン、添付文書、システマティック・レビュー)に対して0〜10のスケールで採点します。モデルのドリフトを検出するため、ベンチマークは四半期ごとに再実施します。
02 — 引用の質
ツールは、回答がどこから来たかを、検証可能な形で示してくれますか?私たちは次を採点します:引用の有無、一次資料までの追跡可能性、最新性、そして主張のうち実際に根拠付けられたものと生成されたものの比率。出典なしで「もっともらしく聞こえる」だけのツールは上限5。
03 — アクセシビリティ
誰が実際に使えますか?コスト、地理的制限、専門職認証ゲート、機関アクセス要件——いずれもスコアを下げます。米国で認証された医師しか使えないツールは、どれほど良くてもここで6を超えることはできません。
04 — 速度
コールドスタートから有用な回答を得るまでの時間を、標準的な住宅回線で測定します。ベッドサイドでの有用性はこれに依存します。典型的なクエリに10秒以上かかるツールは上限7。
05 — 言語サポート
非英語での臨床出力の質を、可能な限りネイティブの臨床医が評価します。多言語サポートが確認されていないツールはゼロではなく「—」と記し、総合スコアの言語コンポーネントから除外します。
私たちがしないこと
- カバレッジと引き換えに、支払い、無料クレジット、ベータアクセスを受け取らない。
- ベンダーが公開前にスコアを確認することを許さない。
- 何がなぜ変わったかを公開せずに、ランキングを遡って変更しない。
利益相反と開示
編集チームの誰かがカバーするベンダーと過去の関係を持っている場合、その関係は開示ページで公開され、当該メンバーはそのツールの採点から外れます。あるツールが「トップ・ピック」「ハイライト」とされている場合、その位置づけは公開された採点基準から擁護できるものでなければなりません——編集の好みだけで決まることは決してありません。
更新と訂正
インデックスは四半期ごとに更新されます。スコアが変わるとき、変更は日付と理由とともに記録されます。事実を間違えた場合、該当する記事に訂正を掲載し、編集方針の記録を更新します。訂正は editorial@theaugmentedclinician.com までご連絡ください。