やさしく学ぶ統計学~偽陽性と偽陰性とは?~
公開日
2023年2月16日
更新日
2023年2月16日
みなさんこんにちは。和からの数学講師の伊藤です。今回は、判別分析などで使われることの多い偽陽性や偽陰性といった内容を見ていきたいと思います。PCR検査など多くの場面で適用できる考え方ですので、ぜひ理解していただければと思います!
この記事の主な内容
1. 偽陽性、偽陰性とは
先日のマスログでは、「病気の検査で陽性反応だったものの、実際には罹患していなかった」といった現象を確率の観点から見てきました。
前回の記事はこちら↓
こちらの記事で見たように、病気に罹患しているかどうかを検査する場合、診断結果と実際の健康状態について、4つのパターンが考えられます。
このような状態のうち、誤って陽性反応が出た場合を偽陽性、誤って陰性反応が出た場合を偽陰性と呼びます。逆に正しい反応が出ていた場合は、それぞれ真陽性、真陰性と呼びます。
今回は、この中でも偽陽性、偽陰性の関係性などに触れていきましょう。
2. 偽陽性、偽陰性の関係
統計学では、ある指標が特定のしきい値を超えるかどうかによって、陽性と診断するか陰性と診断するかを決定するような分析手法が提案されています。たとえば判別分析と呼ばれる分析手法がそれにあたります。このような判別問題では、偽陽性率、偽陰性率などの指標を用いて判別の精度を評価することも多いです。
しかし、偽陽性率と偽陰性率の間にトレードオフの関係があることは注意する必要があります。例えば陽性と診断するための基準値を高く設定しておけば陽性と診断される確率が低くなるため、自然と偽陽性率は減少します。しかし陰性と診断する割合が増えるということは、偽陰性率が増加することにも繋がります。
したがって同じ判別分析でも、偽陽性率と偽陰性率のどちらを重視して考えるかは状況によって変わってきます。たとえば病気の診断であれば、本来罹患している人を陰性と診断することには健康上大きなリスクがあります。そのため、多少偽陽性率が多くなってでも偽陰性の判断をさせない選択をとることになります。
逆に、検査薬の効果の有無を判別する際に偽陽性(本来は効果のない薬が、効果ありと判別される)の結論を下してしまうと、効果のない薬が市場に出回ることに繋がってしまい、大変危険です。この場合、多少偽陰性を増やしてでも、偽陽性の判別は減らすよう設定することになります。
このように、トレードオフの関係にある偽陽性率、偽陰性率をどのように扱うかについては慎重に検討する必要があります。
3. 統計的仮説検定の考え方との関係
統計学を利用していく際に非常によく目にするのが、統計的仮説検定(略して検定)と呼ばれる手法です。本記事では詳細な説明は省きますが、検定では、分析者が立てた仮説をデータを使って否定できるかどうかを考えます。
ここまでお話をした偽陽性・偽陰性のトレードオフの関係は、検定における有意水準・検出力と呼ばれる2つの指標と似た考え方になります。今回の話を覚えておくと、今後の統計学の学習にも役立ってくるかと思います!
●和からのセミナー案内
Excelを用いたデータ分析のストーリーや可視化のスキルを学んでいくセミナーのご紹介です。興味を持っていただけた方は、ぜひ覗いてみてください!
●和からのセミナー一覧はこちら
●お問い合わせフォームはこちら
<文/伊藤智也>