マスログ

【データ分析の基礎】どれだけあれば十分?~サンプルサイズの求め方~

公開日

2025年1月17日

更新日

2025年1月16日

 みなさんこんにちは!和からの数学講師の岡本です。

現代社会においては研究だけでなくビジネスの世界でも積極的にデータを活用する時代となりました。サンプルとなるデータをもとに数値を予測したり、2つのデータにおける平均が統計的に同じと言っていいかどうかを判断するなど、様々な分析が比較的簡単に行えるようになってきました。当然ですが、データの数が少ないと信憑性は高くなりません。

では、データの数はどれぐらいあれば信頼の高い推定を行うことができるのでしょうか?今日は必要なデータの個数(サンプルサイズ)について初等的な統計学に沿ってお話していきたいと思います。

1.比率の推定

 視聴率の調査やアンケート調査、支持利率調査など私たちの身の回りでは至るところでデータを利用し「真の比率(=母比率)を推測する」ということを行います。例えば、20万人の有権者が住んでいる町において全員の聞き取りが難しいためランダムに選んだ有権者100人に聞き取り調査を行いました。その結果、25人が政党Aを支持していることがわかり、このことから20万の町の約25%である5万人程度が政党Aを支持しているのではないかと推測できそうです。

このように、全体を調査するコストが高い、あるいは不可能である場合、一部の「標本(サンプル)」から全体を推測することを標本調査といいます。

 しかし、先ほどの例のように「25%だろう」という、ピンポイントな予測というのは、たいしてうれしいものではありません。当たっているかどうかで考えると極めて高い確率で当たっていないでしょう。数%の狂いもなく25%、つまり20万人中ちょうど5万人がAを支持しているとは考えにくいのです。

そこで、ピンポイントに推定するのではなく、例えば「23~27%」のように幅を利かせた推定の方が現実的です!

2.母比率の区間推定

 前節でお話したように、ピンポイントな推定(点推定といいます)よりも、幅を利かせた推定(区間推定といいます)の方が、正しい推測ができているかどうかという視点では現実的なように思えます。しかし、区間推定が適切である理由はこの他にもあります。それは、「推定結果の信頼性を表すことができる」という点です。

 例えば、ある政党Aの支持率を推定したいとします。このとき区間推定の結果が「10%~70%の間です!」と発表されたとき、皆さんはどう感じますか?おそらく多くの方が「結局どれぐらいなんだろう…」といった感想を抱くことでしょう。このように、区間の幅がブレブレだと、推定の信頼度が小さくなるのです。例えば、「28%~32%」のように、中心の30%から\(\pm\)2%ぐらいのブレであれば比較的うれしいかもしれません。

 そこで、区間推定を行う際は、ある程度の「信頼度」をあらかじめ設定しておき、それに基づいた推定区間を計算します(そのため「信頼区間」と呼びます)。実際に説明でもよく使うのは「信頼度95%」という数字です。「信頼度95%」の区間推定とは、簡単にいうとサンプリング+区間推定を仮に100回行ったとし、このうち95回程度が、正しい推定となっていることを意味します。

※なお、余談ですが、サンプリングを行う回数のことを「サンプル数」といい、サンプリングにより、抽出したデータの個数を「サンプルサイズ」と呼びます。混同されやすいので注意しましょう。

 実際に政党Aの支持率の例で考えてみましょう。サンプルサイズを\(n\)、そのうち政党Aの支持者数を\(a\)とすると、標本比率\(\hat{p}\)は\(\frac{a}{n}\)で求まります。このとき、真の比率(母比率)\(p\)の信頼区間は以下の式で求められます。

\begin{align*}
\hat{p}-1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\leq p \leq \hat{p}+1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
\end{align*}

ただし、1.96とは、「信頼度95%」から定まる数値であり、この値は信頼度の値によって変化します。例えば信頼度を\(1-\alpha\)とするとExcelの関数「=NORM.S.INV(1-\(\alpha\)/2)」で求めることができ、これを\(z_{\alpha/2}\)と表記することがあります。

3.サンプルサイズの計算

 続いて、理想的なサンプルサイズについて考えてみましょう。2節で登場した信頼区間の式から幅を求めることができます。例えば信頼度\(1-\alpha\)であるとき、区間の幅は

\begin{align*}
2\times z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
\end{align*}

であることがわかります。したがって信頼度と、区間のブレをどれぐらい小さくすれば十分であるかをあらかじめ設定しておき、それに基づいて\(n\)の条件を逆算すれば、理想的なサンプルサイズがある程度決まりそうです。

 実際に、政党Aの支持率調査において、95%の信頼区間の幅が4%未満であるような、推定を行いたい場合、必要なサンプルサイズがどれぐらいなのかを計算してみましょう。先ほど求めた幅の式から以下のような不等式をたて、\(n\)の条件を整理します。

\begin{align*}
2\times1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}<0.04\Longleftrightarrow n>\Bigg(\frac{1.96}{0.02}\Bigg)^2\hat{p}(1-\hat{p})
\end{align*}

最後の式をみると、標本比率\(\hat{p}\)の値がわかっていないので\(n\)の条件が確定できません。しかし、\(\hat{p}(1-\hat{p})\)の式は\(\hat{p}\)の2次関数になっており、簡単な計算から\(\hat{p}=0.5\)で最大となることがわかります。これにより\(\hat{p}=0.5\)とすれば左辺が最大となり、十分良いサンプルサイズの条件を導くことができます!したがって、

\begin{align*}
n>\Bigg(\frac{1.96}{0.02}\Bigg)^2 0.5(1-0.5)=2401
\end{align*}

となり、2402以上のサンプルを調べれば理論上安心できることがわかりました!

 なお、信頼度\(1-\alpha\)、区間の幅を\(\beta\)未満にしたいとき、必要なサンプルサイズ\(n\)は同様の計算により、

\begin{align*}
n>\Bigg(\frac{z_{\alpha/2}}{\beta}\Bigg)^2
\end{align*}

であることがわかります。

4.さいごに

 いかがでしたでしょうか?今回のお話は本来、「二項分布の正規近似」「大数の法則」など、母比率の信頼区間を導出するのに必要な統計理論はたくさんありますが、全部飛ばして、必要なところだけをかいつまんで解説しました。より詳しい内容を知りたい、ExcelやPythonなどを動かしながら統計やデータサイエンスを身に着けたい方は和からの集団セミナーや個別授業をオススメします!

統計の超入門的なオンラインセミナーはこちら(無料!)

文系のための「統計超入門セミナー」-目で見てわかるビジネス統計学-

個別授業をご検討の方はまずは無料相談からどうぞ!

無料相談お申し込み

●和からのセミナー一覧はこちら
●お問い合わせフォームはこちら

<文/岡本健太郎>

新着記事

同じカテゴリーの新着記事

同じカテゴリーの人気記事

CONTACTお問い合わせ

個別講義や集団講義、また法人・団体向けの研修を行うスペース紹介です。遠人に在住の方や自宅で講義を受けたい方はオンライン講座をご用意しております。よくある質問はこちら