やさしく学ぶ統計学~標準偏差とは~
公開日
2022年11月24日
更新日
2022年11月24日
↓↓↓動画で見たい方はこちら↓↓↓
みなさんこんにちは。和からの数学講師の伊藤です。前回までに、データに基づいた指標として平均値、中央値、四分位数といったお話をしてきました。
今回扱うのは、データのばらつき具合を表す指標である標準偏差と呼ばれるものです。前回までの指標よりもイメージを持ちにくい指標かと思いますので、丁寧に解説していきます!
この記事の主な内容
1. データのばらつきと標準偏差
データのばらつきという言葉のイメージを持っていただくために、まずはデータを見てみましょう。
ある会社で販売している2種類の家庭用ゲーム機の月別売り上げ台数です。ゲーム機Aは最近発売されたため売り上げも好調ですが、売り上げに大きな波があり、大きく売り上げが伸びている時期もあれば、伸び悩んでいる時期も見て取れます。
一方ロングセラー商品であるゲーム機Bは、水準は低いものの安定的に売り上げをあげています。このように、データによって値の振れ幅は大きく異なります。このようなばらつき具合を数値化した指標が、標準偏差と呼ばれるものです。今回は数式を使った説明には踏み込みませんが、Excelなどのツールを使用することで標準偏差を計算することが可能です。
実際に計算してみると、ゲーム機Aの標準偏差は69972、ゲーム機Bの標準偏差は約1188となっています。この数値が大きければ大きいほど、売り上げ台数のばらつきが大きいということになります。
※標準偏差\(^2\)で計算される値を分散と呼びます。同じくばらつきという意味で表現されますので、混同しないように注意しましょう。
2. 変動係数
標準偏差がデータのばらつきを表しているということは前章で紹介しましたが、この統計量の解釈には注意したい点があります。
例えば、別のゲーム機C,Dの売り上げが以下のようになっているとします。
ゲーム機Cについて標準偏差を計算してみました。Excelの関数を使って計算してみると約8543となり、ゲーム機Dの標準偏差は約1901となっています。つまり、標準偏差だけを見るとゲーム機Cの方が大きいことが分かります。しかし、ゲーム機Cの平均売り上げ台数は約175658、ゲーム機Dの平均売り上げ台数は約5853となっており、ゲーム機Dは売り上げの規模の割にデータのばらつきが大きいことが見て取れます。
このように、標準偏差という統計量は規模の違うものどうしを比較するのに適しているとは言えません。この問題を解決する指標として、変動係数と呼ばれる統計量を使うことがあります。
これは、標準偏差を平均値で割ることで求めることができ、平均に対してどの程度ばらついているかを表現する指標となっています。今回のデータの変動係数を計算すると、以下のようになります。
\begin{align*}
\mbox{ゲーム機Cの変動係数} = \frac{8543}{175658} =0.04863 \cdots, \mbox{ゲーム機Dの変動係数} = \frac{1901}{5853} =0.3248
\end{align*}
ゲーム機Cは約0.049、ゲーム機Dは約0.325となり、平均値を考慮したばらつきはゲーム機Dの方が大きいことが分かります。このように、標準偏差の解釈には注意しましょう。
3. 平均値・中央値と標準偏差の関係!?
以前のマスログでは、重要な代表値である平均値・中央値について紹介しています。
実はこれらの指標と標準偏差との間には「平均値と中央値の差は標準偏差以下」という大変興味深い関係があります。数学的な観点から代表値の性質を知りたい方は、ぜひこちらもご覧ください!
●和からのセミナー案内
和からではデータ分析に関するセミナーを多数用意しています。興味のある方は是非一度無料講座へお越しください。
●和からのセミナー一覧はこちら
●お問い合わせフォームはこちら
<文/伊藤智也>