マスログ

やさしく学ぶ統計学~標準偏差とは~

公開日

2022年11月24日

更新日

2022年11月24日

↓↓↓動画で見たい方はこちら↓↓↓

みなさんこんにちは。和からの数学講師の伊藤です。前回までに、データに基づいた指標として平均値中央値四分位数といったお話をしてきました。

今回扱うのは、データのばらつき具合を表す指標である標準偏差と呼ばれるものです。前回までの指標よりもイメージを持ちにくい指標かと思いますので、丁寧に解説していきます!

1. データのばらつきと標準偏差

データのばらつきという言葉のイメージを持っていただくために、まずはデータを見てみましょう。

ある会社で販売している2種類の家庭用ゲーム機の月別売り上げ台数です。ゲーム機Aは最近発売されたため売り上げも好調ですが、売り上げに大きな波があり、大きく売り上げが伸びている時期もあれば、伸び悩んでいる時期も見て取れます。

一方ロングセラー商品であるゲーム機Bは、水準は低いものの安定的に売り上げをあげています。このように、データによって値の振れ幅は大きく異なります。このようなばらつき具合を数値化した指標が、標準偏差と呼ばれるものです。今回は数式を使った説明には踏み込みませんが、Excelなどのツールを使用することで標準偏差を計算することが可能です。

実際に計算してみると、ゲーム機Aの標準偏差は69972、ゲーム機Bの標準偏差は約1188となっています。この数値が大きければ大きいほど、売り上げ台数のばらつきが大きいということになります。

※標準偏差\(^2\)で計算される値を分散と呼びます。同じくばらつきという意味で表現されますので、混同しないように注意しましょう。

2. 変動係数

標準偏差がデータのばらつきを表しているということは前章で紹介しましたが、この統計量の解釈には注意したい点があります。

例えば、別のゲーム機C,Dの売り上げが以下のようになっているとします。

ゲーム機Cについて標準偏差を計算してみました。Excelの関数を使って計算してみると約8543となり、ゲーム機Dの標準偏差は約1901となっています。つまり、標準偏差だけを見るとゲーム機Cの方が大きいことが分かります。しかし、ゲーム機Cの平均売り上げ台数は約175658、ゲーム機Dの平均売り上げ台数は約5853となっており、ゲーム機Dは売り上げの規模の割にデータのばらつきが大きいことが見て取れます。

このように、標準偏差という統計量は規模の違うものどうしを比較するのに適しているとは言えません。この問題を解決する指標として、変動係数と呼ばれる統計量を使うことがあります。

これは、標準偏差を平均値で割ることで求めることができ、平均に対してどの程度ばらついているかを表現する指標となっています。今回のデータの変動係数を計算すると、以下のようになります。

\begin{align*}
\mbox{ゲーム機Cの変動係数} = \frac{8543}{175658} =0.04863 \cdots, \mbox{ゲーム機Dの変動係数} = \frac{1901}{5853} =0.3248
\end{align*}

ゲーム機Cは約0.049、ゲーム機Dは約0.325となり、平均値を考慮したばらつきはゲーム機Dの方が大きいことが分かります。このように、標準偏差の解釈には注意しましょう。

3. 平均値・中央値と標準偏差の関係!?

以前のマスログでは、重要な代表値である平均値・中央値について紹介しています。

やさしく学ぶ統計学~平均値と中央値~

実はこれらの指標と標準偏差との間には「平均値と中央値の差は標準偏差以下」という大変興味深い関係があります。数学的な観点から代表値の性質を知りたい方は、ぜひこちらもご覧ください!

平均値と中央値の差は標準偏差以下になることの証明

●和からのセミナー案内

和からではデータ分析に関するセミナーを多数用意しています。興味のある方は是非一度無料講座へお越しください。

集計と可視化で学ぶデータ分析超入門

データ利用・活用超入門-データを情報に変える統計学-

文系のための「統計超入門セミナー」-目で見てわかるビジネス統計学-

●和からのセミナー一覧はこちら
●お問い合わせフォームはこちら

<文/伊藤智也>


平均・分散・標準偏差―Point統計学 室 淳子(著),石村 貞夫(著) 東京図書

新着記事

同じカテゴリーの新着記事

同じカテゴリーの人気記事

CONTACTお問い合わせ

個別講義や集団講義、また法人・団体向けの研修を行うスペース紹介です。遠人に在住の方や自宅で講義を受けたい方はオンライン講座をご用意しております。よくある質問はこちら