データ分析小話~平均値と中央値の差について~
公開日
2021年7月8日
更新日
2021年7月8日
こんにちは。和からの数学講師の岡本です。今回は、数字の統計学やデータ分析の際に良く用いられる「平均値」と「中央値」の位置関係についてお話していきます。似たような値を取ることもありますが、2つの値が大きく離れることもあります。しかし、どこまで離れることがあるでしょうか?限度はあるのでしょうか。今回は実際にデータを使って検証していきます。
この記事の主な内容
1.平均値
まずは「平均値」です。これは、与えられた数字のデータ(「量的データ」といいます)を合計して、データの個数で割ることで得られる指標のことを指します。「平(たい)らに均(なら)す」と書いて「平均(へいきん)」。まさにやっている計算の通りですね。
この指標は、データの中心部分を把握するのに非常によく使われます。例えば、テストの「平均点」や、「平均体重」、「平均身長」などもそうです。パッと聞いて、何となく状況を理解できるので何かと便利です。
実際に以下のデータの平均を求めてみましょう。
2.中央値
次に「中央値」です。認知度は平均値ほどではないですが、非常に便利な指標です。中央値とは、データを小さい順に並べて、ちょうど中間にある値(中間のデータがない場合は中央2つのデータの平均値)のことを指します。これにより、データの中心部分を把握することができます。「データを小さい順に並べる」という操作は、コンピュータのない時代は非常に面倒な作業であったため、平均値に比べて使われる頻度は少なかったようです(Excelだと関数1つで中央値が出力されます)。
実際に以下のデータの中央値を求めてみましょう。
3.平均値と中央値の位置関係
さて、平均値、中央値はどちらも「データの中心部分を把握するための指標」となっていますが、その違いは何でしょう?平均は、その計算方法からわかるように極端な値に弱く、うまく機能しないことがある反面、中央値は順序に依存した算出であることから比較的安定した値となります。つまり、データによって、平均値と中央値は同じような値を取ることもあれば、2つの値が大きく離れてしまうこともあるわけです。
実際に下の図のように、おおよそ左右対称の山型の分布をしているようなデータの場合、平均値と中央値は近い値になります。(注:常に一致するとは限りません)
対して、下の図のようにデータの分布が大きく歪んでいる場合、平均値と中央値は離れていく傾向にあります。
4.平均値と中央値はどこまで離れられる?
さて、本題に入っていきましょう。ご紹介した2つの指標「平均値」と「中央値」。これらの値はどこまで離れることがあるのでしょう?なるべく、2つの指標が大きく離れるようにデータをいじってみました。
かなり極端な分布にしてみました。実際に平均値と中央値の差は30にまで広がりました!この差はいくらでも大きく調整できそうですが、果たしてどうでしょう?先ほどからしれっと書いてある「標準偏差」に注目してみます。実は、「平均値と中央値の差は、必ず標準偏差以下になる」という衝撃的な性質があるのです!「ホンマかいな!?」と思われそうですが、実際にいくつかデータを見てみましょう。
たしかにちゃんと成り立ってますね…!たしかに、平均と中央値に差を出すためにデータを歪ませると、その分ばらつきを表す標準偏差を大きくなります。それでも、平均値と中央値の差が標準偏差を超えることがないという事実は驚きですよね!
5.さいごに
いかがでしたでしょうか?今回は平均値と中央値という、データを扱う際に非常によく出てくる指標についての性質をお話してきました。しかし、本当にどんなデータでもこのような性質が成り立つのでしょうか?次回はこの性質について数学的に証明してみようと思います。お楽しみに!
つづきはこちら↓
また、和からでは初めて統計を学ぶ方向けに無料のセミナーを開催しています。興味のある方は是非ご参加ください!
●和からのセミナー一覧はこちら
●お問い合わせフォームはこちら
<文/岡本健太郎>