どっちの方が偏差値が大きい？

統計・機械学習トピック

公開日

2021年7月6日

更新日

2021年7月6日

動画で見たい方はこちら↓↓↓

数学講師の松中です。先日統計の授業をする中で参考に作った問題の答えが意外なものになったので紹介したいと思います。その問題は偏差値に関するものです。偏差値はデータの平均と標準偏差から計算できるのですが、「標準偏差って何？」、「標準偏差を考えると何が便利なの？」という方はまずこちらの記事をご参照ください。

そのデータはどのくらい「すごい」のか？

この記事の主な内容

問題を考えたきっかけ

先日統計の授業の中でお客様に標準偏差というデータのばらつきを表す統計量の解説をし、そのついでに受験生が志望校を決める際の指標となる偏差値についてもお話をしました。偏差値とは簡単に言うと全生徒のテストの点の平均を\(50\)点、標準偏差を\(10\)点に規格化した時の生徒の点数です。つまり偏差値が50であればちょうど平均点をとっているということになります。

偏差値の計算方法をお客様に解説したところ、「なるほど、だから学生時代にテストの点が\(0\)点でも偏差値が\(0\)ではなかったのか」と納得されたご様子でした。極端な例を考えると、\(100\)人が\(0\)点、\(1\)人が\(100\)点を取った場合、平均はほとんど\(0\)点なので、\(0\)点を取っても偏差値はほぼ\(50\)なのです。

そんな話をしている中で例えば上のような状況であれば\(100\)点をとった\(1\)人の偏差値がいくつになるか気になり始めました。そこで次のような問題を出してみたのです。

問題設定

\(100\)人が\(0\)点、\(1\)人が\(100\)点を取った時、\(100\)点を取った生徒の偏差値はいくらか。

また、\(100\)人が\(0\)点、\(1\)人が\(1\)点を取った時、\(1\)点を取った生徒の偏差値はいくらか。

　
なぜほとんど同じ内容の問題を出したかというと、一般化して解くということをお伝えしたかったからです。つまり、上の問題をそのまま解くのではなく、下のように一般化して解いてみようというモチベーションを与えるためでした。

一般化バージョン
\(N\)人が\(a\)点、\(n\)人が\(b\)点を取った時、\(b\)点を取った生徒の偏差値はいくらか。(ただし\( a < b \)とする)

　
このように一般化して偏差値を計算しておけば、先に出した問題の1つ目は、\(N=100\)、\(n=1\)、\(a=0\)、\(b=100\)として計算することができ、また2つ目は、\(N=100\)、\(n=1\)、\(a=0\)、\(b=1\)として計算できます。

実際私自身この問題の結果には興味がありました。このような極端な場合の偏差値を計算したことはなかったので、これまでに見たこともないような偏差値が出てくるだろうと思ったからです。そして、当然100点を取った生徒の方が偏差値が高くなると思っていました。しかし結果は予想に反するものでした。なんと一般化した偏差値から\(a\)、\(b\)が消えてしまったのです。つまりこの問題設定では偏差値は点数に依らなくなるのです。

最初は自分が計算間違いをしていると思って何度か計算を見直したのですが、どこにも間違いはありませんでした。最終的には\(a\)、\(b\)が消えることには納得したのですが、とにかくまずはこの一般化した問題を解いてみましょう。

偏差値の計算

では解いていきましょう。まずは全体の平均点と標準偏差を計算します。

平均点\(\mu\)は、
\[
\mu=\frac{Na+nb}{N+n}
\]
となります。標準偏差は分散の平方根ですが、分散は「二乗の平均」引く「平均の二乗」で計算できるので、標準偏差\(\sigma\)は、
\[
\sigma=\sqrt{\frac{Na^2+nb^2}{N+n}-\left(\frac{Na+nb}{N+n}\right)^2}=\sqrt{\frac{Nn(a-b)^2}{(N+n)^2}}=\frac{\sqrt{Nn}(b-a)}{N+n}
\]
ここで、\(b > a \)より、\(\sqrt{(a-b)^2}=b-a\)に注意してください。

よって、\(b\)点を取った人の偏差値は、
\[
\frac{b-\mu}{\sigma}\times 10 + 50=\frac{b-\frac{Na+nb}{N+n}}{\frac{\sqrt{Nn}(b-a)}{N+n}}\times 10 + 50\\
=\frac{(N+n)b-(Na+nb)}{\sqrt{Nn}(b-a)}\times 10 + 50=\frac{N(b-a)}{\sqrt{Nn}(b-a)}\times 10 + 50\\
=\sqrt{\frac{N}{n}}\times 10 + 50
\]

たしかに、\(a\)と\(b\)が消えました。今回の問題の設定を当てはめると、\(N=100\)、\(n=1\)より、\(1\)人だけ\(100\)点取った場合でも、\(1\)人だけ\(1\)点取った場合でも、どちらもその生徒の偏差値は\(150\)ということになります。

どうして偏差値が一緒になる？

統計の勉強で欠かせないものとして相関係数があります。相関係数はデータのスケールに依らないという重要な性質があります。例えば身長と体重には一方が大きければ他方も大きいといった、正の相関があります。その相関の強さを表したものが相関係数ですが、本来体重や身長の測り方とは独立して存在する概念のはずです。体重をg(グラム)で測った時とkg(キログラム)で測った時で、あるいは身長をmm(ミリメートル)で測った時と、m(メートル)で測った時で相関係数の値が変わってしまうと問題です。相関係数はこのような問題が起きないように巧みに定義されています。

今回2つのケースで偏差値が一致した理由はこの相関係数がスケールに依らないという性質と全く同じものです。一見100点と1点では100点の方が点が高いと感じますが、忘れていはいけないのはこのテストは別々のテストだということです。同じテストを受けて100点と1点の生徒がいたとすると当然100点を取った生徒の方が偏差値は大きくなりますが、別々のテストなので点数の比較には意味がありません。100点を取った生徒は10,000点満点の100点かもしれないし、1点を取った生徒は1点満点のテストでの1点かもしれないのです。結局偏差値を決める重要な要因は他の生徒たちの点数との相対的な評価です。\(100\)人が0点で残り\(1\)人が\(100\)点というケースも、\(100\)人が0点で残り\(1\)人が\(1\)点というケースも、点数のスケールを変えると生徒の点数の分布は完全に一致します。これが偏差値が一致する理由です。

今回の記事のように問題を一般化することで標準偏差、偏差値が良くできた指標であることが改めてよくわかりました。

<文/松中>

標準偏差の意味についてはこちらの無料セミナーがおすすめです。