はじめての統計学~ヒストグラムの扱い方~
公開日
2022年2月20日
更新日
2022年2月20日
こんにちは。和からの数学講師の岡本です。「はじめての統計学」シリーズです。今回はヒストグラムについて詳しく解説していきたいと思います。前回の内容はこちらから!
この記事の主な内容
1.ヒストグラムとは
ヒストグラム(histogram)とは、簡単にいうと量的データを区間でグループ分けし、各グループのデータ数について棒グラフを取ったものです。その語源は諸説あり、ギリシャ語の「イストス(立てる)」と「グラマ(記録する)」を掛け合わせた言葉という説や、「historical diagram」の略語から来ているという説などがあります。
図のように、分けたグループのことを階級(class)と呼びます。また、その階級のデータ数のことを度数(frequency)、そして各階級の棒のことをビン(bins)と呼びます。さらに、各階級の区間の中心の値のことを階級値(class value)といい、例えば「5000~5999」の階級は(「5000以上6000未満」と考え)、その階級値は「5500」となります。また、全データ数のうち、考えている階級の度数の割合を相対度数(relative frequency)といい、
\begin{align*}
\text{相対度数}=\frac{\text{度数}}{\text{全データ数}}
\end{align*}
で計算できます。また、ヒストグラムの見方について簡単にまとめておきましょう。「ビンの広がり具合」はデータのばらつきを表しているので、下図のように、広がっているヒストグラムの場合、「データが散らばっている」と解釈できます。また、どこかにまとまり細い山の形をしている場合、「データがまとまっている」と解釈できます。
2.ヒストグラムを作ってみよう
では、実際のデータを使ってヒストグラムを作成してみましょう。ここで使うのは、数学のテストの点数のデータ(量的データ)です。100点満点のテストなので、10点おきに階級を定めてみましょう。
階級と度数がまとまれば、後は棒グラフを作成するだけです。
数学のテストの平均点を計算すると54点でした。ヒストグラムと比較すると、50点台の生徒が一番多いことがわかります。ついでに、この階級における相対度数を計算してみましょう。50~59の階級の度数は51であり、データ数は全部で200なので、相対度数は
\begin{align*}
\frac{51}{200}=0.255
\end{align*}
という計算により、0.255となります。
3.ヒストグラムのパターン
ヒストグラムにはいくつかの典型的なパターンがあるので、ポイントを抑えておくとデータの読み取りも慣れてくると思います。
典型例1:左右対称単峰パターン
図のように、真ん中に山が1つで、おおよそ左右対称のタイプのヒストグラムは「平均値=中央値=最頻値」がおおよそ成り立ち、比較的扱いやすい分布です。数理統計では「正規分布」と言われる確率分布で近似され、より細かい分析を行うこともできます。
典型例2:偏りパターン
図のように、大きい値または小さい値に偏ったタイプのヒストグラムは平均値が偏りに引っ張られ、中央値との間に差が出ます。そのため、平均値が必ずしも中心的な値とは言えない場合があるので扱いには中が必要です。所得の分布が典型的な例です。なお、上の図のように右に山が偏り、左に裾を引いている形のヒストグラムは「左に歪んでいる」といいます。
典型例3:多峰パターン
多峰パターンとは、山が複数ある分布をいいます。図のように山が2つあるときを二峰型と呼ぶことがあります。二峰の場合、左右対称に近い形であれば、データの少ない真ん中付近に平均値や中央値が来ることがあり、必ずしも代表的な値になり得ません。このようなパターンの場合、まずデータを属性に分け、1つずつの山の集合に分けて分析をすることが有効な場合は多いです。
典型例4:外れ値を含むパターン
データに外れ値がある場合、ヒストグラム上でとびぬけた位置にビンがあり視覚的な把握が容易になります。このようなとびぬけた値も平均値に影響を及ぼしてしまうので、場合によっては注意をする必要があります。
●さいごに
ヒストグラムは量的データの要約の際に非常に便利で、構造が理解できれば様々なデータ間の関係性を見る際やデータの推測など様々な応用につながります。しかし、扱いやすいヒストグラムを作成するのは意外にも面倒です。和からでは今回ご紹介した内容に加え、Excelを使ったヒストグラムの作成方法やその応用など詳しく解説するセミナーがございます。興味のある方は是非ご検討ください。
●和からの無料セミナー案内
集計やデータの可視化に関するスキルは自然に身に付くものではありません。和からでは、社会人のためのデータ集計・可視化、ピボットテーブルの使い方に関する講座をいくつか実施しております。興味のある方は是非一度無料講座へお越しください。
●参考文献
人文・社会科学の統計学 (基礎統計学) 東京大学教養学部統計学教室(編) 東京大学出版会
●和からのセミナー一覧はこちら
●お問い合わせフォームはこちら
<文/岡本健太郎>