はじめての統計学~データの可視化入門②(ヒストグラム, 散布図, 帯グラフ)~
公開日
2022年2月2日
更新日
2022年2月2日
こんにちは。和からの数学講師の岡本です。「はじめての統計学」シリーズ、今回も前回に引き続き、データの可視化について解説していきたいと思います。前回の内容はこちらから!
この記事の主な内容
1.量的データの分布を示すヒストグラム
20代、30代、40代の社員はどのように分布しているのかを可視化するのにヒストグラム(histogram)が活用できます。例えば、元のデータから20~29歳の人の人数、30~39歳の人数、…と各年代ごとに分けて人数をカウントし表を作成します。作成した以下のような表を使って棒グラフを作成するとヒストグラムの出来上がりです。
ヒストグラムとは、結局のところ量的データを階級に分けてカウントすることで得られる棒グラフのことです。ヒストグラムに関する言葉使いや考え方に関しては別の記事で改めて紹介することにします。
2.量的データの関係性を示す散布図
2つの量的データの関係性を示すことができるグラフとして散布図(scatter plot)というものがあります。これは、2つの数値のペアを横軸と縦軸で測り、平面上にプロットすることで得られます。複数のペアをプロットすることで、横軸と縦軸のデータの傾向を見ることができます。例えばわかり易い例として、「身長と体重」の散布図を作成してみましょう。
図のように身長の高い人は、体重も大きくなる傾向(右肩上がりの傾向)があることがわかります。また関係性の強さを表す指標として相関係数が知られていますが、別の記事で詳しく取り上げようと思います。
3.帯グラフで内訳を比較してみよう
次に、人事データを用いて年齢によって会社満足度に違いがあるのかを帯グラフ(band graph)を使って表してみましょう。これは与えられたデータの表から下のようなクロス集計表を作成することでグラフを描くことができます。
「満足、やや満足」の部分に注目すると、比較的20代の社員は満足傾向にあり、30代は満足度が全体に比べて低い傾向があることがわかります。
●和からのセミナー案内
集計やデータの可視化に関するスキルは自然に身に付くものではありません。和からでは、社会人のためのデータ集計・可視化、ピボットテーブルの使い方に関する講座をいくつか実施しております。興味のある方は是非一度無料講座へお越しください。
●参考文献
人文・社会科学の統計学 (基礎統計学) 東京大学教養学部統計学教室(編) 東京大学出版会
●和からのセミナー一覧はこちら
●お問い合わせフォームはこちら
<文/岡本健太郎>