Meun
close
050-5490-7845 ※ 月曜定休日
  • twitter
  • facebook
  • YouTube

マスログ

2022/02/02

はじめての統計学~データの可視化入門②(ヒストグラム, 散布図, 帯グラフ)~


こんにちは。和からの数学講師の岡本です。「はじめての統計学」シリーズ、今回も前回に引き続き、データの可視化について解説していきたいと思います。前回の内容はこちらから!

はじめての統計学~データの可視化入門①(円グラフ, 棒グラフ, 折れ線グラフ)~

1.量的データの分布を示すヒストグラム

20代、30代、40代の社員はどのように分布しているのかを可視化するのにヒストグラム(histogram)が活用できます。例えば、元のデータから20~29歳の人の人数、30~39歳の人数、…と各年代ごとに分けて人数をカウントし表を作成します。作成した以下のような表を使って棒グラフを作成するとヒストグラムの出来上がりです。

ヒストグラムとは、結局のところ量的データを階級に分けてカウントすることで得られる棒グラフのことです。ヒストグラムに関する言葉使いや考え方に関しては別の記事で改めて紹介することにします。

2.量的データの関係性を示す散布図

2つの量的データの関係性を示すことができるグラフとして散布図(scatter plot)というものがあります。これは、2つの数値のペアを横軸と縦軸で測り、平面上にプロットすることで得られます。複数のペアをプロットすることで、横軸と縦軸のデータの傾向を見ることができます。例えばわかり易い例として、「身長と体重」の散布図を作成してみましょう。

図のように身長の高い人は、体重も大きくなる傾向(右肩上がりの傾向)があることがわかります。また関係性の強さを表す指標として相関係数が知られていますが、別の記事で詳しく取り上げようと思います。

3.帯グラフで内訳を比較してみよう

次に、人事データを用いて年齢によって会社満足度に違いがあるのかを帯グラフ(band graph)を使って表してみましょう。これは与えられたデータの表から下のようなクロス集計表を作成することでグラフを描くことができます。

「満足、やや満足」の部分に注目すると、比較的20代の社員は満足傾向にあり、30代は満足度が全体に比べて低い傾向があることがわかります。

●和からのセミナー案内

集計やデータの可視化に関するスキルは自然に身に付くものではありません。和からでは、社会人のためのデータ集計・可視化、ピボットテーブルの使い方に関する講座をいくつか実施しております。興味のある方は是非一度無料講座へお越しください。

集計と可視化で学ぶデータ分析超入門

データ利用・活用超入門-データを情報に変える統計学-

文系のための「統計超入門セミナー」-目で見てわかるビジネス統計学-

●参考文献


人文・社会科学の統計学 (基礎統計学) 東京大学教養学部統計学教室(編) 東京大学出版会

●和からのセミナー一覧はこちら
●お問い合わせフォームはこちら

<文/岡本健太郎>