はじめての統計学~データの関係性を見る(クロス集計表)~
公開日
2022年2月4日
更新日
2022年2月4日
こんにちは。和からの数学講師の岡本です。「はじめての統計学」シリーズです。今回はクロス集計表について詳しく解説していきたいと思います。前回の内容はこちらから!
この記事の主な内容
1.クロス集計表
複数の質的データ(文字のデータ)どうしの関係性を見るとき、クロス集計表(cross-tabulation table)が使われます。例えば、以下のデータの中で、「満足度」と「退職・在職」という2つの項目を抽出してみましょう。
このような集計をクロス集計(cross tabulation)といい、列の項目を表頭(ひょうとう: table head)、列の項目を表側(ひょうそく:table side)といいます。また、一般に表側には要因あるいは比較基準となる項目を設定し、表頭には結果や比較したい項目を設定します。こうすることで、どういった目的の集計なのかがわかります。
2.行比率、列比率、セル比率
クロス集計表は、対応するデータ数が記録されますが、次のように比率に書き直すこともできます。
上のように行方向を基準とした行比率、列方向を基準とした列比率、そして、総計を基準としたセル比率の3種類が考えられます。例えば、①のような行比率を考えると各満足度における退職率・在職率が表現できます。しかし、各項目のデータ数が不十分であるとき、比率が偏ってしまうことがあるので注意が必要です(例えば、不満が1人しかおらず、その社員が在職している場合、「不満と答えた社員の100%が在職である」という偏った結論を導く可能性があります)。
3.クロス集計の可視化
最後に、集計した表を可視化してみましょう。クロス集計表でよく使われるグラフは積み上げ棒グラフ(stacked bar graph)です。各項目におけるデータ数を棒グラフにし、色分けすることで内訳を表現しています。
また、各満足度における退職・在職率を表現したい場合は100%積み上げ棒グラフ(100% stacked bar graph)が有効です。
●和からのセミナー案内
集計やデータの可視化に関するスキルは自然に身に付くものではありません。和からでは、社会人のためのデータ集計・可視化、ピボットテーブルの使い方に関する講座をいくつか実施しております。興味のある方は是非一度無料講座へお越しください。
●参考文献
人文・社会科学の統計学 (基礎統計学) 東京大学教養学部統計学教室(編) 東京大学出版会
●和からのセミナー一覧はこちら
●お問い合わせフォームはこちら
<文/岡本健太郎>