はじめての統計学~データの集計について~
公開日
2022年1月23日
更新日
2022年1月23日
こんにちは。和からの数学講師の岡本です。現在世の中は、「情報化社会」「データの時代」、「DX時代」などと言われています。つまり、様々なデータや情報を適切に読み解き、活用することが重要であり、実際に「データを活用できる」というスキルは特に価値があるものとされています。今回はデータを扱う前段階として、「データの集計」に関する内容を簡単に解説していきたいと思います。
この記事の主な内容
1.データの集計
以下のような社内データを見てみましょう。
記入された情報を、担当者がとりあえず集計してみたという感じですが、これだとちょっと扱いづらいですよね。実際にこのように読み取りづらい、扱いづらい集計表は世の中にあふれており、データを活用する以前の問題が生じてしまっているのです。
2.極端な数値
まず気になるのは極端な値です。例えば、勤続年数でマイナスの値があったり、150年働いている強者や4歳の社員もいらっしゃいます…。通勤時間も15時間というデータがありますが、これはもしかすると15分の間違いかもしれません。
データを扱う際には、こうしたとびぬけた値の確認は早めに行いましょう。なお、今回のデータにはこうした「へんてこな値」に気づきにくいものがあります。お気づきでしょうか?それはID番号32243の勤続年数と年齢です。
18年も働いているのに、現在23歳。これはおかしいですね。ただ23歳の方は他にもいるので、極端な値ではないものの、勤続年数か年齢少なくとも1か所は入力ミスの可能性があります。今回のデータ異常に気付くには、例えば「年齢の値―金属年数=入社時年齢」という項目を加えておくと便利です。
3.表記ブレ
次に気になるのは表記ブレでしょうか。例えば、通勤時間においては「1時間20分」と「80分」は同じですが、集計表内で表現が違っています。また、単位に「min」を使っている人もいます。統一的に扱いづらいので、単位をそろえてあげましょう。例えば全て単位を「分」にし、表内には数値のみを記すことにしましょう。
表の中を数値にすることで、合計や平均などの計算を行いやすくなります。なお、細かい話ですが、コンピュータにデータを入力するとき、全角と半角の違いでエラーを起こしてしまう可能性があるので、こうした表記ブレも修正しておきましょう。
4.集約された項目
続いて、「進行中のプロジェクト」についてですが、こちらも表記ブレが起こっています。しかもプロジェクトにはA, B, Cのタイプのものが複数あり、同時に担当している方もいます。こうしたタイプの集計は項目としてA, B, Cの3つを作りそれぞれのプロジェクトを何個担当しているのかという集計表に書き換えておくと扱いやすくなります。
こうして、扱いやすい集計表に近づけていくことで、データの要約や傾向、性質をつかむ準備が整います!
●和からのセミナー案内
集計やデータの活用に関するスキルは自然に身に付くものではありません。和からでは、社会人のためのデータ集計・利活用の講座をいくつか実施しております。興味のある方は是非一度無料講座へお越しください。
●参考文献
人文・社会科学の統計学 (基礎統計学) 東京大学教養学部統計学教室(編) 東京大学出版会
●和からのセミナー一覧はこちら
●お問い合わせフォームはこちら
<文/岡本健太郎>