まずはじめに、統計学って本当に必要なのかというところから始めていきたいと思います。
例えば、会社の月末会議で皆で問題点を共有して、次頑張ろう!という風にすれば難しい統計学なんか使わなくてもいい気がしますよね。
ただ、どんな会議を行われているかを見ていくと、例えば、1月売上がこのような形だったとします。
そして2月はまずまずだと。この結果を会議で皆で共有して3月は頑張りましょうとなるわけです。次に、3月の結果がどうなのかというと、頑張れば数字が伸びるわけです。
じゃあこのまま次の月も頑張りましょうとなるわけですが4月はどうなるかというとたいていこのような結果になります。
3月以上はいかなかったものの1月と2月よりは良いです。ちょっと停滞しているような感じですね。
じゃあ次こそ5月は頑張りましょうとなるわけなんですがこういったことをずっと続けていくとどうなるかというと、2年ぐらい続けていくとこうなってしまいました。これはよくある話なのですが、これを見ると上がったり下がったりを繰り返していてあまり平均は変わっていないわけです。
これを平均への回帰と言われる現象として知られています
これを最初に発見したのはフランシス・ゴルドンさんという方で、生物学者で遺伝の研究をしていました。
今日はこちらのデータを使っていきます。
これらのデータが何かというと左から順番に ID、満足度、他者評価といったいわゆる会社の人事データになります。
このデータを扱って実際の分析について説明をしていきます
では、データ分析とは何だったか、復習になりますがここでおさらいをしておくと、まず分析というのは4つのステップだったんですがその4つのステップに入る前に目的を決める必要があります。これを第0ステップと言うんですけど、この目的を決める動作が必要になってきます。
何を目的として分析するのか決まった上で4つのステップに入ります。1つ目がデータの要約。そしてデータの関係性を見て、予測をし、 その結果を検証するという4ステップです。その際に、非常に有効な考え方となるのが分解と統合の哲学というものです。
それでは実際にデータ分析を考えていきたいとおもいます。
扱うデータを考える上でまず第一に気になるのが、自分が扱うデータがどういった種類のものなのか、それを把握することが重要になります。
例えば、左の部分は全部数字で構成されていて、こういったものを量的データと言います。
それに対して、右側の部分というのは全部文字のデータであり、こういったデータのことを質的データと言います。
これらは、扱い方や、グラフ、可視化といった集計の仕方もかなり異なってくるのでまず自分が使うデータがどちらのデータなのかを把握することが大事になってきます。
相関係数に関する注意点をいくつか話をしようと思います
相関係数が0というのは非常に相関がないという意味なのですが、相関係数が0だからといってデータ間に関係がないというふうに言えるでしょうか。
これは実は誤りです。
例えばこういった散布図があったとしましょう。これらは非常に規則的ではあり円状に点が分布していて、規則が必ずありそうです。しかしこの散布図の相関係数は非常に0に近いです。
ここで注意して欲しいのが相関係数というのはあくまで直線的な関係性の強さを表しています。
それ以外の関係性を表す指標としては機能しないので、綺麗に並んでいる場合であっても直接的では全くないので相関係数0
というふうに計算されてしまいます。
演習問題6番
一体何をしているのかというと、問題の中では男性と女性の看護師の中で賃金の格差が存在すると報告されました。
本当に男性と女性の看護師の間で賃金格差があるのだろうかということを重回帰分析を使って分析してくださいという内容です。
これは非常に面白い問題で、要は性別にどれくらい関係しているのかということを見たいわけです。
まずは一緒にやってみましょう、男性看護師のデータをコピーして右側に貼り付けます。
名前も付け換えましょう、男性看護師というところを看護師給料というふうにしてあげて、この一番右側の部分を一つ項目増やし、
男性ダミーという名前をつけておきましょう。
この場合、今この表にある人は全員男性になります。
ということで、男性の場合1女性の場合0という風なダミー 変数 を使うということになります。