さて、それでは本編についていこうと思うんですが
統計学はなぜ使われるのか。
その必要性について最初にお話ししていきたいなと思ういます。
統計学はなぜ使われるのか。
その必要性について最初にお話ししていきたいなと思ういます。
よく企業さんに言われるのがこのあたりで
データをたくさんあるんですが
なかなかそれを生かしされていない
いろいろ原因はあります
なぜかというと一つ原因として考えられるのは
結局、感覚で判断を行っていると、、
宝の持ち腐れではないですが
定価を使わずに感覚で行っているいうのは
いつも現実に起きています
データっていうのはやっぱり客観的な判断をだしたい理由なので
そのために「統計学」と言われるものが必要となってきます
そのために「統計学」と言われるものが必要となってきます
では以前どういったことが、、、になっていたのか
いうとあの時代も変わりまして
例えば今から20年30年前っていうのは東京を使った
そういう分析をする専門家が別にいたんですね
大学にはコンピューターセンターがあったという風に
現在の根本的にデータの扱い方が変わってきました
例えば今から20年30年前っていうのは東京を使った
そういう分析をする専門家が別にいたんですね
大学にはコンピューターセンターがあったという風に
現在の根本的にデータの扱い方が変わってきました
今となっては大きなデータとか
高度な分析っていうのも個人で行えるようになってきた
高度な分析っていうのも個人で行えるようになってきた
というわけで非常にね
時代も変わりデータの使い方も変わってきたという
例えば、具体的に言いますと
「技術統計」「推測統計」や検定や開示分析、
機械学習いったところこういったところも
ある程度個人で扱える環境になってきたわけですが
ある程度個人で扱える環境になってきたわけですが
続いて「標準偏差」について簡単に説明します
これは何かというとデータの散らばり具合を図るものだと、、
ここに計算式が一応書いてはいるんですが
そんなにこの式が分からないという意味がないのか
と言うとそうでもないなって、、
イメージつかむほうが大事です
と言うとそうでもないなって、、
イメージつかむほうが大事です
一応、式の意味を押さえておくと
この()(カッコ)の中って何表しているか
この()(カッコ)の中って何表しているか
データーとこの見えるっての平均値のことをいいます
各データとその平均もズレることを表している
そのそれを2乗することによって
なぜ2乗するかというと
これ連れのまま足していくと
なぜ2乗するかというと
これ連れのまま足していくと
要は差し引きで
合計の値が来た高い方が悪いのか低いのが悪いのか
わかんなくなってくるんですよ
わかんなくなってくるんですよ
上下差にズレがちょうど同じくらいだったら
たしたら「0」になっちゃうんで
たしたら「0」になっちゃうんで
2乗することによってすべて正の値にします
なのでどれだけずれが大きいのかていうのを
これで測ることができると、、
これで測ることができると、、
最終的に平均するわけですよ
要は、ずれの大きさの平均の事を標準偏差というわけです
要は、ずれの大きさの平均の事を標準偏差というわけです
最終的にもう
平衡法とってあげて2乗っていうのを相殺するわけですが
大きさ的にちょっとも同じ大きさにするからです
大きさ的にちょっとも同じ大きさにするからです
っていうお話をしていきます
「サンプリング」ご存知でしょうか?
いろんなところで使われるんですが
何かしらの調査を行うときに
何かしらの調査を行うときに
「表範をとる」という操作がよく行われます。
まずちょっと話題としてお話ししたいのが
「勤労統計」に関する事件がありました
「勤労統計」に関する事件がありました
皆さん覚えていらっしゃいますでしょうか?
2018年末に
勤労統計の調査て全数調査じゃなくて標本調査が行われてしまったと
で、サンプリングデータの合計っていうの
全体の合計として計上ししまった
全体の合計として計上ししまった
これちょっとまだ内容についてお話ししていたんだけど
これ何がまずいのかわからないと
これ何がまずいのかわからないと
だからちょっと細かくいきましょう
そもそも、
この「全数調査」の「標本調査」とはなんだ
「標本調査」というのは
全体から何かサンプルをとってくるという調査で
全体から何かサンプルをとってくるという調査で
対して
「全数調査」は
そのまま通り全部をそのまま調べ上げるという調査です
例えば全体のものを
例えば、、、視聴率の調査のかそうですね
正式に実際の視聴率を把握するためには
本来、全世帯聞いて守らなきゃいけないんですが
実際そういうことはできないので
いくつかサンプルをとることによって
本来、全世帯聞いて守らなきゃいけないんですが
実際そういうことはできないので
いくつかサンプルをとることによって
その例えば1万円世帯に関して調査を行った結果視聴率20%でした
という風にサンプルからついて行うということを考えます
これが全数調査と標本調査です
それぞれメリット、デメリット となるんです
例えば「全数調査」
正確に把握できますね
もちろんそうです
それがで前途なんで
ただしコスト時間が非常にかかるわけです
もちろんそうです
それがで前途なんで
ただしコスト時間が非常にかかるわけです
実際に不可能の場合もあるので
続いて二変数の部分を見ていくと
質的データvs質的データ
質的データvs質的データ
これでよく使われるますっていうのが
こういった「積み上げ型棒グラフ」
こういった「積み上げ型棒グラフ」
あるいは100%積み上げ型棒グラフ
なんですねー
それぞれの「メリット」、「デメリット」もあるんですよ
例えばすべき棒クラブは大きさだをしているので
全体を大きさがわかりやすいですよ
全体を大きさがわかりやすいですよ
sno棒グラフは比率に重点を置いているわけです
それぞれ棒グラフにすると比率が低かったり
100%グラフになると全体の大きさ
がちょっと見にくかったりと、、
それぞれのどの部分に焦点を当てるかによって選ぶ
グラフを選んでください
続いて「実績データと量的データ」に関しよく使うのが
「折れ線グラフ」です
「折れ線グラフ」です
質的データというのはその方の項目の数を
表してます
各項目がどれくらいの数値
表してます
各項目がどれくらいの数値
例えば経緯
推しているのかというのは
この棒グラフで表現できたり
この棒グラフで表現できたり
レーダーチャートも項目ごとの大小が見やすいですよね
っていうのでよく使われます
どちらもですね
量の大きさっていうのが少し見づらいところがあります
量の大きさっていうのが少し見づらいところがあります