マスログ

やさしく学ぶ統計学~2変数データの関係(応用編)~

公開日

2022年12月31日

更新日

2022年12月31日

みなさんこんにちは。和からの数学講師の伊藤です。以前のマスログでは、2変数データの関係性を表す指標として、共分散相関係数を紹介しました。手計算をするのはやや難しい指標ですが、今回はこういった指標をExcelで計算し、結果を読み取る流れをお見せしていきます。

1. 共分散・相関係数のまとめ

ここでは、共分散相関係数についておさらいします。詳細は下記の記事で紹介しています。

2変数データの関係【統計学をやさしく解説】

共分散は、値の正負を見ることで、データが上昇傾向(右肩上がりの傾向)にあるのか、下降傾向(右肩下がりの傾向)にあるのかを調べることができる指標でした。関係性を数値化できる点では有効な指標ですが、たとえばデータが大きな値をとるときには、必然的に共分散も大きな値をとるため、値の大小で関係性が強いか弱いかを判断することはできませんでした。

そこで、データの関係性の強さを把握しやすくするため、共分散の値を調整した指標が、相関係数と呼ばれるものです。相関係数は-1から1の間の値をとり、データ間の関係性をより把握しやすくなります。相関係数の計算は、平均値、共分散、標準偏差と、求める必要のある数値が多く手間がかかりますが、今回はExcelを使ってこれらの値を計算する方法をご紹介します。

2. 相関係数の計算

今回は、次のようなデータを考えましょう。日本の都市A、Bと南半球にある都市C、地球から遠く離れた惑星Xにおける、1月から12月までの月別平均気温のデータです。

このデータを使って、相関係数を計算していきます。Excelで相関係数を計算する際には、CORREL関数を使うのが一般的です。実際に都市Aと都市Bの気温の相関係数を計算すると、次のような結果になりました。

かなり1に近い結果となり、強い正の相関を持っていることが読み取れます。同様に、都市Aと南半球の都市Cとの相関、都市Aと惑星Xの相関を計算すると以下のようになりました。

都市Aと都市Cは強い負の相関を持っており、都市Aの気温が高い月は都市Cの気温が低いという傾向が見えました。

日本には四季があるので、気温が高い時期はどの地域でも基本的に気温が高く、相関係数にもそれが反映されています。一方、北半球と南半球は季節が逆転しているという話をよく聞きますが、都市Aと都市Cの相関係数にはその傾向が現れているようです。また、都市Aと、地球から遠く離れた惑星Xの気温との相関係数はほぼ0です。これは、それぞれの気温の間に関係性はほぼ見られないという結果になっています。

3. 相関関係と因果関係

今回のデータから、「都市Aの気温が高いと都市Bの気温も高い傾向にある」と結論付けました。しかし、これは「都市Aの気温が上がったから都市Bの気温が上がった」という結論とは異なります。

この「○○すると○○になる」という関係性のことは因果関係と呼び、相関関係と混同してしまう場合が非常に多いように思います。しかし、相関関係があるから因果関係がある、もしくは因果関係があるから相関関係があるという読み取りは基本的にはできません。

相関と因果を混同したニュースは、残念ながら日常生活にありふれている印象です。今回の記事を通して、ぜひ相関と因果の違いに注意して記事を見てみてください。

※和からでは、こういった偽の因果関係を暴く考え方を紹介するセミナーを用意しています。興味のある方は、ぜひこちらにもご参加ください!

とりあえず、因果推論って何?

データのウソを暴く考え方-因果推論とは?-

データ分析のための因果推論-効果測定編-

●和からのセミナー一覧はこちら
●お問い合わせフォームはこちら

<文/伊藤智也>


Excelでできるデータの集計・分析を極めるための本 森田 貢士(著) ソシム

新着記事

同じカテゴリーの新着記事

同じカテゴリーの人気記事

CONTACTお問い合わせ

個別講義や集団講義、また法人・団体向けの研修を行うスペース紹介です。遠人に在住の方や自宅で講義を受けたい方はオンライン講座をご用意しております。よくある質問はこちら