因果推論と機械学習の融合 前編
公開日
2020年9月18日
更新日
2020年9月18日
皆さんこんにちは。和からの数学・統計講師の川原です。本日は因果推論の新しい流れについて皆さまにご紹介します。
因果推論とはデータから現象間の因果関係を明らかにしようとする統計学の一分野です。この分野に比較的最近機械学習の手法が融合されるようになってきました。因果推論とは現象の構造を明らかにしようとする統計手法であり、機械学習は予測に特化した手法です。これらは得意とする分野が異なり別々に発展してきたものですが、この2つが融合するとはどういうことでしょうか。この分野を2回に分けて皆様にご紹介したいと思いますが、今回はまず因果とは何か、因果推論の難しさについてお話いたします。
この記事の主な内容
因果とは
因果とは何か、を定量的に定義するのはとても難しいのですが、ここをしっかりと決めておかないと話が進まないので具体的な例をもとに考えてみます。
ある企業がダイエットサプリを開発しました。このサプリを飲むと体重が減るということを示したいのですがどのようなデータを取ればよいでしょうか。
ここでサプリの効果を何とかして数値化してみましょう。サプリを飲むと体重が減るかどうかを知りたいわけですから次のように定義してみましょう。
これはサプリを飲んだ時とサプリを飲まなかった時の体重を比較することによってサプリの因果効果を表そうとしています。サプリの効果があるならば上の値はマイナスの値になりそうですし、効果がないならば上の値は0に近い値になりそうです。これは感覚的に理解しやすいと思います。しかし実は上の方法で因果効果を把握することは不可能なのです。
個人への因果効果の観測の難しさ
なぜ上記の方法で因果効果を把握することが不可能なのか。それはサプリを飲んだ時の体重とサプリを飲んでいないときの体重を同時に観測することができないからです。
例えばAさんがサプリを飲んだ場合、Aさんがサプリを飲んだ時の体重は観測されますが、サプリを飲まなかった時の体重は観測できません。
逆にAさんがサプリを飲まなかった時は、飲まなかった時の体重は観測されますが、サプリを飲んだ時の体重は観測できません。
このように言うと、Aさんはサプリを飲まずにおいてまず体重を観測し、そのあとにサプリを飲んで体重を観測すればいいじゃないか、と思うかもしれませんが、この方法だと最初にサプリを飲まなかった時点とサプリを飲んだ時点でのAさんはまったくの同じ状況ではないはずですから、この方法で取得したデータは比較することができません。
つまり、サプリを飲んだ時の体重とサプリを飲まなかった時の体重はどちらか一方のみが観測され、パラレルワールドを行き来できない限り両方を観測することはできません。つまり上の式でAさんに対するサプリの効果を測ることは不可能ということになります。これを因果推論の根本的問題といいます。
個人の効果ではなく集団の効果
上記の通りAさん個人への因果効果を測ることは大変難しいことが分かりました。そこで統計学は、個人ではなく集団の因果効果を考えようという解決策にたどり着きました。Aさんだけではなく、BさんCさんと、たくさんの人のデータを集めてサプリを飲んだ集団と飲まなかった集団を作成し、その集団同士を比較することによって、集団に対する平均的な因果効果を求めようという試みです。
このアイデアに基づいていろいろな手法が生まれてきたのですがいずれも集団の平均的な因果効果を推定するものであり、個人の因果効果を明らかにすることはできませんでした。しかし、大量のデータを扱えるようになった現代社会では、限られた資源の中で施策の効果を最大化することが求められており、
・どの顧客にクーポンメールを送るべきなのか(メールの効果が高いのは誰か)
・ある患者さんにはどんな治療法が最も効果的なのか
など個人への因果効果を把握することが様々な分野で求められてきています。そこでこの問題を解決するために機械学習手法が取り入れられてきました。予測を得意とする機械学習がこの個人の因果効果とどのようにつながるのか。次回はこの点についてみていきたいと思います。
機械学習と融合してさらに因果推論は発展していきます。この分野に興味がある方、この機会に因果推論を勉強してみませんか?ご興味のある方はぜひ下記無料のセミナーにお越しください。