因果推論入門
近年、テクノロジーの発達によって大量のデータが取得・分析できるようになってきています。
また、知識があまりないユーザーでも手軽にデータの抽出・分析が行えるようなツールも数多く普及しています。
そのため、どのような分野においてもデータを「正しく」扱えることが必須のスキルとなってきています。
このような時代の中で、最近注目を集めている「因果推論」というものをご存知でしょうか?
因果推論とは、簡単に言うとある2つの事柄の間に「原因」と「結果」の関係が成り立っているか(因果関係)を推論する分野です。
これだけでは少しイメージが湧きにくいかもしれないので、具体的な例をご紹介しましょう。
例:TVCMを放映すると、ゲームアプリの利用時間は増えるのか?
例えば、ゲームアプリの利用時間を長くしてもらうためにTVCMを打ちたいということを考えるとしましょう。実際にTVCMを打ってデータから効果を検証したところ、以下のような結果が得られたとしましょう。
TVCMの放映 | 放映前のアプリ利用時間 | 放映後のアプリ利用時間 |
放映地域 | 2.0時間/日 | 4.0時間/日 |
非放映地域 | 2.5時間/日 | 3.5時間/日 |
この結果をもとに、上司に以下のような報告を行ったとします。
「TVCM放映地域ではアプリの利用時間が1日あたり2時間伸びたのに対し、非放映地域では1時間しか伸びていません。なので、TVCMの放映によって1時間アプリの利用時間が伸びました!👏」
さて、この分析は正しいものと言えるでしょうか?
少し考えていただければわかると思いますが、ツッコミがいくつかありそうですね。
「そもそも放映前のアプリの利用時間違うのに正しく結果が解釈できているのか?」
「TVCM無くても、若い人がゲームをアプリでやるようになっただけでは?」
「放映地域にたまたまゲームをやる人が多かった可能性は?」
などなど、単純にデータを見るだけでは解決できないような問題がたくさんあるわけですね。
今回はTVCMによるゲームアプリの利用時間への純効果を見たかったのに、他の様々な要因が絡んでしまっている可能性が否めないわけです。
こういうときに、力を発揮してくれるのが因果推論という分野になります。
これからは何回かに分けて、因果推論の様々な手法について簡単な例を交えながらご紹介していきたいと思います。