ABテストのP値計算はどのAIがおすすめ?
弊社ではLPのABテストを頻繁に実施しており、テストの成果判断を統計で使われる「P値」を元におこなっています。
昔はExcelの関数を駆使してP値の計算をおこなっておりましたが、最近ではChatGPTをよく使っています。
例えばこのようにテキストで結果を送ると

以下のような答えが返ってきます。

複雑な計算はAIが自動でやってくれるので大変便利になりましたが、AIにはChatGPTだけでなくGeminiなど他のAIも存在します。
今回は、どのAIがP値の計算に向いているのか検証をしてみたので、その結果を紹介します。
ChatGPT (GPT-5)
先程スクショ付きで取り上げた通りの結果で、P = 0.018 と算出されました。
Grok (Grok 4)
こちらでも同じ質問を投げたところ、P = 0.035 と算出されました。

Gemini (2.5 Pro)
こちらでは P = 0.0041。
ChatGPT、Grokとは大きな差がありますね。

P値 計算用のWebツールで計算してみる
以前個人的によく使っていた以下のツールで計算してみます。
https://www.evanmiller.org/ab-testing/chi-squared.html

先程と同じデータ(successes値にはCVRから算出したCV数を入力)を入力してみると、こちらでは P = 0.0177と出ました。
まとめ
各AI、ツールで計算されたP値は以下のようになりました。

| P値 | |
| ChatGPT | 0.018 |
| Grok | 0.035 |
| Gemini | 0.0041 |
| Webの計算ツール | 0.0177 |
専用のP値計算ツールの答えを正とした場合、最も回答が近かったのは「Chat GPT」でした。
AIやモデルによって計算の精度が異なってくるので、業務にAIを使用する場合はこのあたりも踏まえたツール選定が今後大事になってくるのかなと思いました。
このカテゴリの最新記事
2025.03.16
2023.11.09
2025.05.22
2023.11.28