タイガーラック クリエイティブブログ
2025
October
30

ABテストのP値計算はどのAIがおすすめ?

弊社ではLPのABテストを頻繁に実施しており、テストの成果判断を統計で使われる「P値」を元におこなっています。

昔はExcelの関数を駆使してP値の計算をおこなっておりましたが、最近ではChatGPTをよく使っています。

例えばこのようにテキストで結果を送ると

以下のような答えが返ってきます。

複雑な計算はAIが自動でやってくれるので大変便利になりましたが、AIにはChatGPTだけでなくGeminiなど他のAIも存在します。

今回は、どのAIがP値の計算に向いているのか検証をしてみたので、その結果を紹介します。

ChatGPT (GPT-5)

先程スクショ付きで取り上げた通りの結果で、P = 0.018 と算出されました。

Grok (Grok 4)

こちらでも同じ質問を投げたところ、P = 0.035 と算出されました。

Gemini (2.5 Pro)

こちらでは P = 0.0041。
ChatGPT、Grokとは大きな差がありますね。

P値 計算用のWebツールで計算してみる

以前個人的によく使っていた以下のツールで計算してみます。
https://www.evanmiller.org/ab-testing/chi-squared.html

先程と同じデータ(successes値にはCVRから算出したCV数を入力)を入力してみると、こちらでは P = 0.0177と出ました。

まとめ

各AI、ツールで計算されたP値は以下のようになりました。

P値
ChatGPT0.018
Grok0.035
Gemini0.0041
Webの計算ツール0.0177

専用のP値計算ツールの答えを正とした場合、最も回答が近かったのは「Chat GPT」でした。

AIやモデルによって計算の精度が異なってくるので、業務にAIを使用する場合はこのあたりも踏まえたツール選定が今後大事になってくるのかなと思いました。

このカテゴリの最新記事

関連記事

SHOP LIST

タイガーラック株式会社

〒577-0056
大阪府東大阪市長堂1-3-14 TOKUYASU Bld.