AIの数値レポート信用度評価：+1.4万pt→-3千ptまでの修正で見えた検証の作法

AIに「ログから効果シミュレーション結果を集計して」と頼んだら、+1万4000pt という景気のいい数字が返ってきました（pt は効果量を表す抽象的なスコア単位です）。

念のため検証したら、架空の確定値でログ書き出し されている疑惑、重複計上 の疑惑、部分確定の二重カウント が次々判明。最終的な保守的推定は -3000pt〜-5000pt。

プラス1.4万pt → マイナス3000pt。AIの数値レポートを鵜呑みにすると、意思決定を1.7万pt分間違えます。本記事は、AI出力の数値検証で実際に使った作法のまとめです。

発端：「集計して」と頼んだだけだった

データ処理パイプラインのDry-Run結果が複数のログに分散していました。AIに以下を頼みました。

1
ユーザー: 直近1ヶ月のDry-Run効果シミュレーション結果を、
2
        ログから集計して合計値を出して

AIは20個ほどのログファイルを読んで、以下のレポートを返しました。

1
集計結果（楽観値）:
2
- パイプラインA: +1万9500pt
3
- パイプラインB-Pre: -2500pt
4
- パイプラインB-Pre-T8: -1900pt
5
合計: +1万4100pt
6

7
✅ 施策群は有効性を確認できました

「✅」マークと断言調が気になりました。

検証ステップ1: ログ取得経路の信頼度

最初に確認したのは「ログがどう生成されているか」。AIに尋ねました。

1
ユーザー: パイプラインAの「+1.95万pt」の元になっているログは
2
        どのプロセスがどう書き出している?

AIの追加調査で判明したこと。

パイプラインAは 外部APIからリアルタイム値の取得 が必要
しかし、その API の有料プラン（Lv1）が未購入
リアルタイム取得失敗時、フォールバックで「過去の確定値をそのままログ書き出し」 していた
つまり、ログの「+1.95万pt」は 実際の最新値を反映していない架空の数字

⚠️ 集計の元データが「架空の確定値」だったら、合計値は意味がない

検証ステップ2: 重複計上の疑惑

次に確認したのは「ログ間で同じデータが重複していないか」。

1
ユーザー: パイプラインB-Pre と B-Pre-T8 のログ、
2
        対象期間と対象データセットを比較して

調査結果。

B-Pre: 2026-03-15〜04-15 の Dry-Run ログ
B-Pre-T8: 同じ期間・同じデータセット の Dry-Run ログ（テスト施策版）

つまり、両方を合計すると同じレコードが2回カウント されていました。-2500pt + -1900pt = -4400pt ではなく、実態は -2500pt のみ。

検証ステップ3: 部分確定の二重カウント

最後に、ログの個別レコードを確認しました。

1
ユーザー: 「完了[OK]」ログと「record_exit 失敗」ログの整合性は?

調査結果。

「部分確定 value=+xxx」が記録されている
しかし、その後の record_exit 失敗 で クローズ処理が完了していない ケースが多数
「部分確定 value」だけ集計対象に入り、最終のマイナス分が集計対象外になっていた

これはプラス側のみカウント、マイナス側はカウント外という構造的バイアスでした。

修正後の保守的推定

3つの検証ステップを経て、保守的推定を再計算しました。

項目	楽観値	保守値	修正理由
パイプラインA	+1.95万pt	±0	架空の確定値、信頼不能のため除外
パイプラインB-Pre	-2500pt	-2500pt	そのまま
パイプラインB-Pre-T8	-1900pt	0	B-Pre と重複計上のため除外
部分確定の二重カウント	（加算側のみ）	-1000pt〜-3000pt	失敗クローズの逸失
合計	+1.4万pt	-3000pt 〜 -5000pt	-

プラス1.4万ptからマイナス3000ptへの修正。差は1.7万pt。

もし最初の楽観値で「施策群は有効性あり」と判断していたら、誤った意思決定に直結していました。

AI出力の数値検証 4作法

この経験から、AI が出した数値レポートを検証する4つの作法を抽出しました。

作法1: ログ取得経路の信頼度を必ず確認

「そのログは何のプロセスが、どんな条件で書き出しているか」を必ず追跡。フォールバック処理・モック値・テストデータが混入していないか。

作法2: 期間・データセットの重複チェック

複数ログを合算する場合、対象期間と対象データセットが排他か を必ず確認。「Pre」「Pre-T8」のような名前違いで実は同じデータの可能性。

作法3: プラスとマイナスの非対称性を疑う

「プラスのレコードだけ完全に記録され、マイナスのレコードが欠損している」というバイアスは、データパイプラインで起きやすいものです。集計合計が想定より楽観的 な場合は、片側カウントを疑います。

作法4: 「✅」の断言調を信じない

AIは「✅ 有効性確認」「結論：問題なし」のような断言を出しがち。断言の言葉ほど検証スイッチを入れます。

チェックリスト：AI数値レポートの検証

意思決定に使う前に以下を確認します。

ログ生成プロセスは把握できているか
フォールバック・モック値混入の可能性をチェックしたか
複数ログを合算する場合、期間・データセットの重複を確認したか
プラス/マイナスの非対称性（片側カウント）を確認したか
サンプリング1〜3件を手作業で検算したか
楽観値だけでなく保守値も提示させたか

6項目とも YES になるまで、その数字で判断しません。

AIに「保守値も出して」と頼む

最後に重要なテクニック。AIに集計を頼むときは、最初から楽観値+保守値+留保事項の3点セット を要求します。

1
ユーザー: 集計してください。出力フォーマットは:
2
  - 楽観値（前提を最大限信用した場合）
3
  - 保守値（疑わしい前提を全て除外した場合）
4
  - 留保事項（信頼度が低いデータの一覧）

これだけで、AIは検証スイッチを入れた状態で集計してくれます。

まとめ

AI数値レポートで楽観値+1.4万pt→保守値-3000ptの修正があった
検証4作法: ログ取得経路 / 重複 / 非対称性 / 断言調
意思決定前のチェックリスト6項目
集計依頼時は「楽観値+保守値+留保事項」3点セット

AIが綺麗な数字を出してきたときが、一番危ない。検証作法を内在化することで、意思決定の品質が大きく変わります。