実験が実行されている間は常にコンバージョンデータが収集されており、同じ期間の制御グループのコンバージョンと比較されます。実験の途中で変更が加えられると、その変更の効果はその時点からしか測定することができません。
何が問題なのでしょうか。加えた変更によりコンバージョンが 5% 改善したとします。この変化に注目し、そのバリエーションに同じ効果を与えるように「思える」他の変更を加えることにします。
すると、コンバージョン率は制御グループと同じところまで落ちてしまいます。こうなると、コンバージョン率が落ちたのは変更を加えたからなのか、元の変更が最初の数字で表されていたほどには実際にはうまくいっていなかったからなのか分からなくなってしまいます。
仮にコンバージョン率が制御グループと同じところまでは落ちなかったが、2% 落ちたとします。この場合も何が原因で落ちたのか分かりませんが、全体としては改善されています。とはいえ、2 つ目の変更が実際にはコンバージョン率にマイナスの影響を与えているのに、最初の変更のプラスの効果により打ち消されてしまったのかもしれません。
別の変更を加えたい場合、既存の実験を一時停止して、新しい実験を開始することをお勧めします。そうすれば、どちらの変更からのデータの質も落とさずにすみます。既存の実験と同じような新しい実験を実行したい場合、実験を複製することもできます。結果は複製されません。
バリエーションを一時停止しようとしているなら、その決定を最終的なものとし、実行中のバリエーションと比較するために後でその情報を使用しないようにもお勧めします。すべてのバリエーションに影響を与えるイベントがない場合、変更は一時停止されたバリエーションには反映されません。
これらのベストプラクティスは Optimizely とすべてのA/Bテストツールに適用されます。