OptimizelyのFAQ

テストの実行時間

作成者: 株式会社ギャプライズ(Optimizely)|Jun 2, 2020 3:25:00 AM

Optimizely の統計エンジンでは、逐次テストと呼ばれる手法を使用することで、事前にサンプルサイズを計算する必要がなくなりました。この手法では、テストの実行時に証拠を収集して、有意な結果の決定と優勢および劣勢の表示を可能な限り迅速かつ正確に表示します。

目次

1.サンプルサイズの重要性
2.オンラインカリキュレーターを使用したサンプルサイズの計算
3.基準コンバージョン率
4.最小検出可能効果(MDE)
5.統計的有意水準
6.ユーザーにとって適切なリスクレベル
7.テストが有意に達しないのはなぜでしょうか
 

サンプルサイズの重要性

実験の実行時にサンプルサイズを計算する必要はありませんが、意思決定を行う際には適切なサンプルサイズを使用することが重要である理由を理解しておいてください。

正常なサンプルサイズは、正確な統計的結果と当社が統計エンジンを作成した理由の裏にある強力な動機の中心にあります。テストの特定のサンプルサイズのコンバージョン率が低い場合は、表示されている結果が偶然ではなく基準とバリエーション間の実際の相違によるものであることを結論付けるにはまだ十分な証明がないことを意味します。統計用語では、テストは検出力不足です。

次の表に、Optimizely のサンプルサイズカリキュレーター/統計エンジンに基づく、異なる基準コンバージョン率で各種改善レベル(コンバージョン率の相対的差異)を正確に検出するために必要な、推定サンプルサイズを示します。コンバージョン率で大きな差異を検出するために必要な訪問者は少数です。以下の各行を参照してください。

これは基準コンバージョン率の上昇においても同様です。基準コンバージョン率の上昇に伴い、改善の測定に必要なサンプルサイズは小さくなります。この仕組みについて理解するには、表の列を上から下に参照してください。

統計エンジンを使用すると、テストを実行する前に事前決定されたサンプルサイズにゆだねることなく、結果が発生したときにその結果を評価し、低検出力で検出力不足のサンプルサイズ(「弱い結論」)によるテストで意思決定を行わないようにすることができます。バリエーションを実装したときに、表示されているすべての改善が保持される可能性は低く、貴重なリソースを消費して何のメリットもないことに気づく可能性があるため、検出力不足のテストに基づいてビジネス決定を行わないようにする必要があります。

実験の実行中に、Optimizely には有意な結果に達するために必要な訪問者の推定数が表示されます。

バリエーションが、有意水準(デフォルトでは 90%)より高い統計的有意性に達すると、Optimizely はそのバリエーションを優勢または劣勢として宣言します。バリエーションが有意水準に達したら、テストを停止できます。

一部のバリエーションが有意水準に達しない場合は、有意水準に達するために必要な数の訪問者を待つことが可能かどうかを判断します。改善率を変更する場合は、以下に説明するサンプルサイズカリキュレーターを使用して、必要な訪問者数を計算します。

注:
高い改善率がみられるが、統計的有意性が 0 % となるのは、実験の検出力が低く、十分な数の訪問者がないためです。バリエーションにアクセスし、コンバージョンを行う訪問者が増えるに伴い、統計的有意性が向上します。これは、Optimizelyが、優勢と劣勢を宣言するための証拠を収集するためです。

統計エンジンを導入している場合でも、実験の計画とロードマップ作成を正確に行うため、実験にかかる時間を把握しておきたいことがあります。この記事では、その手順を説明します。

オンラインカリキュレーターを使用したサンプルサイズの計算

Optimizely のサンプルサイズカリキュレーターを使用して、コンバージョン率テストに必要なトラフィックを判別してください。

このカリキュレーターは 2 つの入力を取得し、統計上の目標を達成するために必要なオリジナルとバリエーションの両方のサンプルサイズを算出します。推奨される統計的有意水準を変更するオプションもあります。これは、Optimizely プロジェクトで選択した統計的有意水準を反映している必要があります。カリキュレーターで選択する値は、実験と目標に固有です。

カリキュレーターは次のようになります。コンバージョン率のテストにカリキュレーターを使用する場合の入力について、以下で詳しく説明します。

<サンプルサイズの計算が完了しました。ここで、テストの実行にかかる時間はどれくらいですか。>

これは簡単です。最後に、サンプルサイズを推定時間に変換します。サンプルサイズに、実験に含まれるバリエーションの数をかけます。これにより、必要な訪問者の合計数が算出されます。その合計数を、1 日あたりの平均訪問者数で割ると、テストの実行に必要な推定日数が算出されます。

注:
Optimizely の統計エンジンの導入により、サンプルサイズカリキュレーターを使用して実験の「停止ポイント」を算出する必要がなくなりました。現在では、サンプルサイズカリキュレーターは主に、テスト期間を事前に推定するために使用されます。また、従来の期間固定テストに対応したその他のカリキュレーターでは、 Optimizely のテスト期間を正しく推定できない点にも注意してください。

基準コンバージョン率

これは、テスト対象のページの現在のコンバージョン率(成功したアクションの数を、ページを閲覧した訪問者の数で割った割合)です。基準コンバージョン率は、Google Analytics などの分析プラットフォームで検出されたデータ、または以前の Optimizely 実験からのデータを使用して算出できます。以前の Optimizely 実験がない場合は、Optimizely で「モニターキャンペーン」を実行できます。これは、基準コンバージョン率の計算だけのためにオリジナルだけを含みバリエーションを含まない実験です。

最小検出可能効果(MDE)

これは考え方は単純ですが詳しい説明を必要とします。カリキュレーターを実際に操作してみると容易にわかりますので、この長い説明は省略できます。

基準コンバージョン率を入力したら、次に検出可能にするベースラインからの変化量(増加の大小)を決定します。大きな変化を検出するために必要なトラフィックは少なく、小さな変化を検出するために必要なトラフィックは増えます。Optimizely の結果ページとサンプルサイズカリキュレーターは、基準コンバージョン率に基づく相対的な変化を測定するように設定されています。

たとえば、基準コンバージョン率 20% と MDE 5% を使用するとします。

これらの入力値を使用したテストでは、バリエーションの基準となるコンバージョン率が実際には 19% または 21%(20% +/- (5% x 20%))である場合の 80% が検出されます。5% より小さい差異を検出しようとする場合、このテストでは検出力が低いと言われています。検出力とは、まったく差異がない状態と、検出する差異を区別できる能力です。検出力が低いテストを実行することは、バリエーションが実際に優勢または劣勢であるかを確実に宣言できないことと同じです。

注:
Optimizely の結果ページでは、効果または増加は改善として表示されます。これは常に絶対値ではなく相対値として示されます。

この 2 つの数値を入力すると、カリキュレーターはオリジナルとバリエーションに必要なサンプルサイズを示します。デフォルトではカリキュレーターはテストに対して推奨される統計的有意性レベルに設定されています。実験において適切なリスクレベルに基づいてこれらの入力を変更するオプションがあります。各オプションの詳細については、以下で説明します。

統計的有意水準

​​「実際に成功していないのに、テスト結果では成功となる可能性はどれくらいありま すか」という質問に対する統計的有意性の回答は、次のとおりです。一般的に、これは 95% の統計的有意性として論じられます。同じことを異なる言い方で言うと、5% の誤検知率を受け入れるということになり、結果は真にはなりません(100% - 5% = 95%)。この計算はデフォルトで 95% の統計的有意性になり、これが一般的なテス トの実行方法です。テストの統計的有意性のレベルを変更したい場合は、この入力を編集することができます。ホームページの [設定] タブから、Optimizely が成功または失敗を宣言するために使用する有意水準を変更することもできます。

 

注:
Optimizely では片側検定と両側検定のどちらが使用されますか?

 

A/B テストのコンテキストでは、片側検定ではバリエーションが「優勢」として特定できるかどうかが示され、両側検定では両方の方向の統計的有意性が検査されます。
Optimizely では以前、裏付けとなるビジネス結果を提供すると考えられていた片側検定を 使用していましたが、現在では、偽陽性率制御を使用してさらにこれを正確に解決します。

 

ユーザーにとって適切なリスクレベル

実験を実行する場合は、テストの迅速性と、結果の正確性が損なわれる(誤検知と検出漏れ)可能性を抑えることとのバランスを検討する必要があります。一般的に、テストは 95% の統計的有意性で実行されます。どの程度のリスクを許容するかに基づいて、このしきい値を調整することができます。

たとえば、統計的有意性に達するには実験に大きなサンプルサイズが必要だが、次の 2 週間でビジネス決定を行う必要があるというシナリオを考えてみます。トラフィックレベルから考えると、この期間内に統計的有意性に達する可能性は低くなります。どうしたらよいでしょうか。組織で誤検知(誤って「成功」と呼ばれる)の影響は低いと感じられる場合は、統計的有意性を小さくして、より迅速に決定結果を確認することができます。

1 日の最後に、実験に基づいて時間的制約のあるビジネス決定を行う場合は、正確なデータと利用可能なデータとのバランスに注意する必要があります。

テストが有意に達しないのはなぜでしょうか

一般的に、差が小さいほど検出に時間がかかります。Optimizely がコンバージョンパターンのランダム変化ではなく、実際の統計的に有意な差を観測したことを確認するには、より多くのデータが必要であるためです。

テストの実行にかなりの時間がかかっており、有意に達するのにさらに多くのユニークビジター数が必要であることがわかっている場合、これは、Optimizely が点在データ、つまり長時間不安定で不整合なコンバージョンを観察していることが原因である可能性があります。データの変動性が高い場合、統計エンジンは、有意性を示すまでに、より多くのデータを必要とします。

(ビデオ再生やメール登録数などの)インパルス主導の目標を測定している場合、訪問者の行動は不安定になり、多数の小さなインパルスで簡単に影響を受ける傾向があるため、データはより散在しがちです。ただし、(高価格の購入などの)慎重に検討された決定を含む目標を測定している場合は、より安定した変動の少ないデータが表示されます。Optimizely の統計エンジンは、自動的に変動性を計算し、必要に応じて調整します。

データの変動性の例については、以下を参照してください。

変動性の低いデータ:青い線は、基準コンバージョン率が 3.2% から 4.8% まで変化するデータセットを示しています。バリエーションでこの指標が 5% に上がった場合、これは有意であると言うことができます。

変動性の高いデータ:緑の線は、基準コンバージョン率が 2% から 6% の間で変化するデータセットを示しています。バリエーションでこの指標が 5% に上がった場合、5% は基準コンバージョンの範囲内であるため、結果を有意であると呼ぶには追加のデータが必要です。