この記事は,Open and Reproducible Science Advent Calendar 2021の15日目の記事です(空いていたのでタイムリープして書きました)。いろんな人と話をしていると,p値を使って有意性検定をするときになぜサンプルサイズを事前に決めなきゃいけないのかがちゃんと周知されてないような気がしたので,この点について超簡単にまとめたいと思います。端的に言えば,「データの情報を使ってサンプルサイズを決めるのはまずい (ただし例外もなくはない)」「データを集め切る前に途中のデータを覗くことそれ自体は必ずしも問題にはならない(問題になる場合もある)」というのが結論です。詳しく知りたい人は統計学の教科書を読んでください(『心理学統計法 (放送大学教材 1638)』や『瀕死の統計学を救え!』などが分かりやすい)。
ここでは簡単のために1標本のt検定 (one-sample t-test) の例を挙げます。母集団の平均 (母平均) が0であるという帰無仮説 (μ = 0) を棄却したい場合を考えてみます。その場合の手続きは,ごく簡単に書けば以下のようになります。
1. 確率モデルを決める。(e.g., 母集団分布が正規分布に従う。)
2. 標本抽出分布 (sampling distribution; 標本分布と呼ばれることが多い) を導出し,棄却域を決める。(e.g., 自由度29のt分布の左側2.5%と右側2.5%。)
3. データを観測し,検定統計量の実現値 (定数) を計算して意思決定する。(e.g., 計算して得られたt = 5.62は棄却域に入っているので帰無仮説を棄却する。)
なお,ここで「データを取得」と言わずに「データを観測」と言っているのは既に収集済みのデータを使って検定を実施する場合もあり得るからです。分野によっては「データを取得」と読み替えても差し支えないと思います。分かりやすさのために,以下の説明では新規にデータを取得する場合を考えます。
ここで重要なのは,1と2の手続きは研究計画を立てた時点で(つまりデータを観測する前に)実施できるという点です。言い換えれば,データの情報を使わなくても(=データとは独立に)標本抽出分布と棄却域を決定することができます。頻度主義統計学では確率的に変動するのはデータだけなので,標本抽出分布それ自体と棄却域はデータとは無関係に1つに固定されていることが要求されます。
標本抽出分布は通常はサンプルサイズの関数であり,また棄却域を求めるためには帰無仮説と対立仮説 (両側か片側かを含む) と有意水準が定まっていないといけないので,2の手続きを実施するためにはサンプルサイズ・仮説・有意水準を決めておく必要があります。t検定の場合,サンプルサイズが決まらなければ自由度が決まりません。棄却域が仮説と有意水準に依存するのは統計学をちょっとでも学んだことのある人であれば理解は難しくないと思います。
ここで例えば,「データを1つずつ増やしてその都度検定を実施し,有意になった時点でデータの収集をやめる」という方略をとったとすると,(最終的な)サンプルサイズはデータの関数になってしまいます。その結果,サンプルサイズの関数である標本抽出分布もデータに依存してしまう (独立でなくなる) ことになってしまうので,普通は検定の前提が満たされなくなります。例えば,t検定の結果が有意になるまでデータを1つずつ増やし続けて最終的にN = 17で有意になったとします。このN = 17のデータに対するt検定で想定されている標本抽出分布は自由度16 (= 17-1) のt分布ですが,確率的な標本抽出を行う度に自由度も確率的に揺らいでしまうので (e.g., もう1回データを取ったら自由度が23とか14とかになり得る),この場合の自由度は定数ではなく確率変数です。したがって,本当の標本抽出分布は自由度の分布に依存するよく分からない分布になります (少なくともt分布にはなりません)。それにもかかわらず無理やりt分布を適用してしまうと,一般には有意水準αが想定よりも高くなり,不当に有意になりやすくなります。サンプルサイズの確率的な揺らぎを考慮して導出した標本抽出分布を使えばこの問題は理論上回避できますが,一般にはかなり難しいです。
一般に,サンプルサイズがデータに依存するような状況では標本抽出分布は想定通りにならないことが多いです。これこそが,データの情報を使ってサンプルサイズを決めてはいけない主な理由です。ときどき,検定の多重性が理由として挙げられることもありますが (i.e., データを増やす度に検定を実施すると何度も検定をすることになるので有意水準がインフレする;これは結局は標本抽出分布と棄却域の決定に関する問題と本質的に変わらない),先の説明で言う「データの情報」というのは検定結果だけを指すのではない点には留意が必要かもしれません。例えばデータを1つずつ増やしていき,その度に平均値を計算したり可視化したりして,目視で「そろそろ有意になりそうだな」と思ったタイミングでデータの収集を打ち切った場合でも,当然ながら標本抽出分布は歪みます (いつ打ち切るかがデータに依存するため)。途中で検定を実施するか否かにかかわらず,通常はサンプルサイズの決定にデータの情報を使ってはいけません。(ただし,先にも述べた通り,サンプルサイズの確率的な変動を考慮した標本抽出分布をきちんと導出することができるのであれば,サンプルサイズがデータに依存する状況でも適切に検定を行うことは可能です。例えば,表が5回出るまでコインを投げ続けて表が出る確率についての検定を行う場合には,コインを投げた回数(=サンプルサイズ)の標本抽出分布は負の二項分布という単純な分布になることが分かっているので簡単に検定できます。他にも,データを増やす度に有意水準を調整することで有意水準のインフレを防ぐ方法もあったりしますが,あまり現実的ではないように思います。)ちなみに,データを見てから対立仮説 (両側か片側か,片側ならどちらの向きにするか) を決めた場合は棄却域がデータの関数になってしまうのでこの場合も似たような問題が起こります。
では,データを集め切る前にデータを要約・可視化したり検定したりしてはいけないかというと,実はそうとも限りません。途中の結果がどうであっても最初に決めたサンプルサイズを遵守することを決めていれば,サンプルサイズはデータに依存しないはずなので,標本抽出分布が歪むこともありません。データを集め切る前に,データが問題なく収集できているかを確認したり,検定や可視化のためのプログラムをテストしたりすることは,それはそれで必要な場合も多々ありますので,「データを集め切るまで絶対に中身を見てはいけない!」と強迫的になる必要は必ずしもありません。ただし,途中でデータを見ることによって実験者や調査者の構えが変わり,仮説に合うような結果を誘導してしまうようなバイアス (いわゆる実験者効果とか要求特性) が生じ得る場合や無自覚にデータの情報を使ってしまい得る場合にはこの限りではありません。そのようなリスクがある場合には,データを集め切るまで絶対に覗かないと決めておくことも選択肢になり得るでしょう。
結局のところ,標本抽出分布を用いた検定のロジックをきちんと理解していれば,何が誤用で何が誤用でないかはすんなり分かるんじゃないかと個人的には思っています。特に標本抽出分布は伝統的な推測統計を理解する上で最も重要な考え方だと思うので,統計学をきちんと勉強したい人は何よりもまず標本抽出分布の理解に全力を尽くすのがいいと思います (それができれば,様々な検定や推定の方法を統一的に理解できるはず……)。


統計に関するあれやこれやを自由気ままに投稿します。
全記事一覧はこちらから。
2021年12月25日
10分ぐらいで分かる(?),有意性検定でサンプルサイズを事前に決めなければならない理由
posted by mutopsy at 12:21
| 統計