統計検定に関する事柄を忘れないようにまとめます.

F分布 (F distribution) は統計学で用いられる数ある確率分布の中でも最も重要な部類に属する分布である.分布名の F は統計学の父,イギリスの統計学者フィッシャー Ronald Aylmer Fisher に因んでいる.本分布は分散分析や標本間の等分散性の検定等に利用される.パラメーターは自由度 k1 および k2 であり,F分布は F(k1, k2) にて略記される.自由度はともに正の整数である.F分布に従う確率変数は以下の確率変数Xである.この確率変数Xはフィッシャーの分散比とよばれるものであり,X ではなく F で表される場合も多い.

\begin{eqnarray*}X=\frac{U_1/k_1}{U_2/k_2}\tag{1}\end{eqnarray*}

ここで,U1およびU2は次の3つの条件を満たす確率変数である.ひとつ目はそれぞれの確率変数が互いに独立であることであり,二つ目は,U1は自由度k1のカイ二乗分布に従うこと,最後は,U2が自由度k2のカイ二乗分布に従うことである.

\begin{eqnarray*}U_1\sim \chi^2(k_1)\tag{2}\end{eqnarray*}
\begin{eqnarray*}U_2\sim \chi^2(k_2)\tag{3}\end{eqnarray*}

F分布の確率密度関数は以下で与えられる.式中の Γ および B はそれぞれガンマ関数およびベータ関数である.

\begin{eqnarray*}f(x)&=&\Gamma\left(\frac{k_1+k_2}{2}\right)\left[\Gamma\left(\frac{k_1}{2}\right)\right]^{-1}\left[\Gamma\left(\frac{k_2}{2}\right)\right]^{-1}\left(\frac{k_1}{k_2}\right)^{\frac{k_1}{2}}\left(1+\frac{k_1}{k_2}x\right)^{-\frac{k_1+k_2}{2}}x^{\frac{k_1-2}{2}}\\&=&\left[B\left(\displaystyle \frac{k_1}{2},\frac{k_2}{2}\right)\right]^{-1}\left(\frac{k_1}{k_2}\right)^{\frac{k_1}{2}}\left(1+\frac{k_1}{k_2}x\right)^{-\frac{k_1+k_2}{2}}x^{\frac{k_1-2}{2}}\tag{4}\end{eqnarray*}

確率変数Xの範囲は以下で与えられる範囲である.

\begin{eqnarray*}0\leq X < \infty\tag{5}\end{eqnarray*}

モーメント母関数は存在しない.期待値は k2>2 の範囲において以下で与えられる.

\begin{eqnarray*}E(X)=\frac{k_2}{k_2-2}\ \ \ \ (k_2>2)\tag{6}\end{eqnarray*}

分散は k2>4 の範囲において以下の式で与えられる.

\begin{eqnarray*}V(X)=\frac{2k_2^2(k_1+k_2-2)}{k_1(k_2-2)^2(k_2-4)}\ \ \ \ (k_2>4)\tag{7}\end{eqnarray*}

期待値および分散の導出

期待値は定義式を用いて以下のように求める.実際行っている計算は単なるベータ関数の変数変換である.

\begin{eqnarray*}E(X)&=&\int_{-\infty}^{\infty}xf(x)dx\\&=&\int_{0}^{\infty}xf(x)dx\\&=&\int_{0}^{\infty}x\left[B\left(\displaystyle \frac{k_1}{2},\frac{k_2}{2}\right)\right]^{-1}\left(\frac{k_1}{k_2}\right)^{\frac{k_1}{2}}\left(1+\frac{k_1}{k_2}x\right)^{-\frac{k_1+k_2}{2}}x^{\frac{k_1-2}{2}}dx\\&=&\left[B\left(\displaystyle \frac{k_1}{2},\frac{k_2}{2}\right)\right]^{-1}\left(\frac{k_1}{k_2}\right)^{\frac{k_1}{2}}\int_{0}^{\infty}\left(1+\frac{k_1}{k_2}x\right)^{-\frac{k_1+k_2}{2}}x^{\frac{k_1}{2}}dx\tag{8}\end{eqnarray*}

ここで,以下の変数変換を行う.

\begin{eqnarray*}t=\frac{k_1}{k_2}x\tag{9}\end{eqnarray*}

これはすなわち以下の式も同時に意味する.

\begin{eqnarray*}x=\frac{k_2}{k_1}t\tag{10}\end{eqnarray*}

以上の変換式を用いて上式は以下のように変形される.

\begin{eqnarray*}E(X)&=&\left[B\left(\displaystyle \frac{k_1}{2},\frac{k_2}{2}\right)\right]^{-1}\left(\frac{k_1}{k_2}\right)^{\frac{k_1}{2}}\int_{0}^{\infty}(1+t)^{-\frac{k_1+k_2}{2}}\left(\frac{k_2}{k_1}\right)^\frac{k_1}{2}t^{\frac{k_1}{2}}\frac{k_2}{k_1}dt\\&=&\frac{k_2}{k_1}\left[B\left(\displaystyle \frac{k_1}{2},\frac{k_2}{2}\right)\right]^{-1}\int_{0}^{\infty}t^{\left[\left(\frac{k_1}{2}+1\right)-1\right]}(1+t)^{-\left[\left(\frac{k_1}{2}+1\right)+\left(\frac{k_2}{2}-1\right)\right]}dt\tag{11}\end{eqnarray*}

ここで,ベータ関数の定義式を考える.ベータ関数の定義式 (いくつかある定義式の中のひとつ) は以下となる.

\begin{eqnarray*}B(a,b)=\int_{0}^{\infty}t^{a-1}(1+t)^{-(a+b)}dt\tag{12}\end{eqnarray*}

したがって,この定義式を用いることで上の途中式は以下のように変形される.ベータ関数の変数は正の実数であるので,以下の式が成り立つのは k2>2 の範囲となる.

\begin{eqnarray*}E(X)=\frac{k_2}{k_1}\left[B\left(\displaystyle \frac{k_1}{2},\frac{k_2}{2}\right)\right]^{-1}B\left(\frac{k_1}{2}+1,\frac{k_2}{2}-1\right)\tag{13}\end{eqnarray*}

次にベータ関数の変換公式を用いて上式を変換する.ベータ関数の変換公式とは以下のようなものである.

\begin{eqnarray*}B(a+1,b)=\frac{a}{a+b}B(a,b)\tag{14}\end{eqnarray*}
\begin{eqnarray*}B(a,b)=\frac{a+b}{b}B(a,b+1)\tag{15}\end{eqnarray*}

以上の変換公式を用いることで,上式は以下のように変形され期待値が求まる.

\begin{eqnarray*}E(X)&=&\frac{k_2}{k_1}\left[B\left(\displaystyle \frac{k_1}{2},\frac{k_2}{2}\right)\right]^{-1}B\left(\frac{k_1}{2}+1,\frac{k_2}{2}-1\right)\\&=&\frac{k_2}{k_1}\left[B\left(\displaystyle \frac{k_1}{2},\frac{k_2}{2}\right)\right]^{-1}\frac{k_1}{k_1+k_2-2}B\left(\frac{k_1}{2},\frac{k_2}{2}-1\right)\\&=&\frac{k_2}{k_1}\left[B\left(\displaystyle \frac{k_1}{2},\frac{k_2}{2}\right)\right]^{-1}\frac{k_1}{k_1+k_2-2}\frac{k_1+k_2-2}{k_2-2}B\left(\frac{k_1}{2},\frac{k_2}{2}\right)\\&=&\frac{k_2}{k_2-2}\ \ \ \ (k_2>2)\tag{16}\end{eqnarray*}

分散は,分散と期待値の間で成り立つ以下の関係式を用いて求める.

\begin{eqnarray*}V(X)=E(X^2)-[E(X)]^2\tag{17}\end{eqnarray*}

まず,原点まわりの2次のモーメント E(X2) を以下のように計算する.

\begin{eqnarray*}E(X^2)&=&\int_{-\infty}^{\infty}x^2f(x)dx\\&=&\int_{0}^{\infty}x^2f(x)dx\\&=&\int_{0}^{\infty}x^2\left[B\left(\displaystyle \frac{k_1}{2},\frac{k_2}{2}\right)\right]^{-1}\left(\frac{k_1}{k_2}\right)^{\frac{k_1}{2}}\left(1+\frac{k_1}{k_2}x\right)^{-\frac{k_1+k_2}{2}}x^{\frac{k_1-2}{2}}dx\\&=&\left[B\left(\displaystyle \frac{k_1}{2},\frac{k_2}{2}\right)\right]^{-1}\left(\frac{k_1}{k_2}\right)^{\frac{k_1}{2}}\int_{0}^{\infty}\left(1+\frac{k_1}{k_2}x\right)^{-\frac{k_1+k_2}{2}}x^{\frac{k_1}{2}+1}dx\tag{18}\end{eqnarray*}

ここで,期待値の場合と同様に以下の置換式を導入する.

\begin{eqnarray*}t=\frac{k_1}{k_2}x\tag{19}\end{eqnarray*}

上の式を代入することで上式の以下のように変形される.また,この場合も期待値の場合と同様にベータ関数の変換公式を合計4回用いる.

\begin{eqnarray*}(上式)&=&\left[B\left(\displaystyle \frac{k_1}{2},\frac{k_2}{2}\right)\right]^{-1}\left(\frac{k_1}{k_2}\right)^{\frac{k_1}{2}}\int_{0}^{\infty}(1+t)^{-\frac{k_1+k_2}{2}}\left(\frac{k_2}{k_1}\right)^\frac{k_1}{2}t^{\left(\frac{k_1}{2}+1\right)}\frac{k_2}{k_1}dt\\&=&\left(\frac{k_2}{k_1}\right)^2\left[B\left(\displaystyle \frac{k_1}{2},\frac{k_2}{2}\right)\right]^{-1}\int_{0}^{\infty}t^{\left[\left(\frac{k_1}{2}+2\right)-1\right]}(1+t)^{-\left[\left(\frac{k_1}{2}+2\right)+\left(\frac{k_2}{2}-2\right)\right]}dt\\&=&\left(\frac{k_2}{k_1}\right)^2\left[B\left(\displaystyle \frac{k_1}{2},\frac{k_2}{2}\right)\right]^{-1}B\left(\frac{k_1}{2}+2,\frac{k_2}{2}-2\right)\ \ \ \ (k_2>4)\\&=&\left(\frac{k_2}{k_1}\right)^2\left[B\left(\displaystyle \frac{k_1}{2},\frac{k_2}{2}\right)\right]^{-1}\frac{k_1+2}{k_1+k_2-2}B\left(\frac{k_1}{2}+1,\frac{k_2}{2}-2\right)\\&=&\left(\frac{k_2}{k_1}\right)^2\left[B\left(\displaystyle \frac{k_1}{2},\frac{k_2}{2}\right)\right]^{-1}\frac{k_1+2}{k_1+k_2-2}\frac{k_1}{k_1+k_2-4}B\left(\frac{k_1}{2},\frac{k_2}{2}-2\right)\\&=&\left(\frac{k_2}{k_1}\right)^2\left[B\left(\displaystyle \frac{k_1}{2},\frac{k_2}{2}\right)\right]^{-1}\frac{k_1+2}{k_1+k_2-2}\frac{k_1}{k_1+k_2-4}\frac{k_1+k_2-4}{k_2-4}B\left(\frac{k_1}{2},\frac{k_2}{2}-1\right)\\&=&\left(\frac{k_2}{k_1}\right)^2\left[B\left(\displaystyle \frac{k_1}{2},\frac{k_2}{2}\right)\right]^{-1}\frac{k_1+2}{k_1+k_2-2}\frac{k_1}{k_2-4}\frac{k_1+k_2-2}{k_2-2}B\left(\frac{k_1}{2},\frac{k_2}{2}\right)\\&=&\frac{k_2^2(k_1+2)}{k_1(k_2-2)(k_2-4)} \tag{20}\end{eqnarray*}

ベータ関数の変数は正の実数であるので,以上の式が成り立つのは k2>4 の範囲となる.このように求めた2次のモーメント E(X2) と期待値 E(X) の値を用いて分散は以下のように求める.

\begin{eqnarray*}V(X)&=&E(X^2)-[E(X)]^2\\&=&\frac{k_2^2(k_1+2)}{k_1(k_2-2)(k_2-4)}-\left(\frac{k_2}{k_2-2}\right)^2\\&=&\frac{2k_2^2(k_1+k_2-2)}{k_1(k_2-2)^2(k_2-4)}\ \ \ \ (k_2>4)\tag{21}\end{eqnarray*}

原点まわりのr次のモーメント

F分布における原点まわりのr次のモーメントは k2>2r の範囲でのみ存在し,以下のように表される.

\begin{eqnarray*}E(X^r)=\left(\frac{k_2}{k_1}\right)^2\Gamma\left(\frac{k_1}{2}+r\right)\Gamma\left(\frac{k_2}{2}-r\right)\left[\Gamma\left(\frac{k_1}{2}\right)\right]^{-1}\left[\Gamma\left(\frac{k_2}{2}\right)\right]^{-1}\tag{22}\end{eqnarray*}

等分散性の検定

標本数がN1からなる確率変数Xと標本数N2からなる確率変数が互いに独立で,それぞれ以下のような正規分布に従うとする.

\begin{eqnarray*}X\sim N(\mu_X,\sigma_X^2)\tag{23}\end{eqnarray*}
\begin{eqnarray*}Y\sim N(\mu_Y,\sigma_Y^2)\tag{24}\end{eqnarray*}

ここで,それぞれの確率変数の不偏分散をUXおよびUYで表すと,この不偏分散を母分散で割って '標本数-1' を掛けた値はそれぞれ,自由度 N1-1 または N2-1 のカイ二乗分布に従う.

\begin{eqnarray*}\frac{(N_1-1)U_X^2}{\sigma_X^2}\sim \chi^2(N_1-1)\tag{25}\end{eqnarray*}
\begin{eqnarray*}\frac{(N_2-1)U_Y^2}{\sigma_Y^2}\sim \chi^2(N_2-1)\tag{26}\end{eqnarray*}

また,これらの確率変数は互いに独立である.すなわち,以上の2つの確率変数は,互いに独立であり,それぞれがカイ二乗分布に従うという条件を満たす.従って,これらの2つの確率変数におけるフィッシャーの分散比である以下の値Tは自由度 N1-1 および N2-1 のF分布に従う.

\begin{eqnarray*}T=\frac{\displaystyle \frac{(N_1-1)U_X^2}{\sigma_X^2}\bigg/ (N_1-1)}{\displaystyle \frac{(N_2-1)U_Y^2}{\sigma_Y^2}\bigg/(N_2-1)}=\frac{U_X^2/\sigma_X^2}{U_Y^2/\sigma_Y^2}\sim F(N_1-1,N_2-1)\tag{27}\end{eqnarray*}

特に母分散の等分散性の検定を行う場合には,以下の式を考える.すなわち,帰無仮説 (H0を2つの確率変数の母分散が等しいこと,とする.

\begin{eqnarray*}\sigma_X^2=\sigma_Y^2\tag{28}\end{eqnarray*}

よって,上式の統計量Tは以下のように変形される.最終的には,この値が従う自由度 N1-1 および N2-1 のF分布においてあらかじめ設定した棄却域に入るかどうかを調べる.帰無仮説が棄却されたら,対象の2変数の母分散は等しいとはいえないという結論を下す.

\begin{eqnarray*}T=\frac{U_X^2}{U_Y^2}\tag{29}\end{eqnarray*}

左側の面積α (=確率α) を与える値の求め方

多くのF分布の分布表において,右側面積 α を指す値は与えられているものの,左側面積 α (右側面積 1-α と等価) を指す値は与えられていない.この値を求めるためには,自由度 (n, m) のF分布における面積 α を指す値を Fα(n, m),自由度 (m, n) のF分布における面積 1-α を指す値をF1-α(m, n)としたときに両者の間に成り立つ以下の関係を用いる.

\begin{eqnarray*}F_{1-\alpha}(m,n)=\frac{1}{F_\alpha(n,m)}\tag{30}\end{eqnarray*}

つまり,自由度 (k1, k2) に従う統計量Tを有意水準 α で両側検定したいときは,統計量Tが以下の範囲を満たすかどうかを調べれば良い.

\begin{eqnarray*}\frac{1}{F_{\frac{\alpha}{2}}(k_2,k_1)} < T < F_{\frac{\alpha}{2}}(k_1,k_2)\tag{31}\end{eqnarray*}

F分布のグラフ上におけるこれらの値の関係は以下のようになる.

tpd_f_distribution_01.svg

図を生成するためのRソースコード

#!/usr/bin/env Rscript

main=function()
{
	svg("tpd_f_distribution_01.svg",width=8,height=4)
	par(plt=c(0.2,0.9,0.2,0.9))
	x=seq(0,4,0.01)
	plot(x,type="n",xaxs="i",yaxs="i",xlim=c(0,4),ylim=c(0,0.8),bty="l",xlab="",ylab="Probability density",las=1,family="Arial")
	lines(x,df(x,df1=5,df2=100),lty=1,lwd=1.6,col="#2b4b65")
	segments(0.2,0,0.2,0.4,lwd=1.6,col="#ff8c00")
	segments(2.5,0,2.5,0.063,lwd=1.6,col="#ff8c00")
	text(0.6, 0.08, expression(paste(frac(1,{F[alpha/2]}({k[2]},{k[1]})))),font=15)
	text(2.6, 0.15, expression(paste({F[alpha/2]}({k[1]},{k[2]}))))
	axis(side=1,at=0:4,tck=1.0,lty="dotted",lwd=0.5,labels=NA)
	axis(side=2,tck=1.0,lty="dotted",lwd=0.5,labels=NA)
	dev.off()
}

main()
Hatena Google+