統計検定に関する事柄を忘れないようにまとめます.

t分布 (t distribution) は,スチューデントの t分布 (Student t distribution) とも呼ばれ,統計検定に広く用いられる推定統計学において最も重要な部類の確率分布である.イギリスの数学者 William Sealy Gosset によって開発された.Student とはギネス社 (Guinness & Co.) の技術者であったゴセットが論文投稿用に用いたペンネームである.ゴセットは職業こそ学者ではなかったものの,統計学の神様,フィッシャーとともに推定統計学を開拓した偉人のひとりである.t分布は母数の区間推定や母集団の平均値の差の検定や無相関の検定等,統計学の多くの場面で用いられる.パラメーターは自由度 k であり,t分布は t(k) にて略記される.自由度は正の整数である.確率密度関数は以下で与えられる.

\begin{eqnarray*}f(x)&=&\frac{\Gamma\left(\displaystyle\frac{k+1}{2}\right)}{\sqrt{k\pi}\Gamma\left(\displaystyle\frac{k}{2}\right)\left(\displaystyle 1+\frac{x^2}{k}\right)^{\frac{k+1}{2}}}\\&=&k^{-\frac{1}{2}}\left[B\left(\frac{k}{2},\frac{1}{2}\right)\right]^{-1}\left(1+\frac{x^2}{k}\right)^{-\frac{k+1}{2}}\tag{1}\end{eqnarray*}

確率変数Xの範囲は以下で与えられる範囲である.

\begin{eqnarray*}-\infty < x < \infty\tag{2}\end{eqnarray*}

モーメント母関数は存在しない.期待値は自由度 k が1より大きいときのみ定義され,以下で与えられる値である.

\begin{eqnarray*}E(X)=0\ \ \ \ (k>1)\tag{3}\end{eqnarray*}

分散は自由度 k が2より大きいときに定義され,以下の式で与えられる.

\begin{eqnarray*}V(X)=\frac{k}{k-2}\ \ \ \ (k>2)\tag{4}\end{eqnarray*}

期待値および分散の導出

期待値は定義式にしたがって以下のように計算することで求められる.

\begin{eqnarray*}E(X)&=&\int_{-\infty}^{\infty}xf(x)dx\\&=&\int_{-\infty}^{0}xf(x)dx+\int_{0}^{\infty}xf(x)dx\\\tag{5}\end{eqnarray*}

ここで,最初の積分形において t=-x の変換を行うと上式は以下のように変形できる.

\begin{eqnarray*}E(X)&=&-\int_{\infty}^{0}(-t)f(-t)dt+\int_{0}^{\infty}xf(x)dx\\&=&-\int_{0}^{\infty}tf(-t)dt+\int_{0}^{\infty}xf(x)dx\tag{6}\end{eqnarray*}

t分布の確率密関数においては f(t)=f(-t) であるので上式はさらに以下のように変形される.

\begin{eqnarray*}E(X)=-\int_{0}^{\infty}tf(t)dt+\int_{0}^{\infty}xf(x)dx\tag{7}\end{eqnarray*}

最後に,上式最初の積分形において x=t の置換を行うと以下のように変形され,期待値が求まる.また,このとき以下の積分形を実際に積分した場合に結果が発散しないための条件として k>1 の条件が加わる.

\begin{eqnarray*}E(X)=-\int_{0}^{\infty}xf(x)dx+\int_{0}^{\infty}xf(x)dx=0\tag{8}\end{eqnarray*}

分散は,原点まわりの2次モーメントとの間に成り立つ以下の関係式を用いて求める.

\begin{eqnarray*}V(X)=E(X^2)-[E(X)]\tag{9}\end{eqnarray*}

まず,原点まわりの2次のモーメント E(X2)を求める.以下では,期待値を求める場合と同様に,t=-x で式を変形し計算した後に x=t にて再び置換し形を整える.

\begin{eqnarray*}E(X^2)&=&\int_{-\infty}^{\infty}x^2f(x)dx\\&=&\int_{-\infty}^{0}x^2f(x)dx+\int_{0}^{\infty}x^2f(x)dx\\&=&-\int_{\infty}^{0}t^2f(-t)dt+\int_{0}^{\infty}x^2f(x)dx\\&=&2\int_{0}^{\infty}x^2f(x)dx\\&=&2k^{-\frac{1}{2}}\left[B\left(\frac{k}{2},\frac{1}{2}\right)\right]^{-1}\int_{0}^{\infty}x^2\left(1+\frac{x^2}{k}\right)^{-\frac{k+1}{2}}dx\tag{10}\end{eqnarray*}

次に t=x2/k にて上式を置換し変形する.

\begin{eqnarray*}E(X^2)&=&2k^{-\frac{1}{2}}\left[B\left(\frac{k}{2},\frac{1}{2}\right)\right]^{-1}\frac{1}{2}k^{\frac{3}{2}}\int_{0}^{\infty}t^{\frac{3}{2}-1}(1+t)^{-\frac{3}{2}-\left(\frac{k}{2}-1\right)}dt\\&=&k\left[B\left(\frac{k}{2},\frac{1}{2}\right)\right]^{-1}\int_{0}^{\infty}t^{\frac{3}{2}-1}(1+t)^{-\frac{3}{2}-\left(\frac{k}{2}-1\right)}dt\tag{11}\end{eqnarray*}

ここで,以上の式の積分形とベータ関数の定義式である以下の式を比較する.

\begin{eqnarray*}B(a,b)=\int_{0}^{\infty}t^{a-1}(1+t)^{-(a+b)}dt\tag{12}\end{eqnarray*}

これより,上式は以下のように変形される.

\begin{eqnarray*}E(X^2)=k\left[B\left(\frac{k}{2},\frac{1}{2}\right)\right]^{-1}B\left(\frac{3}{2},\frac{k}{2}-1\right)\tag{13}\end{eqnarray*}

ここで,ベータ関数には以下のような変換公式が存在する.

\begin{eqnarray*}B(a+1,b)=\frac{a}{a+b}B(a,b)\tag{14}\end{eqnarray*}
\begin{eqnarray*}B(a,b)=\frac{a+b}{b}B(a,b+1)\tag{15}\end{eqnarray*}
\begin{eqnarray*}B(a,b)=B(b,a)\tag{16}\end{eqnarray*}

以上を用いて上式を変換すると以下のようになり,原点まわりの2次のモーメント E(X2)が求まる.このとき,ベータ関数の変数は正である必要があるので k>2 という条件が加わる.

\begin{eqnarray*}E(X^2)&=&k\left[B\left(\frac{k}{2},\frac{1}{2}\right)\right]^{-1}\frac{1}{k-1}B\left(\frac{1}{2},\frac{k}{2}-1\right)\\&=&k\left[B\left(\frac{k}{2},\frac{1}{2}\right)\right]^{-1}\frac{1}{k-1}\frac{k-1}{k-2}B\left(\frac{1}{2},\frac{k}{2}\right)\\&=&\frac{k}{k-2}\left[B\left(\frac{k}{2},\frac{1}{2}\right)\right]^{-1}B\left(\frac{k}{2},\frac{1}{2}\right)\\&=&\frac{k}{k-2}\tag{}\end{eqnarray*}

以上より分散は以下のように求まる.

\begin{eqnarray*}V(X)&=&E(X^2)-[E(X)]^2\\&=&\frac{k}{k-2}-0\\&=&\frac{k}{k-2}\tag{17}\end{eqnarray*}

t分布に従う統計量

t分布に従う確率変数は以下の確率変数Tである.

\begin{eqnarray*}T=\frac{Z}{\sqrt{\displaystyle \frac{Y}{k}}}\tag{18}\end{eqnarray*}

この確率変数Tは次の3つの条件を満たす必要がある.ひとつ目は分子のZが標準正規分布 N(0, 1) に従うことであり,二つ目は,分母の確率変数Yが自由度 k のカイ二乗分布 χ2(k) に従うこと,最後は,確率変数ZとYが互いに独立であることである.

このような条件の下,以下の確率変数Tは自由度 k-1 の t分布 t(k-1) に従う.ここで,N は標本数,X は標本平均,μ は母平均,σ2 は母分散,U2 は不偏分散を指す.

\begin{eqnarray*}T=\frac{\overline{X}-\mu}{\displaystyle \frac{U}{\sqrt{N}}}\tag{19}\end{eqnarray*}

以上の確率変数Tが自由度 k-1 の t分布に従うことはTを以下のように変形すると理解し易い.

\begin{eqnarray*}T&=&\frac{\overline X -\mu}{\displaystyle \frac{U}{\sqrt{N}}}\\&=&\left.\frac{\overline X - \mu}{\sqrt{\sigma^2/N}}\right/\sqrt{\frac{U^2}{\sigma^2}}\\&=&\left.\frac{\overline X - \mu}{\sqrt{\sigma^2/N}}\right/\sqrt{\left.\frac{(N-1)U^2}{\sigma^2}\right/(N-1)}\tag{20}\end{eqnarray*}

すなわち,分子の値は標準正規分布 N(0, 1) に従う値であり,分母の (N-1)U22 は自由度 N-1 のカイ二乗分布 χ2(N-1) に従う値である.

t分布とF分布

以下のように自由度 k の t分布に従う確率変数Xを考える.

\begin{eqnarray*}X\sim t(k)\tag{21}\end{eqnarray*}

ことのき,確率変数X2は分子の自由度 0,分母の自由度 k のF分布に従う.

\begin{eqnarray*}X^2\sim F(1,k)\tag{22}\end{eqnarray*}

確率密度関数の形状

t分布の確率密度関数の形状は以下のようになる.正規分布に非常に近い.

tpd_t_distribution_01.svg

図を生成するためのRソースコード

#!/usr/bin/env Rscript

main=function()
{
	svg("tpd_t_distribution_01.svg",width=8,height=4)
	par(plt=c(0.2,0.9,0.2,0.9))
	x=seq(-4,4,0.01)
	plot(x,type="n",xaxs="i",yaxs="i",xlim=c(-4,4),ylim=c(0,0.4),bty="l",xlab="",ylab="Probability density",las=1,family="Arial")
	lines(x,dt(x,df=1000),lty=1,lwd=1.6,col="#2b4b65")
	lines(x,dt(x,df=10),lty=1,lwd=1.6,col="#ff8c00")
	lines(x,dt(x,df=5),lty=1,lwd=1.6,col="#e12f3c")
	lines(x,dt(x,df=1),lty=1,lwd=1.6,col="#00cc99")
	axis(side=1,at=-4:4,tck=1.0,lty="dotted",lwd=0.5,labels=NA)
	axis(side=2,tck=1.0,lty="dotted",lwd=0.5,labels=NA)
	labels=c("t(1000)","t(10)","t(5)","t(1)")
	legend("topright",legend=labels,lty=1,lwd=1.6,col=c("#2b4b65","#ff8c00","#e12f3c","#00cc99"),cex=0.8,bg="#ffffff",box.lty=3)
	dev.off()
}

main()
Hatena Google+