理論関連事項

統計学の基本事項,確率分布の詳細,各種データ解析法の理論的背景について.

カイ二乗分布 (Chi-squared distribution) は χ2 分布とも表記され,統計検定に広く用いられる重要な確率分布である.ドイツの数学者 Friedrich Robert Helmert によって開発された.本分布は適合度検定や独立性検定からなるピアソンのカイ二乗検定はじめとするカイ二乗検定全般に利用される.パラメーターは自由度 k であり,カイ二乗分布は χ2(k) にて略記される.自由度は正の整数である.確率密度関数は以下で与えられる.

\begin{eqnarray*}f(x)=\frac{1}{2^{\frac{k}{2}}\Gamma\left(\frac{k}{2}\right)}e^{-\frac{x}{2}}x^{\frac{k}{2}-1}\tag{1}\end{eqnarray*}

確率変数Xの範囲は以下で与えられる範囲である.

\begin{eqnarray*}0\leq x<\infty\tag{2}\end{eqnarray*}

モーメント母関数は t < 1/2 の範囲にて以下で与えられる.

\begin{eqnarray*}M_X(t)=(1-2t)^{-\frac{k}{2}}\ \ \ \ \left(t<\frac{1}{2}\right)\tag{3}\end{eqnarray*}

期待値は以下で与えられる値である.

\begin{eqnarray*}E(X)=k\tag{4}\end{eqnarray*}

分散は以下の式で与えられる.

\begin{eqnarray*}V(X)=2k\tag{5}\end{eqnarray*}

モーメント母関数,期待値および分散の導出

モーメント母関数は定義式にしたがって以下のように求める.

\begin{eqnarray*}M_X(t)&=&\int_{-\infty}^{\infty}e^{tx}f(x)dx\\&=&\int_{0}^{\infty}e^{tx}\frac{1}{2^{\frac{k}{2}}\Gamma\left(\frac{k}{2}\right)}e^{-\frac{x}{2}}x^{\frac{k}{2}-1}dx\\&=&\int_{0}^{\infty}\frac{1}{2^{\frac{k}{2}}\Gamma\left(\frac{k}{2}\right)}e^{-\left(\frac{1}{2}-t\right)x}x^{\frac{k}{2}-1}dx\tag{6}\end{eqnarray*}

上式において,ネイピア数の肩が0以上のときxを無限大にもっていくと発散するので,発散しないための以下の条件が加えられる.

\begin{eqnarray*}t<\frac{1}{2}\tag{7}\end{eqnarray*}

また,ここで以下の変数変換を考える.

\begin{eqnarray*}\left(\frac{1}{2}-t\right)x=\frac{s}{2}\tag{8}\end{eqnarray*}

これは同時に以下の関係を意味する.

\begin{eqnarray*}x=(1-2t)^{-1}s\tag{9}\end{eqnarray*}
\begin{eqnarray*}dx=(1-2t)^{-1}ds\tag{10}\end{eqnarray*}

これらの関係を用いて上式は以下のように変換される.

\begin{eqnarray*}M_X(t)=(1-2t)^{-\frac{k}{2}}\int_{0}^{\infty}\frac{1}{2^{\frac{k}{2}}\Gamma\left(\frac{k}{2}\right)}e^{-\frac{s}{2}}s^{\frac{k}{2}-1}ds\tag{11}\end{eqnarray*}

上の式における積分形はまさにカイ二乗分布の確率密度関数を全範囲にわたって積分したものであるので,その値は 1 になる.よって,モーメント母関数は以下のように表される.

\begin{eqnarray*}M_X(t)=(1-2t)^{-\frac{k}{2}}\ \ \ \ \left(t<\frac{1}{2}\right)\tag{12}\end{eqnarray*}

期待値および分散はモーメントを利用して求める.まず,モーメント母関数の1階微分および2階微分は以下のように計算される.

\begin{eqnarray*}M_X'(t)=k(1-2t)^{-\frac{k}{2}-1}\tag{13}\end{eqnarray*}
\begin{eqnarray*}M_X''(t)=k(k+2)(1-2t)^{-\frac{k}{2}-2}\tag{14}\end{eqnarray*}

よって,原点まわりの1次および2次のモーメントは以下のように計算される.

\begin{eqnarray*}M_X'(0)=k\tag{15}\end{eqnarray*}
\begin{eqnarray*}M_X''(0)=k(k+2)\tag{16}\end{eqnarray*}

原点まわりの1次モーメントより期待値は以下のように求まる.

\begin{eqnarray*}E(X)=M_X'(0)=k\tag{17}\end{eqnarray*}

期待値,原点まわりの2次モーメントおよび分散の間で成り立つ関係式を用いて以下のように求める.

\begin{eqnarray*}V(X)&=&E(X^2)-[E(X)]^2\\&=&M_X''(0)-[M_X'(0)]^2\\&=&k(k+2)-k^2\\&=&2k\tag{18}\end{eqnarray*}

原点まわりのr次のモーメント

原点まわりのr次のモーメントは以下で与えられる.

\begin{eqnarray*}E(X^r)=\frac{2^r\Gamma\left(\displaystyle\frac{k}{2}+r\right)}{\Gamma\left(\displaystyle\frac{k}{2}\right)}\tag{19}\end{eqnarray*}

カイ二乗分布に従う統計量

[カイ二乗分布に従う確率変数1] 確率変数 X1, X2, ..., XN がそれぞれ独立に標準正規分布 N(0, 1) に従うとき (または,標準正規母集団 N(0, 1) からN個の標本を取り出したとき),以下の統計量 T を考える.

\begin{eqnarray*}T&=&X_1^2+X_2^2+\cdots+X_N^2\\&=&\sum_{i=1}^{N}X_i^2\tag{20}\end{eqnarray*}

この統計量 T は自由度 N のカイ二乗分布 χ2(N) に従う.

\begin{eqnarray*}T\sim\chi^2(N)\tag{21}\end{eqnarray*}

[カイ二乗分布に従う確率変数2] 確率変数 X1, X2, ..., XN がそれぞれ独立に,標準正規分布ではなく,正規分布 N(μ, σ2) に従うとき,以下の統計量 T を考える.

\begin{eqnarray*}T&=&\left(\frac{X_1-\mu}{\sigma}\right)^2+\left(\frac{X_2-\mu}{\sigma}\right)^2+\cdots+\left(\frac{X_N-\mu}{\sigma}\right)^2\\&=&\sum_{i=1}^{N}\left(\frac{X_i-\mu}{\sigma}\right)^2\tag{22}\end{eqnarray*}

この統計量 T も自由度 N のカイ二乗分布 χ2(N) に従う.

\begin{eqnarray*}T\sim\chi^2(N)\tag{23}\end{eqnarray*}

正規分布に従う確率変数を標準正規分布に従うように標準化した変数からなるこの T は当然上の統計量 T と同様に自由度 N のカイ二乗分布に従う.以上の統計量 T は母平均が明らかになっているときにおける母分散の推定に利用することができる.

[カイ二乗分布に従う確率変数3] 上では分布の母平均が判っているが,実務上ではそのような状況におかれることはほぼない.そこで,確率変数 X1, X2, ..., XN がそれぞれ独立に,何らかの正規分布に従うとき,以下の統計量 T を考える.ここで,σ2 は分布の母分散である.

\begin{eqnarray*}T&=&\left(\frac{X_1-\overline{X}}{\sigma}\right)^2+\left(\frac{X_2-\overline{X}}{\sigma}\right)^2+\cdots+\left(\frac{X_N-\overline{X}}{\sigma}\right)^2\\&=&\sum_{i=1}^{N}\left(\frac{X_i-\overline{X}}{\sigma}\right)^2\tag{24}\end{eqnarray*}

また,この統計量 T は以下のように変形することができる.

\begin{eqnarray*}T&=&\frac{1}{\sigma^2}\left[(X_1-\overline{X})^2+(X_2-\overline{X})^2+\cdots+(X_N-\overline{X})^2\right]\\&=&\frac{N-1}{\sigma^2}\frac{1}{N-1}\left[(X_1-\overline{X})^2+(X_2-\overline{X})^2+\cdots+(X_N-\overline{X})^2\right]\\&=&\frac{N-1}{\sigma^2}\sum_{i=1}^{N}\frac{1}{N-1}(X_i-\overline{X})^2\\&=&\frac{(N-1)U^2}{\sigma^2} \tag{25}\end{eqnarray*}

以上の統計量 T は自由度 N-1 のカイ二乗分布 χ2(N-1) に従う.この定理は正規分布に従う母集団から標本を取り出したときに,得られたデータから母分散の値を推定するのに利用される.

\begin{eqnarray*}T\sim\chi^2(N-1)\tag{26}\end{eqnarray*}

[カイ二乗分布に従う確率変数4] 確率変数 X1, X2, ..., XN が独立にそれぞれ自由度 k1, k2, ..., kN のカイ二乗分布に従うとする.

\begin{eqnarray*}X_1\sim\chi^2(k_1)\tag{27}\end{eqnarray*}
\begin{eqnarray*}X_2\sim\chi^2(k_2)\tag{28}\end{eqnarray*}
\begin{eqnarray*}X_N\sim\chi^2(k_N)\tag{29}\end{eqnarray*}

このとき,以下の統計量 T を考える.

\begin{eqnarray*}T&=&X_1+X_2+\cdots+X_N\\&=&\sum_{i=1}^{N}X_i\tag{30}\end{eqnarray*}

以上の統計量 T は自由度 (k1 + k2+ ... +kN) のカイ二乗分布に従う.この定理は分散分析を行うときに利用される.

\begin{eqnarray*}T\sim\chi^2(k_1+k_2+\cdots+k_N)\tag{31}\end{eqnarray*}

カイ二乗分布とガンマ分布

カイ二乗分布はガンマ分布の特別形のひとつである.Ga(k/2, 2) の確率密度関数は以下のようになる.

\begin{eqnarray*}f(x)=\frac{1}{2^{\frac{k}{2}}\Gamma\left(\frac{k}{2}\right)}e^{-\frac{x}{2}}x^{\frac{k}{2}-1}\tag{32}\end{eqnarray*}

これはカイ二乗分布の確率密度関数と等しい.

カイ二乗分布と指数分布

指数分布とカイ二乗分布も密接な関連性を持つ.χ2(2) におけるカイ二乗分布の確率密度関数は以下のように計算される.

\begin{eqnarray*}f(x)=\frac{1}{2}e^{-\frac{x}{2}}\tag{33}\end{eqnarray*}

これは,まさに Ex(1/2) の指数分布の確率密度関数に等しい.

カイ二乗分布とt分布

確率変数 X が以下のように標準正規分布に従うとする.

\begin{eqnarray*}X\sim N(0,1)\tag{34}\end{eqnarray*}

一方で,以下の確率変数 Y が自由度 k のカイ二乗分布に従うとする.

\begin{eqnarray*}Y\sim \chi^2(k)\tag{35}\end{eqnarray*}

このとき,以上の X および Y からなる新たな確率変数 T は自由度 k の t分布に従う.スチューデントのt検定は以下の統計量を用いて行われる.

\begin{eqnarray*}T=\frac{X}{\displaystyle \sqrt{\frac{Y}{k}}}\sim t(k)\tag{36}\end{eqnarray*}

カイ二乗分布とF分布

確率変数 U1 および U2 は互いに独立で,それぞれ以下の自由度 k1 および k2 のカイ二乗分布に従うとする.

\begin{eqnarray*}U_1\sim \chi^2(k_1)\tag{37}\end{eqnarray*}
\begin{eqnarray*}U_2\sim \chi^2(k_2)\tag{38}\end{eqnarray*}

このとき,以下の確率変数 T は自由度 k1 および k2 のF分布に従う.等分散性の検定は以下の統計量を用いて行われる.

\begin{eqnarray*}T=\frac{U_1/k_1}{U_2/k_2}\sim F(k_1,k_2)\tag{39}\end{eqnarray*}

確率密度関数の形状

カイ二乗分布の確率密度関数の形状は以下のようになる.

tpd_chi_squared_distribution_01.svg

図を生成するためのRソースコード

#!/usr/bin/env Rscript

main=function()
{
	svg("tpd_chi_squared_distribution_01.svg",width=8,height=4)
	par(plt=c(0.2,0.9,0.2,0.9))
	x=seq(0,8,0.01)
	plot(x,type="n",xaxs="i",yaxs="i",xlim=c(0,8),ylim=c(0,1),bty="l",xlab="",ylab="Probability density",las=1,family="Arial")
	lines(x,dchisq(x,df=4),lty=1,lwd=1.6,col="#2b4b65")
	lines(x,dchisq(x,df=3),lty=1,lwd=1.6,col="#ff8c00")
	lines(x,dchisq(x,df=2),lty=1,lwd=1.6,col="#e12f3c")
	lines(x,dchisq(x,df=1),lty=1,lwd=1.6,col="#00cc99")
	axis(side=1,at=0:8,tck=1.0,lty="dotted",lwd=0.5,labels=NA)
	axis(side=2,tck=1.0,lty="dotted",lwd=0.5,labels=NA)
	labels=c(expression(paste(chi^{2},(4))),expression(paste(chi^{2},(3))),expression(paste(chi^{2},(2))),expression(paste(chi^{2},(1))))
	legend("topright",legend=labels,lty=1,lwd=1.6,col=c("#2b4b65","#ff8c00","#e12f3c","#00cc99"),cex=0.8,bg="#ffffff",box.lty=3)
	dev.off()
}

main()
Hatena Google+