統計検定に関する事柄を忘れないようにまとめます.

箱ひげ図はコマンド boxplot() にて作成する.使い方は大きく分けて3通りある.ひとつ目は,boxplot(ベクトル1, ベクトル2, ベクトル3, ...) のように,各項目のデータが格納されているベクトル形式の変数を直接指定する方法,ふたつ目は,boxplot(リスト) のように,各項目のデータが格納されているリスト形式 (または,行列形式) の変数を読み込む方法,最後は,boxplot(value ~ group, data=データフレーム) のように読み込むデータフレームと項目およびそのデータを式で指定する方法である.

以下のようなそれぞれが50要素からなるデータA,B および C が得られたとき,箱ひげ図を描く.

0.741 0.546 0.765 0.737 0.875 0.749 0.701 0.726 0.705 0.647 0.700 0.650 0.622 0.603 0.752 0.619 0.691 0.692 0.776 0.670 0.713 0.708 0.620 0.743 0.680 0.662 0.665 0.655 0.611 0.690 0.666 0.580 0.694 0.676 0.666 0.755 0.695 0.698 0.723 0.724 0.611 0.672 0.678 0.677 0.635 0.675 0.664 0.747 0.620 0.701
0.661 0.587 0.506 0.625 0.821 0.734 0.594 0.389 0.599 0.588 0.587 0.574 0.477 0.510 0.645 0.505 0.602 0.628 0.658 0.556 0.576 0.657 0.552 0.575 0.616 0.619 0.554 0.514 0.551 0.641 0.590 0.502 0.616 0.604 0.573 0.681 0.559 0.638 0.603 0.634 0.511 0.633 0.569 0.622 0.545 0.602 0.605 0.643 0.478 0.629
0.675 0.555 0.567 0.884 0.911 0.965 0.545 0.846 0.996 0.675 0.749 0.720 0.767 0.747 0.852 0.720 0.806 0.684 0.959 0.722 0.784 0.637 0.686 0.839 0.753 0.663 0.740 0.835 0.716 0.619 0.710 0.691 0.704 0.532 0.686 0.796 0.818 0.643 0.951 0.790 0.717 0.527 0.759 0.608 0.681 0.726 0.754 0.806 0.835 0.688

最初に,以上のデータを変数に読み込む.数値データの読み込みにはコマンド scan が便利である.まず,上のデータAをコピーして,以下のコマンドを打つことで変数 da にデータAを読み込む.このような方法でなくても,ファイル名を指定して読み込んでも良い.その場合は,ファイルが存在するディレクトリに移動して,scan("a.txt") のようにコマンドを打つ.

$ da=scan("clipboard")

次に,上のデータBをコピーして,以下のコマンドを打つことで変数 db にデータBを読み込む.この方法なら Excel からコピーしたデータもそのまま読み込める.

$ db=scan("clipboard")

データCも同様に変数 dc に読み込む.

$ dc=scan("clipboard")

また,これらのベクトルを格納したリスト形式の変数 list も以下のように作成する.

$ list=list(A=da, B=db, C=dc)

簡単な描画

最も簡単に箱ひげ図を描くには以下1行目または2行目のようにコマンドを打つ.

$ boxplot(da, db, dc)
$ boxplot(list)

結果はそれぞれ以下のようになる.図の左からデータA,B,Cの箱ひげ図である.箱ひげ図の中央の太線はデータの中央値 (メディアン) を示す.箱の最上端は第3四分位数箱の最下端は第1四分位数をあらわす.また,上側のひげおよび下側のひげはデフォルトの設定では,(第1四分位数-1.5*(第3四分位数-第1四分位数)) 以上 (第3四分位数+1.5*(第3四分位数-第1四分位数)) 以下の範囲で,それぞれ最も大きいデータ点および最も小さいデータ点を指す.はひげより大きいデータ点または小さいデータ点,すなわち外れ値をあらわす.

ida_r_boxplot_01.svg

図の装飾

コマンド boxplot() には様々なオプションが用意されており,それらを用いるとより綺麗なグラフが描ける.オプション name では各要素の名前をベクトル形式にて指定することで要素の名前を指定できる.col にて各要素のボックスの色をベクトル形式で指定する.色の名前を red のように指定することもできるし,以下のように RGB で指定することもできる.main にてグラフのタイトルを,xlab にてX軸のラベルを,ylab にてY軸のラベルを指定する.ylim にてY軸の表示範囲をベクトル形式で指定する.width では箱の幅を,staplewex ではひげの幅を変更できる.

$ boxplot(list, names=c("A", "B", "C"), col=c("#993435", "#edae00", "#539952"), main="Boxplot", xlab="Entry", ylab="Value", ylim=c(0.2, 1), width=c(1.1, 1.1, 1.1), staplewex=0.8)

結果は以下のようになる.

ida_r_boxplot_02.svg

また,コマンド par を用いるとグラフの詳細なグラフィックスの調整ができる.las にて軸目盛および各項目の表示スタイルを変更する.las=1 を指定するとX軸およびY軸の全ての数値目盛を水平に表示する.font.main にてタイトルのフォントを,font.lab では軸ラベルのフォントを,font.axis にて軸項目のフォントを指定する.cex.main にてタイトルのサイズを,cex.lab にて軸のラベルのサイズを,cex.axis にて軸目盛のサイズを指定する.以上のコマンドを以下の1行目で打ち,2行目で上と同じ箱ひげ図の描画コマンドを打つ.以下のコマンド par 内の cex.main 以降は2行目の boxplot() のオプションとしても直接指定できる.また,font.main,font.lab,font.axis も boxplot() のオプション pars にて pars=par(font.main=15) のようにすると boxplot のオプションとして指定できる.

$ par(font.main=15, font.lab=15, font.axis=15, cex.main=3, cex.lab=1.2, cex.axis=1.2, las=1)
$ boxplot(list, names=c("A", "B", "C"), col=c("#993435", "#edae00", "#539952"), main="Boxplot", xlab="Entry", ylab="Value", ylim=c(0.2, 1), width=c(1.1, 1.1, 1.1), staplewex=0.8)

結果は以下のようになる.

ida_r_boxplot_03.svg

他にも様々なオプションがある.horizontal にて箱ひげ図を水平表示できる.border にて箱の枠線とひげの色を指定できる.notch では箱にノッチ (切り込み) を入れるかどうかを指定する.range ではひげが箱からどれだけ離れるかを指定できる.デフォルトでは range=1.5 が指定されており,これは,上側のひげは '第3四分位数+1.5*(第3四分位数-第1四分位数)' 以下の最も大きいデータ点,下側のひげは '第1四分位数-1.5*(第3四分位数-第1四分位数)' 以上の最も小さいデータ点をひげとすることを意味する.

$ boxplot(list, names=c("A", "B", "C"), col=c("#993435", "#edae00", "#539952"), main="Boxplot", xlab="Value", ylab="Entry", ylim=c(0.2, 1), width=c(1.1, 1.1, 1.1), staplewex=0.8, horizontal=T, border="cyan4", notch=T, range=1)

結果は以下のようになる.

ida_r_boxplot_04.svg

データフレームを使った図の描画

また,以上のようにベクトル形式またはリスト形式のデータを読み込む方法ではなく,データフレームと式を入力としてプロットする方法もある.Rにあらかじめ用意されているデータフレーム iris には150標本のアヤメの Sepal.Length,Sepal.Width,Petal.Length,Petal.Width という4種類の各標本の特徴量とその特徴量を持つアヤメが属する3種類の Species の情報が格納されている.このデータフレーム中の Sepal.Length をデータ点,Species をグループとしてボックスプロットを描くには以下のようにする.

$ boxplot(Sepal.Length ~ Species, data=iris, xlab="Species", ylab="Sepal.Length")

結果は以下のようになる.Species ごとに区切られた Sepal.Length の箱ひげ図ができる.

ida_r_boxplot_05.svg

オプション一覧

その他のオプションには以下のようなものがある.

オプション詳細使用例
x読み込むデータの指定 (下の formula を指定しないとき,必須).ベクトル,またはベクトルを格納したリスト,またはベクトルを格納したマトリックス形式の変数で指定x=list または x=da, db, dc
formula描画するデータの式を指定 (上のxを指定しないとき,必須).y ~ group のように指定すると,y というデータ点をgroupごとに区切って箱ひげ図が描画される.formula= y ~ group
data上の formula を指定するとき必須.formula で指定するデータフレームを指定.data=iris
rangeひげが箱からどれだけ離れるかを数値で指定.デフォルトは1.5.このとき,上側のひげは '第3四分位数+1.5*(第3四分位数-第1四分位数)' 以下の最も大きいデータ点,下側のひげは '第1四分位数-1.5*(第3四分位数-第1四分位数)' 以上の最も小さいデータ点を指す.range=2
width箱の幅を指定.ベクトル形式で指定すると項目ごと,数字で指定すると一括で設定される.width=1.2
varwidth各項目における箱の幅を各項目のサンプルサイズの平方根に比例させて表示.TまたはFで指定.varwidth=T
notch箱にノッチ (切り込み) を入れるかどうかをTまたはFで指定notch=T
outline外れ値 (ボックスプロット中の丸) を表示するかしないかをTまたはFで指定outline=F
names各項目の名前をベクトル形式で指定names=c("foo", "bar", "baz")
boxwex各項目の箱が互いに重ならないときの最大の箱の幅を1としたときに,それに対する箱の幅を数値で指定.boxwex=0.8
staplewex箱の幅に対するひげのサイズを指定.ベクトル形式または数字で指定.staplewex=1.2
outwex箱の幅に対する外れ値線の幅の指定outwex=0.8
plotグラフをプロットするかしないかをTまたはFで指定.デフォルトは当然T.Fを指定すると箱ひげ図の統計量を表示.plot=F
border箱の枠線およびひげの色指定.ベクトル形式で指定すると項目ごと,1色だけ指定すると一括で色を指定.border="red"
col箱の色の指定.ベクトルを指定すると各項目がそれぞれの色で表示,1色だけ指定すると全項目がその色で表示.色名,RGB,番号にて指定.col=c("red", "#123123", "green")
log"x","y" または "xy" を指定することで,指定した軸を対数軸にて表示するlog="y"
parsフォント等を設定するグラフィックパラメーターを指定pars=par(font.main=15, font.lab=15, font.axis=15)
horizontal箱ひげ図を縦に描くか横に描くかをF (縦) またはT (横) で指定.デフォルトは F (縦)horizontal=F
add現在のプロット領域に箱ひげ図を追加するかどうかをTまたはFで指定add=F
at上で add=T を指定したとき,箱ひげ図を描く位置をベクトルで指定at=c(1, 2, 3, 4)
las軸目盛および各項目の表示スタイルを指定.0,1,2,3の数値で指定.デフォルトでは全軸の項目ラベル (目盛) は各軸に対して平行.las=1 を指定すると,各項目 (目盛) が全て水平に位置し Excel と同じになる.
xlabX軸のラベルの指定xlab="sample number"
ylabY軸のラベルを指定ylab="km/h"
mainグラフのタイトルを指定main="Experiment 2009.02.15"
ylimY軸目盛の表示範囲をベクトル c(最小値, 最大値) にて指定ylim=c(0.2, 1)
cex.mainグラフのタイトルのフォントサイズの指定cex.main=4
cex.lab軸ラベルのフォントサイズの指定cex.lab=1.6
cex.axis目盛のフォントサイズの指定cex.axis=1.2
yaxtY軸目盛の有無を設定yaxt="n"
Hatena Google+