今回は、箱ひげ図が使われるシーンと、結果を解釈するために知っておきたい箱ひげ図の各パーツの意味(四分位数、IQR)を解説します。
箱ひげ図
上の図は、肥料GrowFast、肥料SuperPlant、肥料なし、それぞれの条件で植物が成長した高さを箱ひげ図にしたものです。肥料GrowFastは植物の成長に一番効果がありそうだ、肥料SuperPlantはばらつきが大きい、といった情報を得ることができます。箱ひげ図はこのように、各変数の概要を把握したり、複数の条件を比べるときによく使われます。また、箱ひげ図を描くのに、サンプルサイズは少なくとも20は必要です。サンプルサイズが小さすぎると、箱ひげ図を構成する統計量に意味がなくなる場合があるためです。
箱ひげ図の構成を見てみましょう。
各統計量を解説していきます。
中央値
中央値はデータを同じサイズの2グループに分ける値です。
次のようなデータを考えます。45だけ極端に大きいことがわかります。
このデータを同じサイズの2グループに分ける値は、5です。今回は奇数個のデータでしたが、偶数個のデータの場合は、2グループの境目をはさむ2点の平均を中央値とします。
中央値と平均値は異なることがほとんどです。このデータの平均値を計算してみます。データの総和:1+2+3+4+5+6+7+8+45=81をデータサイズ9で割って、平均値は9と計算できました。一方、中央値は5です。この例は極端な例ですが、平均値と比べて、中央値は外れ値の影響を受けにくいという特徴があります。
四分位数
"4分"とあるようにデータを同じサイズの4グループに分けるのが四分位数です。中央値を求めたのと同じ要領で、2分した小さいほうのグループと大きいほうのグループをさらに2分します。中央値5によってわけられた2グループのサイズは4で偶数なので、小さいほうのグループについては2と3の間(平均)で2.5、大きいほうのグループについては7と8の間(平均)で7.5となります。第1四分位数は2.5、第2四分位数は中央値で5, 第3四分位数は7.5です。
IQR
箱ひげ図の箱の高さ:IQRはInterquater rangeの略で、四分位範囲と呼ばれます。IQRはシンプルに第3四分位数 ー 第1四分位数で求められます。上の例ではIQR=7.5-2.5=5です。IQRは、データの中央50%が含まれる範囲です。四分位数はデータを同じサイズの4グループに分けていて、言い換えると25%ずつに分けています。そのため、第1四分位数までで25%、中央値までで50%、第3四分位数までで75%のデータが入ります。箱ひげ図の箱の高さはIQRで、データの中央50%と理解すると、より深く箱ひげ図を考察できます。
箱ひげ図の"ひげ"の範囲をに使われるのがなぜ1.5*IQRなのかは、また別の機会に解説します。
▼冒頭の植物-肥料の例題データはMinitabヘルプページからダウンロードできます。
▼統計ソフトMinitabの無料トライアルで、効率的な可視化、分析をお試しください。
Comments