前回は、箱ひげ図と四分位範囲IQRについて紹介しました。
今回は、箱ひげ図の"ひげ"の範囲に使われるのがなぜ1.5*IQRなのか解説します。
IQR:Q3-Q1。箱ひげ図の箱の範囲。データの中央50%。
正規分布には、「データの何%が、平均±何標準偏差内に入るかわかる」という性質があります。
正規分布の性質から、中央の50%が、平均±何標準偏差に入るかわかります。下の図では統計ソフトMinitabを使って、中央50%は、平均±0.675標準偏差の間に入ることを確かめました。
標準偏差をσ表記すると、
中央50%の赤い範囲 IQR = 0.675σ - (-0.675)σ = 1.35σ
よって、1.5*IQR = 1.5*1.35σ = 2.03σ
ひげの範囲は、Q1とQ3から1.5*IQRに入るデータ点までで、
Q1 - 1.5*IQR = -0.675σ - 2.03σ = -2.7σ
Q3 + 1.5*IQR = 0.675σ + 2.03σ = 2.7σ
ひげの範囲は、平均±2.7σに入るデータ点までを示すのです。この範囲から外れた点は、箱ひげ図では外れ値としてプロットされます。2.7σは3σに近い値です。±3σには、データの99.7%が入ります。その範囲から外れるのは1000個に3個と稀という考え方です。
管理図では、管理限界線を平均±3σに引きますが、同じ考え方です。
箱ひげ図の"ひげ"の範囲に使われるのがなぜ1.5*IQRなのかは、3σに近くなるきりのいい数字だから、でした。
===
統計学習にも最適な統計ソフトMinitabをぜひお試しください。
30日間無料で試す:https://bit.ly/3Ht8xWz