回帰曲線の最適化方法と最小面積法
最適化方法 | 決定性 | 外れ値 ロバスト性 | 偏り ロバスト性 |
最小二乗法 | ○ | × | × |
最小絶対値法 | × | ○ | × |
最小面積法 | ○ | ○ | ○ |
最小二乗法:点と回帰曲線の差の2乗を最小化
最小絶対値法:点と回帰曲線の差の絶対値を最小化
最小面積法:
(1)すべての点の間を直線で補間する
(2)その補間直線と回帰曲線の間の面積を最小化
回帰曲線の決定性
線が1つに定まるかです。
最小化になる線が複数あると定まりません。
最小絶対値法では、定まらない場合があります。
例)
(x,y)=(1,10),(1,20)の2点
回帰曲線が、y=10から、y=20の範囲で、定まりません。
線を上にずらすと、上点との差が縮まるのと同じだけ、下点との距離が拡がるからです。
重複しない点が2点以上あれば、最小二乗法と最小面積法では回帰直線が定まります。
外れ値ロバスト性
外れ値の影響を過剰に受けるかどうかです。
最小二乗法では、2乗で効いてしまいます。
最小絶対値法は、1乗で効きます。
標本の内1つが、一桁数値が大きかったとします。
値が10倍の標本が、他の標本より10倍影響するの合理的ですが、100倍影響するのは不自然です。
最小面積法では、X方向の外れ値も強調されます。
X,Yどちらの方向の外れ値も、1乗で効きます。
X方向の外れ値は局所回帰すれば、問題になりません。
推測対象から遠い外れ値は、0に近い重みになりです。
偏りロバスト性
一般的に、データが偏っていれば結果も偏ります。
例えば、ある区間だけ、たくさんデータを採っているかもかもしれません。
そこだけ点が多いので、特にその区間に合うような回帰曲線になります。
これは、恣意的なデータ採取がいけないといっているのではありません。
無作為抽出なら良いとは限りません。
無作為抽出でも、偶然にある区間でデータが集中すれば同じことです。
重複値があれば、最小二乗法、最小絶対値法では、その値が強調されます。
最小面積法は、重複値の影響を受けません。
ある区間だけ解像度を上げてデータ採取されていても、面積は変わりません。
どの方法を用いるべきかは目的によります。
標本である点を説明するのが目的なら、点の重みは等しくあるべきです。
最小二乗法や最小絶対値法を使います。
無作為抽出データから、次に無作為抽出されるものを推測する場合もその方法です。
点の母集団を推定するのが目的なら、標本がどこに偏ろうが関係ありません。
最小面積法を使うべきです。
点の密度によらずど区間も同じ重みです。
関数を推測するのが目的なら、無作為抽出よりも、均等に採取するのが最適です。
コメント