最小面積法による回帰分析

回帰曲線の最適化方法と最小面積法

最適化方法決定性外れ値
ロバスト性
偏り
ロバスト性
最小二乗法××
最小絶対値法××
最小面積法
回帰曲線の最適化方法

最小二乗法:点と回帰曲線の差の2乗を最小化
最小絶対値法:点と回帰曲線の差の絶対値を最小化
最小面積法:
(1)すべての点の間を直線で補間する
(2)その補間直線と回帰曲線の間の面積を最小化

回帰曲線の決定性

線が1つに定まるかです。
最小化になる線が複数あると定まりません。
最小絶対値法では、定まらない場合があります。
例)
(x,y)=(1,10),(1,20)の2点
回帰曲線が、y=10から、y=20の範囲で、定まりません。
線を上にずらすと、上点との差が縮まるのと同じだけ、下点との距離が拡がるからです。

重複しない点が2点以上あれば、最小二乗法と最小面積法では回帰直線が定まります。

外れ値ロバスト性

外れ値の影響を過剰に受けるかどうかです。
最小二乗法では、2乗で効いてしまいます。
最小絶対値法は、1乗で効きます。

標本の内1つが、一桁数値が大きかったとします。
値が10倍の標本が、他の標本より10倍影響するの合理的ですが、100倍影響するのは不自然です。

最小面積法では、X方向の外れ値も強調されます。
X,Yどちらの方向の外れ値も、1乗で効きます。

X方向の外れ値は局所回帰すれば、問題になりません。
推測対象から遠い外れ値は、0に近い重みになりです。

偏りロバスト性

一般的に、データが偏っていれば結果も偏ります。

例えば、ある区間だけ、たくさんデータを採っているかもかもしれません。
そこだけ点が多いので、特にその区間に合うような回帰曲線になります。

これは、恣意的なデータ採取がいけないといっているのではありません。
無作為抽出なら良いとは限りません。
無作為抽出でも、偶然にある区間でデータが集中すれば同じことです。

重複値があれば、最小二乗法、最小絶対値法では、その値が強調されます。

最小面積法は、重複値の影響を受けません。
ある区間だけ解像度を上げてデータ採取されていても、面積は変わりません。

どの方法を用いるべきかは目的によります。

標本である点を説明するのが目的なら、点の重みは等しくあるべきです。
最小二乗法や最小絶対値法を使います。
無作為抽出データから、次に無作為抽出されるものを推測する場合もその方法です。

点の母集団を推定するのが目的なら、標本がどこに偏ろうが関係ありません。
最小面積法を使うべきです。
点の密度によらずど区間も同じ重みです。
関数を推測するのが目的なら、無作為抽出よりも、均等に採取するのが最適です。

コメント

タイトルとURLをコピーしました