外れ値の分別管理による無劣化処置

外れ値の処置方法

処置方法データ劣化
人為的修正× 改変
代替値× 改変
除外× 欠落
分別管理○ なし
外れ値の処置方法

外れ値は、異常値ではなく、正常値かもしれません。
改変や削除をしてしまったら、データが劣化します。

例) 11, 12, 130

①人為的修正
130というのは、おそらく13の間違いなので修正する。

②代替値
130はおかしそうなので、平均値の11.5に代えます。

③除外
130はおかしそうなので、除外します。

④分別管理
「11, 12」「130」のデータセットに分ける。

外れ値の分別管理

外れ値は削除せず、別のデータセットとして分別します。

それぞれのデータセットで、目的の分析や推論をします。

推論対象と近い方のデータセットの結果を採用します。
割合で採用して結果を混合することもできます。

データセットのうち、どれが外れ値かという区別はありません。

例1)11, 12, 130
例2)11, 12, 130, 140, 150, 160

少数派だと思っていたもの(130)が、多数派に変わるかもしれません。

クラスター分別管理

データが3つ以上の塊になる場合もあります。

例)11, 12, 13, 140, 150, 160, 1700, 1800, 1900

外れ値か否かではなく、自由に3つ以上に分別します。
推論などに使う方法は、2つの場合と同様です。

ただし、標本数による自由度を考慮する必要があります。
例えば、1クラスターにつき、1標本に分別できます。
全てのクラスターの標本分散は0になります。

不偏分散や、不偏平均絶対偏差が最小になるように分けるのが良いでしょう。
クラスター毎に標本数が異なるため、各クラスターの平均値ではなく、標本単位で平均します。

コメント

タイトルとURLをコピーしました