帰納推論における不信頼データ処理

帰納における信頼できないデータの扱い

使用できるデータには、信憑性に欠けるものもあります。
対処方法を挙げていきます。

①信憑性のあるデータのみ使う
怪しいとマークされているデータは除外します。
データが減ってしまいます。
怪しいデータでも、ないよりはましです。
少しだけ怪しいデータなら場合によっては採用します。
どこまで怪しいデータを使うかが恣意的です。

②信憑性のあるデータから優先的に使う
信憑性あるの順に徐々に採用するデータを増やします。
推論結果が最も好ましくなった場合を採用します。
結果が悪くなるなら、データを増やす必要ありません。
しかし、結果が良くなるからといって、信憑性の悪いデータの使用は正当化されません。

③重みを割り引く
例えば、怪しいデータは、0.5個として計算します。
怪しいデータの影響は、小さくなります。
しかし、怪しいデータの個数が増えるほど、影響は大きくなってしまいます。

④部分的に「不明」にする
例)値:114514(←50%くらい間違ってそう)
114514:50%,「不明」:50%という確率分布を値とします。
使えば推論結果が良くなるときだけ使います。

⑤確率分布を値とする
確率分布が分かるなら、それを値とします。
分散や分布の形が分かっている必要があります。

コメント

タイトルとURLをコピーしました