帰納推論における重複ロバスト性

確証性の公理による重複した元の禁止

確証性の公理:法則を支持する元が多いほど、その法則の確からしさは増大する

例)
1月1日は、太陽が東から昇った
1月2日は、太陽が東から昇った
1月3日は?

「太陽が東から昇る」が真の条件:
太陽が存在 and 地球が自転 and 未知の条件

元:日付
写像:「太陽が東から昇る」「太陽が存在」「地球が自転」「未知の条件」

1月1日と2日は、「未知の条件」は真でした。
3日の「未知の条件」は「不明」です。

「未知の条件」は頻度から推測します。
日数の割合から、真の頻度が2/3以上だといえます。

日付が決まれば「未知の条件」も決まります。
同じ日付の重複データは「未知の条件」も同じ値です。
「未知の条件」が分からないから頻度による推測するので、同じだと分かっている重複値を含めてはいけません。

重複したデータがあったら無視しなければなりません。
無視しないと、そのデータが強調されます。

重複した推論結果に対するロバスト性

データだけでなく、重複した推論結果も問題です。

様々な条件での推論結果の例を出します。

推論結果①:真=90%、偽=10%
推論結果②:真=90%、偽=10%
推論結果③:真=10%、偽=90%

総合的に見て、真の可能性が高いというのは誤りです。
①と②は全く同じ推論内容かもしれないからです。

①と②が独立試行なら、真の確率は99%です。
しかし、独立試行かどうかは分かりません。
最も重複した場合は、下限の90%です。
①と②の最大値をとれば、重複に対してロバストです。
90%の推論結果が複数あっても、90%は超えません。

①と②が別人による推論結果の場合は話が変わります。
推論した人を元と考えれば、①と②は重複しません。
①②の主張は、③より確からしいと推測できます。
ただし、90%を超えるわけではありません。
推論結果の良し悪しは、必ずしも%では表されません。

コメント

タイトルとURLをコピーしました