無劣化連続化分布

無劣化連続化分布の定義

無劣化連続化分布の公理:標本集団の無劣化連続化分布が母集団のノンパラメトリックな推測値になる

無劣化連続化分布は、ノンパラメトリックな方法で、正規分布などを仮定しません。

平均値や分散以外の情報を捨ててしまうようなことをせず、情報が無劣化なまま連続化します。

無劣化ということは、仮定により存在しない情報を付け加えることもしません。

無劣化連続化分布の定義:
・重複部分
 ・ある値の確率質量:(ある値の標本数-1)/全標本数
  =ある値で重複する標本数/全標本数

・非重複部分
 ・値が取りうる範囲全体の確率質量:1-上記の合計
  =重複しない標本数/全標本数
 ・範囲内のピーク位置の情報を持つ
 ・ピーク位置は重複しない標本の値
 ・ピークに近いほど密度が高い
 ・密度の勾配の情報は持たない

・値が1次元なら、各区間の確率質量は1/全標本数。-∞~最小値、最大値~+∞の区間は、各0.5/全標本数

例1)
標本集団が「1, 2, 2, 3」で、実数。

母集団推定:「-∞~1」「1~2」「2~2」「2~3」「3~+∞」が、12.5%, 25%, 25%, 25%, 12.5%

「2~2」は、ピッタリ「2」を指します。
もし、極僅かに差があったとしても、確率分布は極僅かな差しかありません。

一様分布ではなく、標本に近づくほど確率密度が高いですが、その勾配の情報はありません。

例2)
標本集団が「A, B, B, C」で、名義。

母集団推定:B:25%。可能な名義:75%

標本の内、重複してしまったのは初回を除いた1/4なので、直感と合っています。

75%の内訳は、A,B,Cに近いほど密度が高い。
75%の中には、A,B,Cも含まれます。
標本に重複がなくても母集団には重複の可能性あります。

コメント

タイトルとURLをコピーしました