強化学習AIが人間より多くの体験を必要とする原因
強化学習AIが人間より多くの体験を必要とする原因
(1).回答と報酬の因果関係が論理的ではない
(2).他者の体験を参考にしない (模倣しない)
(3).報酬が確定した回答しか参考にしない
回答と報酬の因果関係が論理的ではない
例えば、ゲームするAIは、1ゲーム中の行動が、そのゲームの勝敗に影響したと考えます。
前回のゲームにおける行動が、影響するとは考えません。
そこまで考慮する必要がないようにプログラムされます。
一方、自然界では報酬を得られた原因がどの範囲にあるのか教えてもらえません。
古典的な強化学習では、単純にイベントの発生時刻が近いほど、因果関係があると考えます。
論理を無視した強化学習でも、大量の事例を平均することで、平均的には良い結果を推論します。
実際には、時間の隔たりが大きくても、あるイベント後に、決まったイベントが発生することがあります。
論理的な推論には世界モデルの構築が必要です。
論理的な推論なら、たった1例からでも推論できます。
他者の体験を参考にしない(模倣しない)
古典的な強化学習では、自身が受け取った報酬によって、行動の良さを評価します。
一方で、生成AIの事前学習のデータは、過去に自身が生成したものではありません。
動物もまた、他人の行動結果、報酬が得られたのを見て、模倣することがあります。
真似をしたときは、その他者と自分を同様のものとみなしたと解釈できます。
真似する対象は、状況に応じて判断する必要があります。
昔の自分自身もまた、別人だと考える場合もあります。
外界の状況が過去のどの事例に近いかをだけなく、自分自身が何に近いかも考える必要があります。
報酬が確定した回答しか参考にしない
生物は、他者が報酬が得るのを確認する前でも、行動を真似する場合があります。
他者が自分と同じ価値観なら、その行動には意味があり、得するのだと推測できるからです。
古典的な強化学習では、どれだけ報酬が得られるか分かっていない行動の報酬の期待値は0です。
一方、自然界では、報酬が得られるか不明な他者の行動でも、報酬の期待値はプラスだと推測します。
これは、他者の行動だけでなく、過去の自身の行動に対しても当てはまります。
現在と似た状況で、過去に自分が行った行動は、そのときは、それが良いと判断して行ったはずです。
なぜその行動をしたのか思い出せなくても、過去の判断を信じれば、同じ行動を繰り返すのが有効です。
過去の自分の模倣は、特に思考する時間に余裕がないときに、有効な戦略です。
強化学習においても、論理的な推論が最優先ですが、情報や時間が足りないときの代替策も有効です。
コメント