AGI(汎用人工知能)の評価方法

汎用人工知能(AGI)の評価方法と評価できる性能

AGIという言葉の意味は人により異なりますが、AGIと呼ぶべき条件を議論しても生産性がありません。
客観的な指標を定めることが重要です。実力による評価と計算過程による評価するものに大別できます。

評価対象によるAGI評価方法の分類
・出力内容(試験結果)で評価
・計算過程で評価

試験結果にはハードの性能も影響します。そこで、「効率」「精度」「汎用性」に分けて考えます。

AGIの性能      
・効率: 時間とコストのパフォーマンス
・精度: 効率を無視した場合の結果の良さの限界
・汎用性: 対応できる問題の範囲の広さ

どの評価方法でどの性能が評価できるか表にしました。

 評価対象評価可能な性能
効率精度汎用性
①ベンチマーク試験出力×
②人間の代替率出力
③労働代替による利益出力
④演算能力過程××
⑤脳との類似性評価過程
⑥知能の定義との合致過程×
AGIの評価方法と評価可能な性能

×:評価できない
△:不完全な評価
○:人間と同レベルであることまでは評価できる
◎:人間を超えた先の性能の超知能まで評価できる

総合的に②「人間の代替率」が評価方法として最適です。
ただし、代替率は100%を超えないので、人間を超える超知能の評価には使えません。

超知能の評価には⑥「知能の定義との合致」の一択です。
人間より良い知能が何なのかを定義しないと測れません。
⑥では効率の評価ができませんが重要ではありません。

6つの評価方法の詳細は、下記をご覧ください。

AGIの評価方法①「ベンチマーク試験」

特定の仕事をさせ、その目的に合った方法で採点します。
人間も同じ方法で評価して比較することができます。
行う仕事が決まっているなら、最適な評価方法です。

会話が仕事ならチューリングテストで評価できます。
会話さえできれば何でもできるわけではありません。
その仕事の能力しか測れず、汎用性は測れません。

AGIの評価方法②「人間の代替率」

DeepMindは、人間の能力を代替できる割合で、AGIのレベルを分けを提案しています。
しかし、何ができれば何%とするのかは、客観的に決める必要があります。

そこで、目的が全人類の労働の代替だと仮定します。
労働を代替してもらえる人数の割合が、人間の能力を代替できた割合だと評価できます。

代替できたかはアンケート評価が公平です。
労働とは、無料なら代わって欲しいことです。
「貴方の代わりにやって欲しいと思うことを、このAIは何%代替してくれますか?」
というアンケート結果が客観的なAGIの評価結果です。

AGIの評価方法③「労働代替による利益」

投資家が本当に知りたいのは人間の代替による利益です。
可能でも、利益にならなければ置き換えません。
人間より劣っていても、利益になるなら置き換えます。
能力の問題ではないので、汎用性の評価には適しません。

AGIの評価方法④「演算能力」

脳とコンピューターの演算能力のみを比較します。
シンギュラリティの時期予測の論拠とされています。
他に情報がなければ仕方ありませんが、乱暴な方法です。

AGIの評価方法⑤「脳との類似性評価」

脳に近いほど、人間の知能に近づくことは明白です。
完全再現できれば、他の試験で確かめる必要ありません。

完全再現する必要ないという考え方もあります(WBAI等)。
しかし、何をどこまで似せればいいのか分かりません。
結局、他の方法で評価して調べる必要があります。

AGIの評価方法⑥「知能の定義との合致」

知能を定義して、計算過程が合致しているか評価します。
理論的に、完璧なAGIであることが約束されます。
ただし、望み通りのものであるかは、定義次第です。

知能を数学的に定義する試みはありますが、計算過程までは定義されていません(AIXI等)。
現代の数学では、帰納的推論の最適解が定義されていないのが最大の障害です。

コメント

タイトルとURLをコピーしました