汎用人工知能(AGI)の評価方法と評価できる性能
AGIという言葉の意味は人により異なりますが、AGIと呼ぶべき条件を議論しても生産性がありません。
客観的な指標を定めることが重要です。実力による評価と計算過程による評価するものに大別できます。
評価対象によるAGI評価方法の分類
・出力内容(試験結果)で評価
・計算過程で評価
試験結果にはハードの性能も影響します。そこで、「効率」「精度」「汎用性」に分けて考えます。
AGIの性能
・効率: 時間とコストのパフォーマンス
・精度: 効率を無視した場合の結果の良さの限界
・汎用性: 対応できる問題の範囲の広さ
どの評価方法でどの性能が評価できるか表にしました。
評価対象 | 評価可能な性能 | |||
効率 | 精度 | 汎用性 | ||
①ベンチマーク試験 | 出力 | ◎ | ◎ | × |
②人間の代替率 | 出力 | ○ | ○ | ○ |
③労働代替による利益 | 出力 | ◎ | △ | △ |
④演算能力 | 過程 | △ | × | × |
⑤脳との類似性評価 | 過程 | △ | △ | △ |
⑥知能の定義との合致 | 過程 | × | ◎ | ◎ |
×:評価できない
△:不完全な評価
○:人間と同レベルであることまでは評価できる
◎:人間を超えた先の性能の超知能まで評価できる
総合的に②「人間の代替率」が評価方法として最適です。
ただし、代替率は100%を超えないので、人間を超える超知能の評価には使えません。
超知能の評価には⑥「知能の定義との合致」の一択です。
人間より良い知能が何なのかを定義しないと測れません。
⑥では効率の評価ができませんが重要ではありません。
6つの評価方法の詳細は、下記をご覧ください。
AGIの評価方法①「ベンチマーク試験」
特定の仕事をさせ、その目的に合った方法で採点します。
人間も同じ方法で評価して比較することができます。
行う仕事が決まっているなら、最適な評価方法です。
会話が仕事ならチューリングテストで評価できます。
会話さえできれば何でもできるわけではありません。
その仕事の能力しか測れず、汎用性は測れません。
AGIの評価方法②「人間の代替率」
DeepMindは、人間の能力を代替できる割合で、AGIのレベルを分けを提案しています。
しかし、何ができれば何%とするのかは、客観的に決める必要があります。
そこで、目的が全人類の労働の代替だと仮定します。
労働を代替してもらえる人数の割合が、人間の能力を代替できた割合だと評価できます。
代替できたかはアンケート評価が公平です。
労働とは、無料なら代わって欲しいことです。
「貴方の代わりにやって欲しいと思うことを、このAIは何%代替してくれますか?」
というアンケート結果が客観的なAGIの評価結果です。
AGIの評価方法③「労働代替による利益」
投資家が本当に知りたいのは人間の代替による利益です。
可能でも、利益にならなければ置き換えません。
人間より劣っていても、利益になるなら置き換えます。
能力の問題ではないので、汎用性の評価には適しません。
AGIの評価方法④「演算能力」
脳とコンピューターの演算能力のみを比較します。
シンギュラリティの時期予測の論拠とされています。
他に情報がなければ仕方ありませんが、乱暴な方法です。
AGIの評価方法⑤「脳との類似性評価」
脳に近いほど、人間の知能に近づくことは明白です。
完全再現できれば、他の試験で確かめる必要ありません。
完全再現する必要ないという考え方もあります(WBAI等)。
しかし、何をどこまで似せればいいのか分かりません。
結局、他の方法で評価して調べる必要があります。
AGIの評価方法⑥「知能の定義との合致」
知能を定義して、計算過程が合致しているか評価します。
理論的に、完璧なAGIであることが約束されます。
ただし、望み通りのものであるかは、定義次第です。
知能を数学的に定義する試みはありますが、計算過程までは定義されていません(AIXI等)。
現代の数学では、帰納的推論の最適解が定義されていないのが最大の障害です。
コメント