2019年6月11日火曜日

AGIアーキテクチャ


汎用人工知能(Artificial General Intelligence)のアーキテクチャについて、こんなものはどうだろう、というアイデアがある。 

基本は従来の専用AIだ。それはフィードバックがあってもなくても良い。普通のニューラルネットワークである。その層数や入力量は、通常のものよりずっと大きくなるだろう。まずは単純化のために、画像認識を例に挙げる。

そのAIは、画像用の入力と回答出力、そしてコマンド入力からなっている。コマンド入力を除く部分は、通常の画像認識AIと同じである。まず教師付きデータを大量に用意し学習させる。出力は自然言語(テキスト)である。

コマンド入力が少し違うところで、これも自然言語(テキスト)である。学習はコマンドもセットで行う。つまり、同じ画像でもコマンドと答えの異なる教師データが複数あるわけだ。例えば、「これは猫か?」「はい」と、「この動物はどちらを向いているか?」「右」などである。

これを大量に学習させていくと、想定した答えに対してはだいたい合った答えを出すようになる。ここから先が問題で、このコマンドセットが正確に合っていなくても、つまりコマンドセットにない新しいコマンドを与えても、それなりに正しい答えを出せるようになるのではないか、というのがこの主旨だ。つまり、「この動物は右を向いているか?」「はい」という学習データがなくても「はい」と答えてくれるのではないか、ということだ。

コマンドセットは自然言語なので、多くの単語と文法を含んでいる。そしてその組み合わせも無限にある、だから無理だ、と想像してしまいがちだ。しかし考えてみれば、同じ猫の画像なんてそもそも存在しない。黒猫と三毛猫のどちらも猫と認識するには、そういった無限の画像に対する学習記憶が残っているからだ。これが言語には及ばない理由はない。

これはまた、そもそもAGIなんてものは存在しないのだ、人間は高度な専用AIに過ぎないのだ、という主張にもなる。上の例では「猫」「動物」「右」しか出てこないが、この語彙が三千になり、学習データが何兆もあれば、中学生レベルの受け答えはできるようになるのではないか。そもそも中学生レベルでは知らない言葉も多く、大人の会話はできないかもしれないが、それでも彼らは一人前の人間である。それと同じではないのか、ということだ。

この先にあるのは、「気を利かせる」「新しいことを考え出す」アーキテクチャだが、基本的にはこの延長である。聞いていないことを答えた時に、それが人から見て適切であれば報酬が貰えるような仕掛けを組み込めば、やはり教師付き学習とその後の追加学習によって、色々な性格のAIを生み出すことができるだろう。

本当の問題はアーキテクチャなのではなくて、(アーキテクチャと学習の)物量だったのだ、と思い知る日が来るのかもしれない。

0 件のコメント:

コメントを投稿

注目の投稿:

超音波モーターの原理によるVR用トレッドミル

  VRにおけるリアリティ問題の一つに、その場で動くのではなく移動する場合、つまり歩いたり走ったりすることが挙げられる。実際にはその場にいるので、歩いたかのように足場を調節してやる必要がある。 これを実現する方法として、すり鉢状の滑りやすい足場を作っておく方法と、トレッドミルを使...

人気の投稿: