人間の知能では、2系統が相互に入り組んでいる
加藤 アクチュエータというのは、つまり物理的な動作を伴う出力ですよね。ロボットなんかは、知覚運動系のシステムで作れそうですね。
松尾 ここに、記号系、つまり言語のシステムを乗っけるとどうなるか。言葉が入力されるようになります。そして、発話という出力ができるようになる。入力系統と出力系統が2つになるんです。人間の知能では、この2系統が相互に入り組んでいます。
例えば、子どもに「もうすぐパパ帰ってくるよ」と母親が言う。すると、子どもは耳から言葉を入力して、「パパを見る」という知覚を予測します。これは、記号系のシステムから入力して、知覚運動系のシステムで出力するということ。こうした入力系統と出力系統の組み合わせが4つあるんです。
で、言葉や文の意味を理解するというのは記号、つまり言葉の情報から知覚運動系の模擬情報をつくることなんです。俳句などは典型的だと思います。
加藤 たしかにわずかな言葉から、情景が思い浮かびます。
松尾 それが、意味を理解しているということなんですよね。
AIはどのようにして世界を学ぶのか
平野 じゃあ、コンピュータに目をつけてずっとランダムに世界を映し続ける一方で、言語の学習をさせたら、自動的に結びつけていくことはできるんですか。
松尾 ディープラーニングの研究者は、そういう形のデータセットを作りまくっています。データセットというのは、プログラムで処理されるデータのまとまりですね。マイクロソフトの「COCO」というデータセットが有名で、これはたくさんの画像が分類されて、キャプションがついています。こういうデータセットがあると、写真を認識させてそれが何なのか当てる学習をさせることができます。平野さんがおっしゃったのは、動画と言葉のデータセットで学習させるということですね。
加藤 例えば、「犬」「猫」のラベルがついた大量の写真を用意して、「どんな特徴に注目すべきか」を設定して、AIに学習させると犬と猫の特徴がわかるようになるんですよね。犬の写真を見せたときは「犬」と判別できるようになる。
松尾 学習データの写真に人間が「犬」というラベルを付けて学習させるのが「教師あり学習」で、正解のラベルを与えずに学習させるのが「教師なし学習」です。最近では、「教師なし学習」ではなく、「自己教師あり学習」と言い換えるようにしています。教師がないのではなく、自身のデータを使って擬似的な「教師データ」を作って学習しているからです。で、最近はこの「自己教師あり学習」が重要だと言われています。
GPT-3も、テキストのデータが与えられたら、一部を隠して予測する方法で学んでいます。自分で勝手に問題を作っているということですね。これって、僕ら人間が会話しているときもそうなんですよ。
加藤 どういうことでしょうか。