会話をしながら、予測問題を解いている
松尾 話している最中も我々はずっと、予測問題を解いているんです。平野さんが次に何を言うだろうか、加藤さんが何を言うだろうか、僕の耳や目が何を知覚するだろうかということを、予測している。それから、お二人の言動を見聞きして答え合わせをする。予測が合っていたらスムーズに会話が進むし、間違っていたら少し驚くんです。そして、また学習する。
こういったことを繰り返して、僕らは環境の構造を把握しています。そうすると、なにか教えられたときにすぐ学ぶことができる。これは画像認識でも自然言語処理でも同じで、対象の背後には構造があるんです。そこを「自己教師あり学習」で学ぶと、その構造が当てはめられるタスクは精度高く簡単にできるようになります。
加藤 人間も強化学習をしているんですね。
松尾 はい、行動を獲得していく強化学習にも、こうした「自己教師あり学習」は使えます。でも画像とキャプションで学習させるときに、コンピュータは人間だとしないような間違いをするんですよね。例えば、「犬が飛び跳ねている」といったキャプションがついた写真がたくさんあって、それを見たときは「犬が飛び跳ねている」と判別してほしい。でもその写真の背景の多くが玄関だと、玄関のことを「犬が飛び跳ねている」だと学習してしまったりするんです。
人間には、生まれたときから言語獲得のカリキュラムがある
加藤 飼い主が帰ってきて犬が喜んでいる場所は、大抵玄関ですからね(笑)。人間は無意識に対象にフォーカスをあてられますが、AIにはむずかしい。
平野 そういう場合、動いているものにフォーカスして、他の対象をアウトフォーカスするという画像処理をして学習させるんですか?
松尾 そうですね。動いているものに注目するのは、とても重要なプライアなんです。プライアというのは学習を効率化するための知識や情報のこと。データや対象、世界に関して何らかの仮定を事前におくことによって我々は学習を効率化しています。まあ、ズルをしているとも言えますね。そういうものが人間にはけっこう備わっています。
人間は、生まれたときから言語獲得におけるカリキュラムが設定されているんですよ。例えば、最初は赤ちゃんが「あー」とか「うー」とか発声するだけで母親は喜ぶ。次に、母親を「ママ」、ごはんのことを「まんま」など、つながりがうまく表現できることを口に出すと、また母親は喜ぶ。というふうに、簡単な段階から順番に学習していけるようになっています。「母親が喜ぶとうれしい」などの本能や文化にも、言語習得のカリキュラムが仕組まれているんですよね。人間ってうまくできているなと思います。