振り飛車の棋譜を作れない問題
――ずっとPCを動かして。それで何百回も繰り返すなかで修正していくと。
渡辺 ハニーワッフルと定跡が入っていないソフトで対局させると対抗形になるので、あまりにも勝率が低いような手はどんどんなくして、勝ちやすい手に変えていくような修正はずっとやっています。
苦労話としては、振り飛車の棋譜を作れないっていう問題があります。鶏が先か、卵が先かという話なんですが……。いまのソフトは振り飛車を評価しない。つまり、振り飛車を指さない。なので、振り飛車の局面から学習するっていうことがなかなか難しいんですよね。振り飛車が得意ではない上に評価値も低く出ている。それだと、振り飛車がダメだっていうことしか学習できないんですよ。なんとか工夫しないと意味がない。
――なるほど。
渡辺 そこで居飛車のままだとペナルティをつけて評価値を強制的に下げることで、なんとか振り飛車を指させて学習しました。すごく極端な評価関数ができたんですが、中盤から崩れていくんですね。居飛車側が勝っちゃうんですよ。評価関数がきちんと振り飛車を評価できるようになれば、既存の探索でも振り飛車は有利になると思っているんですけど、そこは多分難しいでしょうね。ディープラーニングで序盤の振り飛車を学習させることはあるかもしれません。
「カウンター狙い」をプログラムとして実装できれば……
――完全解析は無理だとしても、将棋ソフトの行き着く先は、一直線で相手の王様を詰ましにいく急戦になるのか、あるいは「最強の囲い」が発見されるのでしょうか。
渡辺 いまのソフトを究めていくと前者です。とにかく最速で攻めるのがトレンドです。コンピュータには恐怖心がない。どんなにギリギリでも自分が詰まされなきゃいいと判断するので、わざわざ囲ってから攻めるという発想がないんです。
ただ、そうなるとお互いが全力でパンチを放つわけですよね。どちらかが絶対倒れる。それがコンピュータ的な相居飛車の戦いです。それをやるんだったら、最初から相手の攻撃をかわすことを考えて、振り飛車で対抗形に組むのも悪くないのかな、というのが自分のスタンスです。
――いわゆるカウンター狙い、ということでしょうか。
渡辺 そうですね。カウンターを狙うっていう意識みたいなものは当然ソフトにはないわけで、それをプログラムとして実装できれば、きちんと振り飛車が評価できるようになると思っています。
――ハニーワッフルは、振り飛車側の数値を高めに評価する傾向があるんですか?
渡辺 「評価させている」っていう表現が正しいですかね。ただ、それは自然な評価ではないです。
――下駄を履かせている的な意味合いですか?
渡辺 そうですね。下駄を履かせている上に、その場しのぎというか……。例えば、美濃囲いを作ればプラス100点みたいな、ざっくりとした感じなんですよ。ハニーワッフルって実は。ただボーナスが加算されているだけで、本当の意味で正しく評価しているとは言えません。ベースにあるのは居飛車のプログラムなんです。