文春オンライン

「チャットGPTを日本語にあわせたモデルにしたい」アルトマンCEOが日本を狙う“本当の理由”

2023/06/29
note

突然、流暢に喋り始めた

 一体何が起きたのか。東京大学大学院情報理工学系研究科、次世代知能科学研究センターの松原仁教授はこう解説する。

「一言で言えば、量が質に転化した、ということです。チャットGPTのような大規模言語モデルは複雑なネットワークを使ってネット上に公開されている膨大な文書を読み込み、学習させるわけですが、この構造はSiriもチャットGPTも同じです。ただチャットGPTの場合、初期に1億個の単位だったパラメーター(情報を処理する単位)がGPT-3.5では2000億個に跳ね上がった。2000億個にしてみたら、突然、流暢に喋り始めたのです」

「100万匹のサルがランダムにタイプライターを叩き続ければ、いつかシェイクスピア作品が生まれる」というテクノロジーの世界の格言を地でいってしまったわけだ。

ADVERTISEMENT

「まだ使い込んでいないのでなんとも言えないが、パラメーターが1兆個を超えると言われるGPT-4がどれだけ賢くなっているかは推して知るべし」と松原氏は言う。

 OpenAIによると、米国の司法試験・刑法の短答模試を解かせたところ、GPT-3.5は受験者の下位10%のスコアしか取れなかったが、GPT-4は上位10%のスコアを叩き出し、合格できる水準に達したという。日本の司法試験を解かせると正解率はかなり低いが、それはAIが学習できる文献の量が日本語の場合、桁違いに少ないことに起因する。

アルトマンが日本を狙う理由

 この恐るべき技術革新の中心にいる人物こそがサム・アルトマン。OpenAIの設立発起人の一人であり、同社の現CEOだ。米国人にしてはやや小柄。緑がかった大きな瞳と、無造作に伸ばした縮毛が印象的だ。テレビでその姿を見た人も少なくないだろう。アルトマンは4月10日、日本の総理大臣官邸を訪れ岸田文雄首相と面談している。

 官邸を出て記者会見を開いたアルトマンはこう語った。

「とてもいい面会だった。岸田首相とはAI技術の長所とともに、欠点をどう軽減していくかについて話し合った」

サム・アルトマンCEO ©時事通信社

 アルトマンはその日の午後、自民党の「デジタル社会推進本部」の会合に出席し、冒頭で「AIの開発が、技術的な革命をもたらすと信じている。日本が果たしうる役割は非常に大きいと思う」と語り、日本に事業拠点を新たに設ける意向を明らかにした。自民党の議員たちは「我が意を得たり」と頷いた。

 アルトマンは会合のあと記者団に対し「日本でいくつかの作業をスタートさせ、チャットGPTを日本語、日本文化にあわせたよりよいモデルにしたい。日本の研究者とも連携したい。数ケ月後にまた日本に来る」と言い残して日本を去った。

 だが人類を超えた知性を生み出そうとするほど頭のいい人間の言葉を真に受けてはいけない。様々な言語を扱うOpenAIにとって日本語が一つの研究課題になるのは間違いないが、同社が日本に拠点を構える理由はそれだけではない。松原氏が説明する。

「AIを成長させるには凄まじいコンピューティング・パワーと、膨大な数のデータが必要ですが、そこで問題になるのはAIに学ばせる文書や画像の著作権や肖像権です」

 2009年に改正された日本の著作権法はその47条の7で『情報解析目的なら、データなどの著作物を記録媒体にコピーできる』と定めている。米欧や中国に遅れを取っているAI研究で巻き返す狙いともされるが、法学者からは「日本は機械学習パラダイスになってしまった」と批判も上がっている。

 2月には米ウォール・ストリート・ジャーナル紙を発行するダウ・ジョーンズ社がOpenAIに対し「正当な対価を支払うことなくウォール・ストリートジャーナルの記事を利用している」と抗議。「記事をAIのトレーニング(機械学習)に利用したいなら、そのための正当なライセンス(使用許諾権)を取得しなければならない」と主張している。

 米欧で「チャットGPT包囲網」が形成されつつある中、その逆をいく日本はOpenAIにとって、データ取り放題の「パラダイス」なのだ。

松尾豊さんの「チャットGPT アルトマンの『個人情報』」全文は、月刊「文藝春秋」2023年7月号と、「文藝春秋 電子版」に掲載されています。

「チャットGPTを日本語にあわせたモデルにしたい」アルトマンCEOが日本を狙う“本当の理由”

X(旧Twitter)をフォローして最新記事をいち早く読もう

文藝春秋をフォロー