家庭で使うロボットはこれまで何か一つの単純作業を行う特化型ばかりだった。掃除なら掃除、芝刈りなら芝刈り、荷物の運搬なら運搬しかできなかった。しかし今、掃除に加えて、ドアを開け閉めしながら家中を動き回って片付けたり、洗濯物を取り入れて畳んだり、料理をしたり、といった複雑な作業を1台でこなす汎用型ロボットが開発されつつある。
その起爆剤がChatGPTに代表される大規模言語モデル(LLM)だ。正確にはLLMを作るのに使われるトランスフォーマーと呼ばれるAI技術である。これは大量のデータを効率的に統計処理してパターンを整理できるように考えられた骨組みのようなものだ。そこに膨大なテキストを投入し、いわば肉づけすることで、文章の続きを書いたり、翻訳をしたりするのに長けたLLMができる。OpenAIのChatGPTのほか、GoogleのGemini、AnthropicのClaudeなどLLMは数あれど、その土台は2017年にGoogleの研究者らが発表したトランスフォーマーである。
問題はどれほど複雑なタスクをロボットにさせられるか
これをロボットに応用するといっても流暢に人と対話させるためではない。もちろんそれも可能だが、真の狙いは動作の生成にある。トランスフォーマーはテキストの他、画像、各種センサーのデータも扱える。周囲の環境に関する画像や、動作に関するデータをインプットして、トランスフォーマーをベースとする動作モデルを作れば、文章や画像を生成するように、動作を生成することだってできる。アームの各関節を何度回転させ、グリッパー(ロボットハンド)を、どの程度の力で動かして対象物を掴むのかに関する命令文を、モデルが生成してロボットを動かすのだ。
問題はどれほど複雑なタスクをロボットにさせられるかだ。LLMの場合は、Webのテキストを与えれば与えるほど的確な推論力、豊かな表現力を獲得させることができた。ロボットでも同じ物量作戦が通用するのか。
この問いに答えたのがGoogleらが立ち上げたOpen X-Embodimentプロジェクトだ。世界中の研究機関から提供してもらった、人間によるロボットの遠隔操作データやカメラ画像で、トランスフォーマーをベースとするモデルを作る試みである。