家庭で使うロボットはこれまで何か一つの単純作業を行う特化型ばかりだった。掃除なら掃除、芝刈りなら芝刈り、荷物の運搬なら運搬しかできなかった。しかし今、掃除に加えて、ドアを開け閉めしながら家中を動き回って片付けたり、洗濯物を取り入れて畳んだり、料理をしたり、といった複雑な作業を1台でこなす汎用型ロボットが開発されつつある。
その起爆剤がChatGPTに代表される大規模言語モデル(LLM)だ。正確にはLLMを作るのに使われるトランスフォーマーと呼ばれるAI技術である。これは大量のデータを効率的に統計処理してパターンを整理できるように考えられた骨組みのようなものだ。そこに膨大なテキストを投入し、いわば肉づけすることで、文章の続きを書いたり、翻訳をしたりするのに長けたLLMができる。OpenAIのChatGPTのほか、GoogleのGemini、AnthropicのClaudeなどLLMは数あれど、その土台は2017年にGoogleの研究者らが発表したトランスフォーマーである。
これをロボットに応用するといっても流暢に人と対話させるためではない。もちろんそれも可能だが、真の狙いは動作の生成にある。トランスフォーマーはテキストの他、画像、各種センサーのデータも扱える。周囲の環境に関する画像や、動作に関するデータをインプットして、トランスフォーマーをベースとする動作モデルを作れば、文章や画像を生成するように、動作を生成することだってできる。アームの各関節を何度回転させ、グリッパー(ロボットハンド)を、どの程度の力で動かして対象物を掴むのかに関する命令文を、モデルが生成してロボットを動かすのだ。

異なるメーカーでも作動
問題はどれほど複雑なタスクをロボットにさせられるかだ。LLMの場合は、Webのテキストを与えれば与えるほど的確な推論力、豊かな表現力を獲得させることができた。ロボットでも同じ物量作戦が通用するのか。
この問いに答えたのがGoogleらが立ち上げたOpen X-Embodimentプロジェクトだ。世界中の研究機関から提供してもらった、人間によるロボットの遠隔操作データやカメラ画像で、トランスフォーマーをベースとするモデルを作る試みである。
2023年10月に発表された論文によれば、このプロジェクトで集まった約4.4テラバイトものデータにより作成されたモデル「RT-X」は、フォーク、スプーン、ナイフなどの食器、リンゴ、オレンジ、バナナなどの果物の他、各種の容器、家具、家電を認識して、「引き出しを開け、リンゴを掴んで取り出し、テーブルに置く」という操作などができたという。さらにモデルの学習データに含まれない物体もある程度適切に扱えるようにもなっていた。データの量や種類が多いほど、ロボットの推論力や問題解決力を向上させられる可能性が示されたのだ。
興味深いのは、RT-Xが複数の種類(論文では9種類)のロボットに適用できたことだ。メーカーが異なるPCやスマホでも同じOSで操作できるような互換性がある程度RT-Xにも備わっていると言える。ロボットはこれまでその形状や機構に合わせ、将来遭遇しうる状況に対応すべく開発者がプログラムして動かす必要があった。
有料会員になると、この記事の続きをお読みいただけます。
記事もオンライン番組もすべて見放題
初月300円で今すぐ新規登録!
初回登録は初月300円
月額プラン
初回登録は初月300円・1ヶ月更新
1,200円/月
初回登録は初月300円
※2カ月目以降は通常価格で自動更新となります。
年額プラン
10,800円一括払い・1年更新
900円/月
1年分一括のお支払いとなります。
※トートバッグ付き
電子版+雑誌プラン
18,000円一括払い・1年更新
1,500円/月
※1年分一括のお支払いとなります
※トートバッグ付き
有料会員になると…
日本を代表する各界の著名人がホンネを語る
創刊100年の雑誌「文藝春秋」の全記事が読み放題!
- 最新記事が発売前に読める
- 編集長による記事解説ニュースレターを配信
- 過去10年7,000本以上の記事アーカイブが読み放題
- 塩野七生・藤原正彦…「名物連載」も一気に読める
- 電子版オリジナル記事が読める
source : ノンフィクション出版 2025年の論点

