2023年10月に発表された論文によれば、このプロジェクトで集まった約4.4テラバイトものデータにより作成されたモデル「RT-X」は、フォーク、スプーン、ナイフなどの食器、リンゴ、オレンジ、バナナなどの果物の他、各種の容器、家具、家電を認識して、「引き出しを開け、リンゴを掴んで取り出し、テーブルに置く」という操作などができたという。さらにモデルの学習データに含まれない物体もある程度適切に扱えるようにもなっていた。データの量や種類が多いほど、ロボットの推論力や問題解決力を向上させられる可能性が示されたのだ。
興味深いのは、RT-Xが複数の種類(論文では9種類)のロボットに適用できたことだ。メーカーが異なるPCやスマホでも同じOSで操作できるような互換性がある程度RT-Xにも備わっていると言える。ロボットはこれまでその形状や機構に合わせ、将来遭遇しうる状況に対応すべく開発者がプログラムして動かす必要があった。
従来のロボットが限られた環境で、限られたタスクしかできなかったのは、あらゆる形状、機構、状況をあらかじめ想定してプログラムすることが不可能だったからだ。雑多なものが置かれ、それらの位置や状況などが変化する家の中は、ロボットが特に苦手な環境だったが、それが克服されようとしている。
世界初の商用版ロボット基盤モデル「RFM-1」も登場
RT-Xのように、特定のタスクやロボットに依存せず汎用的に適用できるモデルは、ロボット基盤モデルと呼ばれる。
2024年3月には世界初の商用版ロボット基盤モデル「RFM-1」も登場した。開発したのは、OpenAIのロボット研究部門から独立したスタートアップの米Covariantだ。同社は以前から物流業界向けのロボットを販売し、顧客の倉庫などで稼働してきた。そこで得られたデータを使って作ったのがRFM-1である。米テスラが電気自動車を大々的に販売し、それで得られた走行データで自動運転車を作ろうとしているのと同じ戦略だ。ちなみにRFMはRobotics Foundation Model(ロボット基盤モデル)の略である。