Google DeepMindは次世代AIエージェント「SIMA 2」を公開し、汎用AI技術競争に拍車をかけました。
SIMA 2は「ジェミナイ」を統合し、環境理解と推論能力を拡張し、複雑な作業遂行能力を大幅に向上させました。研究陣はSIMA 2が自ら経験を積み性能を向上させる構造を持っていると説明しました。
Google DeepMindは昨年3月に初めてSIMA 1を公開しました。当時、SIMA 1は様々な3Dゲームデータを基に訓練され、複数の仮想環境で指示を遂行するエージェントでした。しかし、複雑な作業を完了できた割合はわずか31%で、限界が明らかになっていました。DeepMindはこの問題を解決するためにSIMA 2の開発に着手しました。
DeepMindの主席研究員ジョ・マリノは「SIMA 2はSIMA 1に比べて性能が二倍に向上した」と説明しました。彼は「SIMA 2が以前に経験しなかった環境でも複雑な作業を完遂する」と述べました。

マリノはSIMA 2の最大の変化を「初めて見る環境でも複雑な作業を遂行できる点」と説明しました。彼は「SIMA 2が経験を基に能力を高める自己改善構造を備えており、汎用AI研究の一段階と見ることができる」と述べました。
DeepMindは「エンボディード・エージェント(Embodied Agent)」の概念を強調しました。エンボディードは「身体を持った状態で実現された」という意味です。エンボディード・エージェントはロボットのように環境を直接見て動きながら作業を遂行する形態を指します。反対に非エンボディード・エージェントはスケジュール整理やメモ管理のように画面内でのみ動作する方式です。研究陣はエンボディード・エージェントが多様な環境で作業を遂行する必要がある汎用AI研究の核心概念だと説明しました。
ジェン・ワンDeepMind上級研究員はSIMA 2の変化が単純なゲーム操作能力にとどまらないと述べました。彼は「SIMA 2が現象を理解し、ユーザーが要求した作業を常識的な方法で処理するように設計されている」と説明しました。

DeepMindはデモを通じてSIMA 2の行動方式を公開しました。SIMA 2はゲーム「ノーマンズスカイ」で周辺環境を描写し、救難信号器を認識して移動経路を判断しました。研究陣は「エージェントが環境を観察した後、自ら次の行動を決定した」と説明しました。
SIMA 2は言語だけでなく、色、物体情報も組み合わせて推論します。研究陣は「よく熟したトマト色の家に移動せよ」という指示をデモしました。SIMA 2はトマト色を「赤」と結び付けて目標対象を選択しました。研究陣は内部推論過程がそのまま表れるように設計したと述べました。
SIMA 2は絵文字ベースの指示も遂行しました。マリノは「斧()と木()の絵文字を入力するとSIMA 2が木を切る行動を遂行した」と説明しました。
DeepMindは生成モデルGenieが作った写真レベルの仮想世界でもSIMA 2がベンチ、木、蝶などの物体を識別して相互作用したと発表しました。
DeepMindはSIMA 2が人間データに依存していたSIMA 1とは異なり、自己学習構造を備えていると説明しました。SIMA 2は人間プレイデータで初期モデルを作成した後、新しい環境でGeminiを基に新しい作業を生成します。報酬モデルが行動を評価し、エージェントがこれを学習して性能を高めます。

DeepMindはこれを通じてエージェントが試行錯誤を経て自ら行動能力を拡張すると説明しました。人間がすべてのデータを直接提供しなければならない構造から脱却した点に意義を置きます。
フレデリック・ベスDeepMind上級研究エンジニアはSIMA 2が実際のロボット作業で必要な高次元の判断と課題理解能力により近いと述べました。彼は「ロボットが特定の場所に移動するには対象と空間情報の概念をまず理解しなければならず、SIMA 2がこの領域を扱っている」と説明しました。
DeepMindはSIMA 2を実際のロボットシステムに適用するスケジュールは未定であると発表しました。DeepMindは別途ロボットベースのモデルを開発中です。DeepMindはSIMA 2のプレビュー公開目的を活用可能性と協力可能性の検討としました。