グーグルは24日(現地時間)、自社のAIモデル「Gemini 3.5 Flash」に「コンピュータ使用(computer use)」機能を基本ツールとして追加したと明らかにした。画面を認識してクリックし、文字を入力し、スクロールする作業をAIが自ら行う。ウェブブラウザーだけでなく、スマートフォンやPC環境でも動作する。
この機能自体は新しいものではない。昨年10月に同じ機能を別モデルとして一度公開している。変わったのは、別途呼び出す必要なく主力モデルの中でそのまま使えるようになった点だ。
開発者が2つのモデルを行き来する必要はなくなった。グーグル・ディープマインドのプロダクトマネージャー、マテオ・キロス氏は、今回の統合によってFlashが画面を見て判断し、行動できるようになったと説明した。
◆ チャットボットを超えて“働くAI”へ
今回の変化の核心は「AIエージェント」だ。エージェントとは、人の指示を受けて複数段階の作業を自律的に処理するAIを指す。質問に答えるだけのチャットボットとは異なる概念だ。
グーグルが打ち出す活用例は、反復業務の自動化だ。人がいちいち画面を押さなくても、AIがソフトウェアを点検し、エラーを見つけ出す。複数のウェブサイトを回って資料を集めたり、フォームを埋めたり、社内システムからデータを抽出したりする作業も任せられる。

業界では、応答にとどまっていたAIが実際の労働を代替する段階に入ったとの評価が出ている。AI産業の重心がチャットボットから「働く秘書」へ移る流れの一場面だという解釈だ。
◆ 安全装置を前面に打ち出したグーグル

グーグルが最も力を込めて説明したのは性能ではなく安全性だった。AIが実際に画面を操作し始めると、新たな危険が伴う。代表例が「プロンプトインジェクション(prompt injection)」攻撃だ。
簡単に言えば、罠の命令だ。ウェブページや文書の中に悪意ある命令文をこっそり仕込んでおくと、作業中のAIがそれを本物の指示と誤認し、見当違いの行動を起こしてしまう。セキュリティ研究者たちは、AIエージェントがこうした方法で操作され得ることを繰り返し実証してきた。
グーグルはこの攻撃に備え、別途の敵対的訓練を行ったと明らかにした。さらに企業向けの安全装置を2つ提示した。1つは、フォーム送信や決済、データ削除のように取り返しのつかない作業の前に、人による確認を受けるようにする機能だ。もう1つは、罠の命令が検出された場合に作業を自動停止する装置だ。
いずれの機能も初期設定ではない。開発者が直接オンにしなければ作動しない。会社は1つの装置に頼るのではなく、複数の防御を重ねる「多層防御」を推奨している。どの安全装置もそれ単独では十分ではない、とグーグル自身が文書に記している。他のAI機能を宣伝する際の自信に満ちた調子とは異なるとの評価も出ている。
◆ 競争の軸は安全へ移った
この市場を最初に切り開いたのはアンソロピックだ。同社の「Claude Computer Use」は、ウェブブラウザーを超えてPCのオペレーティングシステムやファイルまで扱う。グーグルも今年初め、Chromeの企業向けバージョンに、複数段階の作業を自律的に実行する自動検索機能を追加した。オープンAIも同じ市場に参入した。
3社の競争軸は分かれつつある。誰がボタンをよりうまく押せるかという問題ではない。規制の厳しい企業環境で、誰がより安全に動作させられるかが焦点になったとの分析だ。
残された課題も明確だ。今のAIは見慣れた画面ならうまく扱えるが、予想外のポップアップウィンドウや、CAPTCHAのようなセキュリティ文字、初めて見る画面構成の前では戸惑う。グーグルが別モデルではなく標準機能として組み込んだのは、技術がそれだけ成熟したという自信の表れと受け取れる。安全装置をユーザーの選択に委ねたのは、まだ人の監督なしで任せるのは早いという判断を示している。
グーグルは今回の機能が以前のモデルよりどれほど正確になったのか、具体的な数値は示さなかった。どの企業が導入しているのかも公開しなかった。企業が導入を検討するなら、性能指標と同じくらい、人が途中で介入する仕組みを一緒に設計することが重要だという助言が出ている。チャットボットを超えて働くAIの時代の扉は開いたが、その扉を安全に通り抜ける方法は、なお各自の課題として残っている。
