次世代人工知能「Claude Opus 4.5」をアンソロピックが発表

Photo of author

By Global Team

米国の人工知能企業アンソロピック(Anthropic)は、25日(現地時間)に新しい言語モデル「Claude Opus 4.5」を正式に発表しました。

今回のモデルは、単にテキストを生成する水準を超え、人のように問題を分析し判断する能力を備えています。

特に、実際の開発業務、文書作成、データ分析などで性能が大幅に向上し、「AIが人の仕事を代替する水準に到達した」と評価されています。

アンソロピックは「Opus 4.5は、人間の命令にただ従うツールではなく、自ら状況を理解し合理的な解決策を見つけ出すモデル」であり、「AIと人が共に働く協業の時代の始まり」と発表しました。

アンソロピック、次世代人工知能『Claude Opus 4.5』公開
アンソロピック、次世代人工知能『Claude Opus 4.5』公開

Opus 4.5の性能は、単なる宣伝ではなく、実際のデータで証明されました。

アンソロピックは社内エンジニア採用過程で使用する実践コーディング試験をOpus 4.5モデルに同様に適用しました。試験時間は2時間に制限され、問題は実際の企業環境で発生し得る複雑なエラー修正と機能実装を中心としたものでした。その結果、Opus 4.5はアンソロピックに応募した歴代すべての応募者より高い得点を記録しました。

アンソロピック側は「AIが既に人間水準の技術的判断能力を確保したことを示しています」と説明しました。

もう一つの国際標準評価「SWE-bench Verified」でもOpus 4.5は最高得点を得ました。このテストは、世界中のAIモデルを対象に、実際の開発業務環境でどれほど正確にコードを書き、バグを修正できるかを測定するものです。

Opus 4.5は単なる演算能力を超え「状況判断力」を示しました。

アンソロピックは航空会社の顧客対応シナリオを例に挙げました。顧客が航空券の日程を変更したいと希望したが、該当座席グレードでは日程変更が不可能な条件でした。

大多数のモデルは「規定上不可能」と答えましたが、Opus 4.5は別のアプローチを取りました。まず、座席グレードを上位に上げた上で、変更が可能な条件を新たに適用する方式を提示しました。この過程は規定を違反せずに顧客の要求を解決する合法的な解法でした。

実験では「正解」として採点されませんでしたが、研究陣は「AIが単なる命令遂行ではなく創造的に問題を解決した点で注目すべき」と評価しました。

Opus 4.5は前のバージョンよりずっと少ないトークンを使用して類似またはそれ以上の結果を導出する。
Opus 4.5は前のバージョンよりずっと少ないトークンを使用して類似またはそれ以上の結果を導出する。

アンソロピックによると、Opus 4.5が以前のモデルよりもはるかに効率的に作動するとのことです。

同じ問題を解決するのに必要なテキスト量(トークン)を最大76%削減し、結果はより精密になりました。AIが不要な説明や重複した推論なしにより迅速に結論に到達することを意味します。

開発者はAPIを使用する際に「effort(努力)」の水準を直接設定できます。例えば、簡単な回答が必要な場合は「低い努力モード」を、複雑な分析が必要な場合は「高い努力モード」を選択できます。

最高水準に設定した場合、Opus 4.5は前のモデルより4.3%高い正確度を示しながらもトークン使用量は半分水準に削減されました。

Opus 4.5は長い会話や複雑な文書作業でもその状況を自動で整理します。以前は会話の長さが長くなると冒頭の内容が消えてしまっていましたが、今回のモデルは自ら要約して会話の流れを続けます。

また、Excel、Chrome、デスクトップなど様々なプログラムと連動して資料分析や報告書作成といった反復業務でも活用性が高まりました。

AIの発展とともに「セキュリティ」は必須の課題として浮上しました。最近、一部のAIがユーザーの指示にだまされたり、悪意のある命令を誤認して誤った行動をするケースが増えています。

これを防ぐためにアンソロピックは今回のモデルを「最も整列の良いモデル」と強調しました。

プロンプトインジェクション(prompt injection)はAIに悪性の指示を密かに注入して誤った出力を誘導する攻撃方式です。Opus 4.5はこのような攻撃への防御力が業界最高水準と評価されました。

アンソロピックは「ハッカーが巧妙に設計した文章を入力してもOpus 4.5は意図を認識して反応を遮断する」と述べました。

AIが自ら意図しない行動をしないように設計された点も特徴です。会社は「今回のモデルは単に賢いだけでなく安全に設計された」と強調しました。

アンソロピックはOpus 4.5を自社アプリとAPI、主要なクラウドプラットフォームで即座に使用できるようにしました。利用料金は入力100万トークン当たり5ドル、出力25ドルです。これは高性能AIモデルの中では比較的安価な水準です。

開発者用ツール「Claude Code」はOpus 4.5を基に精密な計画立案機能を追加しました。AIが作業前に計画を文書で作成して提示してから実行するため、人と協力しやすくなりました。

またデスクトップバージョンでは複数の作業を同時に進められるため効率が高まりました。ブラウザ拡張プログラム「Claude for Chrome」と「Claude for Excel」も一般ユーザーに拡大されました。

企業だけでなく一般の利用者もExcelでデータ分析や文書整理を自動化することができます。

Leave a Comment