2026年3月5日、OpenAIがGPT-5.4をリリースした。
いくつかの「初」があるモデルだけど、一番注目すべきは1つ。
AIが「PCの操作」で人間テスターのスコアを超えた。
OSWorld-Verifiedというベンチマークで75%を記録。人間テスターの平均は72.4%。これがどういう意味を持つか、そしてそもそもAIはPCをどうやって操作しているのかを整理する。
(参考:Introducing GPT-5.4 | OpenAI)
OSWorld-Verifiedとは何か
まず「AIがPCの操作で人間を超えた」と言うからには、何をどう測っているのかを理解する必要がある。
OSWorld-Verifiedは、369個の実際のPC操作タスクでAIの能力を測るベンチマーク。2024年4月に公開され、2025年7月にAWSクラウド上で動作する改良版(Verified)になった。
(参考:OSWorld Benchmark)
Chrome、LibreOffice、GIMP、VS Code、Thunderbird、ファイルマネージャー、ターミナル。実際のアプリケーションを使って、実際のタスクをこなす。「ドキュメントのフォーマットを整えて」「画像を編集して」「設定を変更して」といった指示に対し、AIが自力で操作する。
評価は結果主義だ。正しいステップを踏んだかではなく、最終的なアウトプットが期待通りかどうかで判定される。
人間でも100%は取れない。タスクは制限時間内に行われ、普通に難しい。人間の平均が72.4%。
2024年4月、最高性能のAIモデルのスコアは12.24%だった。2年足らずで75%になった。
AIはPCをどうやって操作しているのか
ここが一番聞かれる部分だと思う。
AIのPC操作は、「スクリーンショット→分析→行動→確認」のループで動いている。Seleniumのような従来の自動化ツールとは根本的に違う。
具体的にはこうだ。
- スクリーンショットを撮る。画面の現在の状態を画像として取得する
- 画像を分析する。視覚モデルが画面上のボタン、入力欄、メニュー、テキスト、アイコンを識別する。HTMLやDOMを読んでいるのではなく、人間と同じように「画面を見ている」
- 次のアクションを決める。ユーザーの指示、これまでの操作履歴、現在の画面状態を踏まえて、クリック位置やキー入力を決定する
- 操作を実行する。`click_at(x=450, y=320)` のような座標指定でマウスやキーボードを動かす
- 結果を確認する。新しいスクリーンショットを撮って、操作が成功したか検証する。失敗なら自己修正する
重要なポイントは、これがHTMLやAPIではなく、ピクセルレベルの画像認識で動いていること。だからWebアプリだけでなく、デスクトップアプリ、ターミナル、どんなソフトウェアでも操作できる。
Anthropicの開発チームは「Claudeにピクセルを正確に数えさせる訓練が極めて重要だった」と述べている。画面の端からの距離を測って、クリック座標を計算する。この精度がPC操作の成否を分ける。
GPT-5.4、Claude、Geminiの精度を比較する
PC操作(computer-use)に取り組んでいるのはOpenAIだけじゃない。主要3社の現状を比較する。
GPT-5.4(OpenAI)
OSWorld-Verifiedスコア:75.0%(業界最高)。前モデルGPT-5.2の47.3%から27.7ポイント改善。
最大の特徴は、computer-useがモデルの重み(weights)に直接組み込まれている点だ。外部ツールとしてではなく、モデル自体がPC操作を「理解」している。動作スタイルは「自律的で決断が速い」。一度タスクを開始すると、頻繁に確認を挟まず連続実行する。
(参考:OpenAI launches GPT-5.4 | TechCrunch)
Claude Sonnet 4.6(Anthropic)
OSWorld-Verifiedスコア:72.5%(人間とほぼ同等)。
Anthropicは2024年10月にClaude 3.5 Sonnetでcomputer-useを初めて実装した最初の大手AIプロバイダーだ。当時のスコアは15%未満。16ヶ月で5倍に改善した。
2026年2月にはVercept(視覚ベースの自動化スタートアップ)を買収し、さらなる精度向上を進めている。動作スタイルは「慎重で確認重視」。重要な判断ポイントでユーザーに確認を求める。
(参考:Anthropic acquires Vercept | TechCrunch)
Gemini(Google)
OSWorldのスコアは非公開。ただし、Webブラウジング特化のBrowseCompベンチマークでは85.9%で全モデル中トップ。
Googleは2つのアプローチを取っている。APIで提供するcomputer-useモデルと、Chromeに統合された「Auto Browse」機能だ。Auto BrowseはGemini 3を搭載し、フォーム入力、航空券検索、ショッピング(カートに入れてクーポン適用まで)を自動で行う。ShopifyやEtsy、Targetと共同で「Universal Commerce Protocol」というオープン規格も策定した。
(参考:Chrome Auto Browse with Gemini 3 | Google Blog)
比較まとめ
| 項目 | GPT-5.4 | Claude Sonnet 4.6 | Gemini |
|---|---|---|---|
| OSWorldスコア | 75.0%(最高) | 72.5% | 非公開 |
| 対人間(72.4%) | 超えた | ほぼ同等 | 不明 |
| アーキテクチャ | モデルに統合 | 外部ツール型 | API+Chrome統合 |
| 操作スタイル | 自律的・連続実行 | 慎重・確認重視 | 購入時に確認 |
| Webブラウジング | ○ | ○ | ◎(85.9%) |
| デスクトップ全般 | ◎ | ◎ | △(ブラウザ中心) |
GPT-5.4はデスクトップ全般の操作で最高精度。Claudeは安全性重視の運用向き。Geminiはブラウザ操作に特化して最強。
今できること、まだできないこと
現時点でAIが「確実にできる」PC操作と、まだ難しい操作がある。
今できること
- Webフォームの入力・データ登録(複数サイトをまたぐ操作も可)
- 価格比較・商品リサーチ(50以上のサイトを同時に調査)
- ファイル管理(フォルダ整理、ドキュメント検索)
- スプレッドシートのデータ更新
- ソフトウェアの設定変更
- ブラウザでのショッピング(Gemini Auto Browse)
まだ難しいこと
- ドラッグ&ドロップ操作(全モデルで精度が低い)
- 100ステップ以上の長い操作シーケンス
- カスタム企業ソフトウェア(UIが頻繁に変わる環境)
- CAPTCHA
- 創造的判断を伴うタスク
実際に使ってみた実感
筆者も実際にClaude CodeでWebフォームの自動入力を試してみた。結論から言うと、成功率は体感で30%くらい。
まずreCAPTCHAがあるフォームは送信できない。「私はロボットではありません」のチェックボックスがある時点で詰む。これは全モデル共通の課題だ。
それ以外にも、各社のフォームのHTML構造がバラバラなので結構失敗する。ドロップダウンの選択肢がうまく開かない、日付入力欄の形式が合わない、住所の自動入力で郵便番号と都道府県の連動がうまくいかない。
ベンチマークで75%でも、実際の業務フォームでは「まだまだ」というのが正直な感想だ。特に日本のWebサイトは独自のUIライブラリを使っていることが多く、海外サイトより難易度が高い印象がある。
ただ、シンプルなフォーム(入力欄が10個以下、ドロップダウンが少ない)なら、かなりの確率で成功する。全部ダメというわけではない。向き不向きがはっきりしている段階だ。
2年で12%→75%。この進化速度の意味
2024年4月に12.24%だったスコアが、2026年3月に75%。2年足らずで約6倍。
2025年後半の時点では、50ステップのワークフローで25〜40%のステップを完了できるレベルだった。2026年末から2027年にかけて、標準的なオフィス作業では人間に近い信頼性に達すると予測されている。
ホワイトカラーの仕事の大半は「PCを操作すること」で成り立っている。メールを書く、資料を作る、データを整理する。
その「操作」そのものでAIが人間を超え始めた。
ただし、Gizmodoは「OpenAI, in Desperate Need of a Win」と報じている。巨額の投資を回収するため、「仕事に使えるAI」を前面に出さざるを得ないOpenAIの事情もある。
(参考:OpenAI, in Desperate Need of a Win | Gizmodo)
技術の進化は本物だ。でも、「人間を超えた」という表現には注意がいる。OSWorldは管理された環境でのテストであり、実際のオフィスの複雑さとは違う。
「PCの操作で人間を超えた」は事実だが、「人間の仕事を丸ごと代替できる」とは違う。
それでも、方向は明確だ。この進化が止まる理由は今のところ見当たらないため、AIがホワイトカラーの仕事を奪う日も遠くないかもしれない。
AI LIFEコミュニティでは、AIツールの最新動向や実務での活用方法を日々共有しています。
AIの進化をキャッチアップしたい方は、ぜひコミュニティにご参加ください。