HermesエージェントによるmacOSのコンピューター使用機能
Macデスクトップ操作を自動Hermes Agentは、カーソル移動やSpacesの切り替えを行わずに、バックグラウンドでMacのデスクトップを操作できます。
これは、ClaudeやGPTなどあらゆるモデルに対応した、高度なコンピューター操作ツールセットです。
cua-driverがmacOSのプライベートSPIを活用し、ターゲットプロセスへ直接イベントをポストすることで実現しています。
破壊的な操作は承認が必要な多層のガードレールが適用され、安全性も確保されています。
また、スクリーンショットの最適化により、トークン効率を高めています。
AIエージェントがPCを操作する技術が進化しています。macOS上で動作する「Hermes Agent」は、AIが画面を直接操作(クリック、入力、スクロールなど)し、ユーザーの介入なしにタスクを完遂できる機能を提供しています。これにより、AIとユーザーが同じPC上で「協働」する新しい働き方が可能になると注目されています。
バックグラウンドでのPC操作を実現する仕組み
このHermes Agentの最大の特徴は、操作中にカーソルが動いたり、アプリケーションが前面に出てきたりしない点です。AIはバックグラウンドで動作し、macOSの特定のAPI(SkyLight private SPIsや_AXObserverAddNotificationAndCheckRemoteアクセシビリティSPIなど)を利用して、合成されたイベントをターゲットプロセスに直接送信します。これにより、従来の「画面キャプチャ→AI処理→指示出し」といった手順を飛び越え、よりシームレスな操作が可能になっているとのことです。この仕組みは、OpenAIのCodexが提供していた「バックグラウンドでのPC利用」のオープンソース版であると説明されています。
多様なLLMに対応した柔軟な設計
従来のAIツール連携は、特定のLLM(例えばAnthropic)の独自スキーマに依存することが多く、利用できるモデルが限定的でした。しかし、Hermes Agentは、Claude、GPT、Geminiといった主要な商用モデルだけでなく、ローカル環境で動作するvLLMなどのオープンモデルにも対応しています。これにより、特定のプラットフォームに縛られず、幅広いAIモデルをPC操作エージェントとして活用できる点が大きな強みです。また、視覚モデルのサポートも充実しており、AnthropicとOpenAIの画像処理形式に合わせた柔軟なアダプターも用意されています。
安全性と運用上の最適化策
PC操作という機密性の高いタスクであるため、Hermes Agentは多層的な安全対策を講じています。破壊的なアクション(削除、入力、ドラッグなど)を実行する際は、ユーザーからの承認を必須としています。また、`curl | bash`や`sudo rm -rf /`のような危険なコマンドパターンはツールレベルでハードブロックされています。さらに、画像処理のコストを抑えるため、スクリーンショットの履歴を限定的に保持する「スクリーンショットの排除(eviction)」といった最適化も行われているとのことです。
結論
Hermes Agentは、AIが単なるチャットボットから「実行者」へと進化する流れを象徴する技術です。高度なバックグラウンド操作能力と広範なモデル対応、そして堅牢な安全設計により、AIと人間がより深く、効率的に協働できる未来のワークフローを具体的に実現しつつあると言えるでしょう。
原文の冒頭を表示(英語・3段落のみ)
Hermes Agent can drive your Mac's desktop — clicking, typing, scrolling,
dragging — in the background. Your cursor doesn't move, keyboard focus
doesn't change, and macOS doesn't switch Spaces on you. You and the agent
※ 著作権に配慮し、引用は冒頭3段落までです。続きは元記事をご覧ください。