AWS、AIエージェントによる仮想デスクトップ環境を試験導入 - クリックあたり最大50万トークンを消費

#Tech

AWS、AIエージェントによる仮想デスクトップ環境を試験導入 - クリックあたり最大50万トークンを消費

AWSは、WorkSpaces仮想PC上でAIエージェントが操作可能な新しいサービスをプレビュー版として公開しました。

エージェントはIAMを通じてIDを認証し、専用のURL経由でWorkSpaceにアクセスし、ソフトウェアを実行できます。

このサービスは、エージェントの活動を追跡し、人間による操作と区別するために、各エージェントに固有のIDを割り当てることを推奨しています。

ただし、Reflex社の調査によると、エージェントによる操作はAPI利用よりも大幅にコストがかかる可能性があり、クリック1回あたり最大50万トークンを消費する場合があります。

Amazon Web Services(AWS)が、AIエージェントをクラウド上の仮想デスクトップ(WorkSpaces)で動作させる新機能を提供開始しました。これにより、AIが仮想PCを操作し、様々なタスクを自動で実行できるようになります。このサービスは現在プレビュー段階ですが、AIによるデスクトップ操作のコストや、今後のビジネスへの影響が注目されています。

AIエージェントと仮想デスクトップの連携

AWSの新機能では、AIエージェントにAWSのIAM(Identity and Access Management)サービスを用いて独自のIDを付与することが可能です。このIDを利用することで、エージェントはWorkSpacesにアクセスし、仮想PC上で動作するアプリケーションを操作できるようになります。AWSは、エージェントの活動を追跡し、人間による操作とAIによる操作を区別するために、エージェントごとに固有のIDを設定することを推奨しています。これにより、ガバナンスが効いた形でAIの利用が可能になります。

AI操作の仕組みとコスト課題

AIエージェントがデスクトップを操作する仕組みは、主にコンピュータービジョンに基づいています。エージェントはデスクトップのスクリーンショットや動画を取得し、その「見た目」を解釈した上で、クリックやタイピングといったアクションを実行します。しかし、AIコーディング企業Reflexの調査によると、単にドロップダウンメニューをクリックするだけでも50万トークンが必要となるケースがあり、APIを利用するよりも45倍もコストがかかる可能性があると指摘されています。この高コストが、導入を検討する上での大きな課題となっています。

クラウド利用のメリットと市場の動向

仮想PCをクラウド上で利用する最大の利点は、タスク完了後にPCをシャットダウンできる「エフェメラル(一時的)」な性質を持つ点です。また、物理PCやオンプレミスのVM(仮想マシン)構築の複雑さを避け、隔離された環境でAIエージェントを安全に動かせる点もメリットです。Microsoftも同様に、AIエージェント専用のWindows 365版を開発しており、この分野は大手テック企業間で活発な競争が繰り広げられている状況です。

conclusion

AWSのこのサービスは、AIが人間のように複雑なタスクを自動で処理する未来を具体化する一歩です。しかし、高コストや操作の複雑さといった課題も存在します。今後、AIモデルの進化やコスト効率の改善が、この技術の普及を左右していくと見られています。

原文の冒頭を表示(英語・3段落のみ)

Amazon Web Services has let AI agents loose in its cloudy WorkSpaces virtual PCs.

The new service, currently in preview, allows users to assign agents an identity using Amazon’s Identity and Access Management service. Using those credentials, agents can access a WorkSpace at a unique pre-signed URL and drive any apps running there on the cloudy PC.

An AWS spokesperson told us the cloudy colossus recommends developers give each agent a unique identity, because doing so makes it easier to track their activities and to distinguish agentic actions from activity conducted by humans.

※ 著作権に配慮し、引用は冒頭3段落までです。続きは元記事をご覧ください。

元記事を読む ↗