DeepInfra、推論インフラの規模拡大のためシリーズBラウンドで1億7000万ドルを調達
AI推論を支えるフルスタックDeepInfraは、AI時代の新たなボトルネックとなる推論(Inference)基盤を構築するため、シリーズBで1億7000万ドルを調達しました。
同社は、オープンソースモデルの進化とエージェント型AIの爆発的な需要増加を受け、汎用クラウドでは対応できない高頻度・低遅延な推論需要が拡大していると指摘します。
DeepInfraは、チップからAPIまでを垂直統合した独自のフルスタックプラットフォームを提供し、効率的で予測可能な推論ワークロードを実現しています。
この資金により、グローバルなコンピューティング能力の拡大や開発者ツールの強化を加速させます。
AIの進化に伴い、AIモデルの「推論(Inference)」処理の重要性が高まっています。この度、AIインフラストラクチャを提供するDeepInfra社が、シリーズBラウンドで1億7000万ドル(約250億円超)の資金調達に成功したと発表しました。同社は、AI時代に真に必要な「推論クラウド」の構築を加速させるとしています。
推論がAIワークロードのボトルネックに
DeepInfra社は、AIのワークロードは「学習(Training)」ではなく「推論」が主導する時代に入ったと分析しています。特に、複数のタスクを連続的に実行する「エージェントベースシステム」の普及が、この流れを加速させているとのことです。
エージェントAIは、一つのタスクを完了させるために50〜100回以上のモデル呼び出しをノンストップで行うことがあり、これが膨大なトークン(AIが処理するデータ単位)の継続的な需要を生んでいます。一般的なクラウドサービスは、このような常時稼働で分散した推論の要求に対応できていないのが現状です。
推論に特化したフルスタックの必要性
質の高い推論処理を実現するには、単にソフトウェアやハードウェアの改善だけでは不十分であり、「フルスタック」での最適化が必要だとDeepInfra社は説明しています。推論の高速性、高スループット、低遅延を維持するには、専用のハードウェア、目的に合わせたネットワーク、そして推論に最適化されたソフトウェアが連携する必要があります。
DeepInfra社は、このギャップを埋めるため、チップからAPIまで全てのレイヤーを自社で設計・運用しています。これにより、一般的な汎用クラウドでは実現が難しい、予測可能で効率的な動作を実現しているとのことです。
垂直統合による競争優位性
同社の強みは、単なるプラットフォーム提供に留まらない「垂直統合」にあります。DeepInfra社は、米国の8つのデータセンターでGPUインフラを自社で所有・運用しており、チップからAPIまでをコントロールしています。
さらに、NVIDIAとの早期のインフラ協力関係も強みです。Blackwell GPUや今後のVera Rubinといった最新技術をDynamoソフトウェアと組み合わせることで、推論コスト効率を最大20倍向上させる見込みだとしています。これにより、ハイパースケーラー(巨大クラウド事業者)に依存するよりも、構造的に優れた効率性を実現しているとのことです。
まとめ
今回の資金調達により、DeepInfra社はグローバルなコンピューティング能力の拡大や開発者ツールの強化を加速させます。エンタープライズAIの導入において、推論処理の品質が決定的な要因となりつつある中で、同社の動きが注目されています。
原文の冒頭を表示(英語・3段落のみ)
We've Raised $107M to Build the Inference Cloud the AI Era Actually Needs
Today we're announcing $107 million in Series B funding to scale DeepInfra's inference cloud and expand our global capacity. The round is co-led by 500 Global and Georges Harik, with participation from A.Capital Ventures, Crescent Cove, Felicis, NVIDIA, Peak6, Samsung Next, Supermicro, and Upper90.
This is a big moment for our team — but more than that, it's a signal about where AI infrastructure is heading. Since our Series A, we've grown the volume of tokens we process by 25x.
※ 著作権に配慮し、引用は冒頭3段落までです。続きは元記事をご覧ください。