Atlas推論エンジン

#Tech

Atlas推論エンジン RustとCUDAによる超高

Atlas Inference Engineは、RustとCUDAのみでゼロから構築されたLLM推論エンジンです。

PythonやPyTorchといった大規模な依存関係を排除することで、約2.5GBという極小のバイナリで動作します。

この設計により、既存の競合エンジンと比較して劇的な速度向上を実現しています。

Atlasは、手動でチューニングされたカスタムCUDAカーネルやMTP(マルチトークン予測)といった高度な最適化技術を活用しています。

OpenAI互換APIに対応し、多種多様なモデルをサポートすることで、高性能かつシンプルで運用しやすいLLM推論環境を提供します。

大規模言語モデル(LLM)の推論速度を劇的に向上させる新しいエンジン「Atlas Inference Engine」が発表されました。開発元はavarokとされ、従来のLLM実行環境が抱える「重さ」と「複雑さ」を解消し、純粋なRustとCUDAのみで構築された超軽量な設計が特徴です。これにより、従来の主要なフレームワークと比較して大幅な高速化を実現しているとのことです。

従来のLLM実行環境の課題

既存のLLM推論エンジン、例えばvLLMなどは、機能の豊富さゆえに非常に巨大なシステムになっていました。vLLMのイメージサイズは20GB以上にも達し、PythonやPyTorchといった膨大な依存関係と200以上のパッケージを必要とします。この複雑さが、環境構築の難しさや起動時間の長期化(約10分)といったボトルネックを生んでいたと説明されています。

Atlasは、この構造を根本から見直し、PythonやPyTorchといった依存関係を一切排除しています。その結果、イメージサイズは約2.5GBという極めて軽量なバイナリで動作する設計となっています。

RustとCUDAによる高速化の仕組み

Atlasの最大の強みは、純粋なRustとCUDAのみで構成されている点です。これは、インタープリタやGIL(Global Interpreter Lock)といったオーバーヘッドを排除し、HTTPリクエストからカーネルディスパッチまでを最適化されたコードで処理することを意味します。さらに、Attention、MoE(Mixture-of-Experts)、Mamba-2といった主要なアーキテクチャに対し、Blackwell SM120/121向けにカスタムCUDAカーネルが手作業でチューニングされています。

また、MTP(Multi-Token Prediction)という技術を採用しており、一度のフォワードパスで複数のトークンを生成することで、単一トークン生成時の処理を大幅に高速化しています。

実証された圧倒的な性能差

具体的なベンチマークでは、Atlasが従来のvLLMを大きく凌駕する性能を示しています。例えば、Qwen3.5-35Bモデルを単一のDGX Spark(GB10)で実行した場合、Atlasは130 tok/sというピーク性能を達成し、vLLMの約3.3倍の速度を記録しています。

この高速化は、単にソフトウェアを置き換えただけでなく、モデルごとに手動でチューニングされたCUDAカーネルと、効率的なメモリ管理(NVFP4やFP8の利用)によって実現されているとのことです。サポートモデルも豊富で、OpenAI互換のツールコール機能も備えています。

まとめ

Atlas Inference Engineは、LLMの推論を「重く複雑なシステム」から「超軽量で高速なバイナリ」へと変革する試みです。コミュニティ主導でモデルサポートを拡張していく方針であり、今後のAIインフラのあり方に大きな影響を与える可能性が注目されています。

原文の冒頭を表示(英語・3段落のみ)

Pure CUDA + Rust. Zero python dependencies, zero complex recipes. Inference at unimaginable speeds An LLM inference engine written from scratch in Rust and CUDA. No PyTorch. No Python. Just a

~2.5 GB image that runs 3x faster than the status quo. $ docker pull avarok/atlas-gb10:latest ~2.5 GB image. Run command below. 130 tok/s peak (Qwen3.5-35B)~2.5GB total image size<2min cold start time3.1x faster than vLLM Faster by Design Clean architecture beats bloat vLLM ships 20+ GB of Python, PyTorch, and 200+ dependencies. Atlas ships a single ~2.5 GB

binary. That simplicity is the speed. Atlas Image size ~2.5 GBCold start <2 minRuntime Rust + CUDADependencies None vLLM Image size 20+ GBCold start ~10 minRuntime Python + PyTorchDependencies 200+ packages ⚡ Pure Rust + CUDA Compiled from HTTP to kernel dispatch. No interpreter, no GIL, no JIT warm-up.🔧 Custom CUDA Kernels Hand-tuned attention, MoE, GDN, and Mamba-2 kernels for Blackwell SM120/121. NVFP4 and FP8 with native tensor cores.🔮 MTP Speculative Decoding Multi-Token Prediction generates multiple tokens per forward pass. Up to 3x throughput over single-token decoding. Qwen3.5-35B (NVFP4) on DGX Spark Single GPU, batch=1. Atlas with MTP K=2. Atlas vLLM Average (diverse workloads) Atlas111.4 tok/s 3.0x vLLM37.5 tok/s Peak (short context) Atlas130 tok/s 3.3x vLLM~38 tok/s Qwen3.5-122B (NVFP4) on a single DGX Spark 122B parameter model, single node. ~54 tok/s with EP=2. Atlas vLLM Decode throughput Atlas~50 tok/s 3.3x vLLM~15 tok/s Supported Models Model matrix Every model gets hand-tuned CUDA kernels. We expand based on what the community runs. All models

※ 著作権に配慮し、引用は冒頭3段落までです。続きは元記事をご覧ください。

元記事を読む ↗