少ないパラメータで高性能を実現したAIモデル

#Tech

少ないパラメータで高性能を実現したAIモデル AMD製AIモデル、性能を向

Zyphra社が開発したZAYA1-8Bは、少ないアクティブパラメータ数(760M)ながら、数学・コーディングにおいて最先端モデルに匹敵する性能を発揮します。

AMDのGPUを活用したトレーニングが特徴で、NVIDIA独占の状況打破に貢献する可能性があります。

独自のMarkovian RSA技術により、計算資源を増やすほど性能が向上し、複雑な問題解決に貢献します。

AIモデルの性能比較が注目される中、Zyphra社が開発した「ZAYA1-8B」が、少ないアクティブパラメータで高性能を発揮したと発表しました。本モデルは、数学ベンチマークでDeepSeek-R1に匹敵し、推論能力ではClaude Sonnet 4.5と競争力のある結果を出しているとのことです。特に注目されるのは、その高い性能を10億未満のアクティブパラメータで実現している点です。

AMDハードウェアによる開発の意義

これまで、高性能AIモデルの多くはNVIDIA社のH100やA100といったGPUを基盤として開発されてきました。しかし、Zyphra社はZAYA1-8BをAMD Instinct MI300X GPUを使い、IBMと共同で構築したAMDクラスター上でエンドツーエンドで訓練しました。これは、AIインフラの主流がNVIDIAに偏っている現状に対する、重要な代替案を提示していると言えます。AMDスタックが最先端の競争力を持つ結果を生み出せることを証明した点も評価されています。

少ないアクティブパラメータの技術

ZAYA1-8Bは、合計84億パラメータを持つMixture of Experts (MoE)モデルを採用しています。通常のモデルが全パラメータを処理するのに対し、MoEモデルはトークンごとに一部の専門家(エキスパート)のみを活性化させます。ZAYA1-8Bは、推論時に7億6000万という極めて少ないアクティブパラメータで動作します。これにより、大規模な知識を保持しつつ、計算コストを10億未満の密なモデルに近い水準に抑えることが可能になっています。

高度な推論手法の採用

さらに、ZAYA1-8Bは「Markovian RSA」という独自の推論手法を採用しています。これは、従来のモデルが一度の長い推論チェーンで回答を出すのに対し、複数の推論トレースを並行して生成し、必要な情報だけを抽出して次のステップのシードとして利用する仕組みです。これにより、推論の過程でコンテキストウィンドウが溢れる問題を回避し、計算リソースを増やすほど性能が向上するという特徴を持っています。

まとめ

ZAYA1-8Bは、ハードウェアの多様性、MoEの最適化、そして革新的な推論手法を組み合わせることで、高性能AIの新たな可能性を示しました。数学やコーディングといった特定のタスクでは高い競争力を示していますが、エージェント機能など他の領域での改善も今後の課題と見られています。

原文の冒頭を表示(英語・3段落のみ)

- Advertisement -

Zyphra just dropped a model that’s doing something most people will scroll past without understanding why it’s interesting.

ZAYA1-8B matches DeepSeek-R1 on math benchmarks. Stays competitive with Claude Sonnet 4.5 on reasoning. Closes in on Gemini 2.5 Pro on coding. These are frontier model comparisons, the kind of numbers that usually come with billions of parameters and serious hardware requirements.

※ 著作権に配慮し、引用は冒頭3段落までです。続きは元記事をご覧ください。

元記事を読む ↗