
人工知能による動画の自動生成は、2025年12月25日に大きな飛躍を遂げました。清華大学がTurboDiffusionのオープンソース公開を発表したのです。このフレームワークは、研究室TSAIL がShengshu TechnologyおよびBiological Mathematicsと共同で開発したもので、視覚品質の損失をほとんど伴わずに、動画作成時間を大幅に短縮できます。
研究チームが公開したデータによると、TurboDiffusionは従来の拡散モデルと比べて動画生成を最大200倍高速化します。少し前まで数分の処理が必要だったケースでも、現在ではハイエンドGPUを1枚使用するだけで、約2秒で動画を得られます。

RTX 5090 で行われたテストでは、特に示唆に富む直接比較が示されています。13億パラメータのモデルに基づく480P解像度・5秒の動画は、従来は約184秒の計算が必要でした。TurboDiffusionでは同じ処理が1.9秒で完了し、速度は約97倍に向上します。
最適化の効果は、より大規模なモデルでも明確です。720P解像度の140億パラメータの画像→動画モデルは、現在では38秒で生成でき、最適化版では24秒まで短縮されます。同モデルの480P版は、処理時間が10秒未満です。
高速化を支える技術
Diffusion Transformerに基づく動画生成モデルが歴史的に遅かった理由は、主に3つの要因にあります。サンプリング手順の多さ、注意機構の計算コスト、そしてGPUメモリの制約です。TurboDiffusion は、4つの補完的な技術を統合することで、これらのボトルネックに対処します。
第一の要素はSageAttention2++です。INT8およびINT4の量子化を用いる低精度アテンション技術で、スムージングとスレッドレベル量子化の戦略により、メモリ消費を削減し、アテンション計算を3〜5倍高速化します。生成される動画品質への目に見える影響はありません。

これに加えてSparse-Linear Attention(SLA)が用いられます。SLAは重要なピクセルの選択と線形計算量を組み合わせたアテンションで、低ビット量子化と互換性があるため、SageAttentionと並行して適用でき、推論効率をさらに高めます。
第三の柱は段階的蒸留rCMです。このアプローチにより、従来は数十回の反復を要したモデルでも、1〜4ステップで同等の結果を生成できるようになり、全体のレイテンシが大幅に低減されます。
最後に、TurboDiffusion(GitHubで提供)は、線形層向けのW8A8量子化と、Triton およびCUDAで開発されたカスタム演算子の使用を導入します。この組み合わせにより、RTX 5090のINT8 Tensor Coreを最大限に活用し、PyTorchの標準実装に伴うオーバーヘッドを削減します。4つの技術を統合することで、総合的に最大200倍の速度向上を実現します。
産業への影響と応用の展望
得られた高速化は、単なる実験的進歩にとどまりません。単一GPUで数秒以内に720P動画を生成できるようになることで、個人クリエイターや小規模企業、コンシューマー用途でもこれらのモデルを利用しやすくなり、同時にクラウド基盤での推論コストも削減されます。
研究者によれば、推論レイテンシを最大100倍削減できれば、SaaSプラットフォームは同じリソースで比例してより多くのユーザーに提供できます。これは、リアルタイム動画編集、対話型コンテンツ生成、AIベースの映像フォーマットの自動制作といった新たなシナリオへの道を開きます。
TSAIL チームが開発した技術は、低ビット深度、スパース構造、カスタマイズ可能な演算子の利用により、中国製AIチップのアーキテクチャとも互換性があります。特にSageAttentionは、すでにNVIDIAのTensorRTに統合され、Huawei AscendやMoore Threads S6000などのプラットフォームでも採用されているほか、多数の国際的な企業・研究機関でも利用されています。
この記事は気に入りましたか?私たちはコミュニティでLinkedIn、Facebook、Instagramにて議論しています。サイバーセキュリティに関する日々の更新を受け取るには、Google Newsでもフォローしてください。また、掲載したいニュースや分析、寄稿をお知らせいただける場合は、ご連絡ください。