算力參數:多廠商逐鹿AI,矩陣計算為核心算力參數。AI 算力參數種類繁多,其本質是精度與運算效率的取舍。為更好適應AI 大模型的訓練與推理,FP32 TensorCore,BF16 等新興數據類型應運而生。以FP32 Tensor Core 為例,其為英偉達張量計算的數據格式,使得模型訓練性能大幅提升。英偉達H200 的FP32 算力為67TFlops,對應FP32 Tensor Core 算力為989TFlops,性能大幅提升。而國內各算力廠商產品性能迭代順利,華為海思此前發布的昇騰910 在FP16 算力性能上接近A100,下一代910B 性能有望顯著提升。寒武紀370 對標英偉達L2芯片。海光信息深算三號研發進展順利;龍芯中科第二代圖形處理器LG200 單節點性能達256GFlops-1TFlops,將基于2K3000 的GPGPU 技術及3C6000 的龍鏈技術,研制專用GPGPU 芯片。
互聯參數:多卡互聯為大模型桎梏,國內外差距巨大。相比小模型,大模型要求在模型切分后進行模型并行。模型并行使得多個GPU 能同時運行模型的一部分,并在共享結果后進入到下一層。大模型的發展使得類似英偉達NVLink、NVSwitch等互聯技術的重要性快速提升,同時互聯性能參數也成為各大模型實際效果好壞的重要憑依。大多數廠商利用PCIe 進行互聯,而英偉達的NVLink 能夠實現GPU間的直接互聯,從而大幅提升通信效率,其NVLink 帶寬可達到900 GB/s。在大規模高精度的3D FFT、3950 億參數的大模型訓練上,H100+NVLink 組合的提升顯著。我們認為隨著大模型的復雜化,NVLink 等多卡互聯技術將愈加重要。在多卡互聯上,國內外廠商亦有所差距。以寒武紀MLU370-X8 為例,寒武紀為多卡系統專門設計了MLU-Link 橋接卡,其可實現4 張加速卡為一組的8 顆思元370 芯片全互聯,每張加速卡可獲得200GB/s 的通訊吞吐性能,帶寬為PCIe 4.0 的3.1倍。但相比英偉達NVLink 4.0 的900GB/s,該互聯性能僅為英偉達的22%,仍有較大提升空間。
建議關注:
算力芯片:寒武紀(思元590 性能有望顯著提升)、海光信息(深算三號研發進展順利)、龍芯中科(將基于2K3000 的GPGPU 技術及3C6000 的龍鏈技術研制專用GPGPU 芯片)
AI 應用:??低?、大華股份、樂鑫科技、晶晨股份、恒玄科技、中科藍訊服務器:工業富聯、滬電股份
服務器存儲:瀾起科技、聚辰股份
先進封裝:通富微電、長電科技、甬矽電子、華天科技? 風險提示:下游需求復蘇不及預期,技術研發風險,國內外政策和技術摩擦不確定性的風險。
知前沿,問智研。智研咨詢是中國一流產業咨詢機構,十數年持續深耕產業研究領域,提供深度產業研究報告、商業計劃書、可行性研究報告及定制服務等一站式產業咨詢服務。專業的角度、品質化的服務、敏銳的市場洞察力,專注于提供完善的產業解決方案,為您的投資決策賦能。
轉自德邦證券股份有限公司 研究員:陳海進/徐巡/謝文嘉


2025-2031年中國算力行業市場全景調查及戰略咨詢研究報告
《2025-2031年中國算力行業市場全景調查及戰略咨詢研究報告 》共十一章,包含中國算力行業發展環境洞察,中國算力行業市場前景預測及發展趨勢預判,中國算力行業投資戰略規劃策略及發展建議等內容。



