AI系列专题报告(一)：AI算力参数爆发兼论国产算力比较_新闻资讯-荆州市尊龙时凯网络科技有限公司

NEWS

紧密跟随国家产业指导及技术发展

AI系列专题报告(一)：AI算力参数爆发兼论国产算力比较浏览数：623 发布时间：2024-01-19 17:10

算力参数：多厂商逐鹿AI，，，矩阵计算为核心算力参数。。。。AI 算力参数种类繁多，，其本质是精度与运算效率的取舍。。为更好适应AI 大模型的训练与推理，，，，FP32 TensorCore，，，BF16 等新兴数据类型应运而生。。。。以FP32 Tensor Core 为例，，，，其为英伟达张量计算的数据格式，，，，使得模型训练性能大幅提升。。。英伟达H200 的FP32 算力为67TFlops，，对应FP32 Tensor Core 算力为989TFlops，，，性能大幅提升。。而国内各算力厂商产品性能迭代顺利，，，华为海思此前发布的昇腾910 在FP16 算力性能上接近A100，，，，下一代910B 性能有望显著提升。。。。寒武纪370 对标英伟达L2芯片。。。。海光信息深算三号研发进展顺利；龙芯中科第二代图形处理器LG200 单节点性能达256GFlops-1TFlops，，，，将基于2K3000 的GPGPU 技术及3C6000 的龙链技术，，，，研制专用GPGPU 芯片。。。

互联参数：多卡互联为大模型桎梏，，国内外差距巨大。。。。相比小模型，，大模型要求在模型切分后进行模型并行。。模型并行使得多个GPU 能同时运行模型的一部分，，并在共享结果后进入到下一层。。。。大模型的发展使得类似英伟达NVLink、、、NVSwitch等互联技术的重要性快速提升，，，，同时互联性能参数也成为各大模型实际效果好坏的重要凭依。。。大多数厂商利用PCIe 进行互联，，而英伟达的NVLink 能够实现GPU间的直接互联，，从而大幅提升通信效率，，，，其NVLink 带宽可达到900 GB/s。。在大规模高精度的3D FFT、、3950 亿参数的大模型训练上，，H100+NVLink 组合的提升显著。。。。我们认为随着大模型的复杂化，，，NVLink 等多卡互联技术将愈加重要。。在多卡互联上，，，国内外厂商亦有所差距。。。以寒武纪MLU370-X8 为例，，，寒武纪为多卡系统专门设计了MLU-Link 桥接卡，，，其可实现4 张加速卡为一组的8 颗思元370 芯片全互联，，每张加速卡可获得200GB/s 的通讯吞吐性能，，，，带宽为PCIe 4.0 的3.1倍。。但相比英伟达NVLink 4.0 的900GB/s，，，，该互联性能仅为英伟达的22%，，，仍有较大提升空间。。

建议关注：

算力芯片：寒武纪（思元590 性能有望显著提升）、、、、海光信息（深算三号研发进展顺利）、、龙芯中科（将基于2K3000 的GPGPU 技术及3C6000 的龙链技术研制专用GPGPU 芯片）

AI 应用：海康威视、、、大华股份、、乐鑫科技、、晶晨股份、、、、恒玄科技、、、中科蓝讯服务器：工业富联、、沪电股份

服务器存储：澜起科技、、、聚辰股份

先进封装：通富微电、、、、长电科技、、甬矽电子、、、、华天科技? 风险提示：下游需求复苏不及预期，，技术研发风险，，国内外政策和技术摩擦不确定性的风险。。。。

知前沿，，问智研。。智研咨询是中国一流产业咨询机构，，十数年持续深耕产业研究领域，，提供深度产业研究报告、、、、商业计划书、、可行性研究报告及定制服务等一站式产业咨询服务。。。专业的角度、、品质化的服务、、、、敏锐的市场洞察力，，专注于提供完善的产业解决方案，，，为您的投资决策赋能。。。

转自德邦证券股份有限公司研究员：陈海进/徐巡/谢文嘉

上一个：英国高校联合开发下一代引力波探测器

下一个：氢能设备行业点评：多地政策陆续出台关注氢能产业链投资机会

服务热线：

15054210659

地址：湖北省荆州市石首市笔架山办事处皇后宫小区68号
邮箱：service@juaow.cn

Copyright © 2023 荆州市尊龙时凯网络科技有限公司版权所有
鄂ICP备2024077907号