算力资源有限,,,调度优化问题紧迫。。OpenAI 此前在技术博客《Scaling Kubernetes to2,500 nodes》中提到,,OpenAI k8s 集群从500 nodes 扩展到2500 nodes 时遇到诸多存储、、、、网络和资源初始化问题,,通过可视化监控工具Datadog 发现ETCD(一种Key-Value 存储服务)写数据存在几百毫秒延迟,,,,list API 被频繁调用、、、、Fluentd 和DataDog 频繁侵占资源等问题。。
什么是算力调度??在云计算中,,,资源调度是一个非确定性多项式优化问题,,,往往会出现“拆东墙补西墙”这样的情况,,因此云计算的算力调度必须考虑每个算力资源请求的需求边界,,,,比如OpenAI 团队使用“balloons”占位策略解决资源排队问题:
用一个低优先级pod 占着整个节点,,,,要用节点的时候被自动驱逐掉;使用污点策略手动分配每个训练请求能使用的节点。。。。
GPU 超算集群中,,暴露出的不只是算力调度问题。。。。在此前对英伟达AI 超算的研究中,,,,我们的结论是:通信网络是制约数据中心算力高低的关键因素。。。。在多线程并行计算下,,通信成为制约算力的短板,,,,只要有一条交换链路出现网络阻塞或丢包,,,,就会产生I/O 延迟;又如GH200 新增显存互联功能,,我们认为,,相对于无显存互联的超算,,GH200 对API server 的并发访问量是指数级增长,,将对硬件资源调度提出更高挑战。。
多点硬件部署监控效率更高。。我们注意到,,,,OpenAI 在针对网络监控进行优化时发现Prometheus 这类监控系统时常会导致OOM(Out of Memory,,,,内存溢出),,,,从而不得不削减查询频率;每次初始化pod,,Prometheus 都要重写WAL(Write-aheadlogging,,,,预写式日志)拉长启动时间。。我们认为,,,,以上问题都可以通过嵌入式的多点硬件层监控系统避免上述问题。。我们认为,,,,在传统的计算式和I/O 式云计算中,,,,外部串接监控服务器即可满足监控需求,,而GPU 集群时代,,需要并接部署“联邦集群”并进行不同监控服务器的功能划分,,,最后进行北向汇聚,,,,有望提升监控采集效率、、、降低超算本身的资源侵占。。
网络可视化技术在国内外均处于探索迭代过程中,,,国内相关厂商的潜在机会巨大。。。
在北美,,,目前主流的监控工具是Netscout、、、Prometheus、、、Datadog 等,,都是基于在超算本地化部署;但在多点硬件部署的AI 超算中,,,,软硬件结合的厂商成长性有望更为充分,,经过多年经验积累的相关国内DPI 厂商,,形成了高容量下的数据监控能力,,,,有望成为全球算力调优的上游关键角色。。
投资建议:
1)重视GPU 超算集群中交换网络性能的重要性,,而光通信是现有技术下几乎无法替代的交换网络方案,,关注光通信:中际旭创、、新易盛、、、天孚通信、、、、太辰光、、、、腾景科技、、、德科立、、联特科技、、、、华工科技、、、源杰科技、、剑桥科技;算力设备:中兴通讯、、、、紫光股份、、、锐捷网络、、、、菲菱科思、、恒为科技、、、、工业富联、、寒武纪、、、、震有科技。。
2)重视网络可视化及算力资源调优策略的软硬件厂商,,,该品种目前存在较大预期差,,,关注恒为科技、、、、浩瀚深度、、中新赛克。。
风险提示:AI 发展不及预期,,算力需求不及预期。。。
知前沿,,,,问智研。。智研咨询是中国一流产业咨询机构,,,十数年持续深耕产业研究领域,,,,提供深度产业研究报告、、、商业计划书、、、、可行性研究报告及定制服务等一站式产业咨询服务。。。。专业的角度、、、、品质化的服务、、敏锐的市场洞察力,,,,专注于提供完善的产业解决方案,,,,为您的投资决策赋能。。。。
转自国盛证券有限责任公司 研究员:宋嘉吉/黄瀚/赵丕业/邵帅