近日,由天翼云科技有限公司弹性计算产品线天玑实验室独立撰写的两篇论文《phecon: fine-grained vm consolidation with nimble resource defragmentation in public cloud platforms》及《yggdrasil: reducing network i/o tax with (cxl-based) distributed shared memory》被acm international conference on parallel processing(icpp)收录。
acm icpp是计算机体系结构、并行与分布计算、存储系统领域的顶级会议之一,也是世界上最古老的连续举办的并行计算国际会议之一。acm icpp收录论文均经过严格的同行双盲评审,近五年平均接收率为27.9%。此次天玑实验室两篇论文的成功收录,既是顶级权威机构对天翼云技术创新能力的认可,也是中国企业在国际学术舞台影响力日益增强的有力证明。
本次收录的两篇论文分别阐述了天翼云天玑实验室团队自主设计与研发的两大创新成果,包括面向大规模云数据中心管理的智能资源调度技术——phecon和基于“聚合计算”产品理念的面向新一代云计算基础设施的网络i/o加速技术——yggdrasil。
phecon:细粒度云数据中心智能资源碎片整理算法
在云计算场景下,由于数据中心负载水平的波动性和需求的不确定性,各个物理服务器普遍存在资源碎片问题,造成数据中心资源浪费。如图1所示,客户需要紧急开通6台指定规格的云服务器,但集群内剩余资源只能满足4台云服务器,形成典型的资源碎片现象。如何应对资源扩容中常见的周期长、成本高等挑战,满足极端场景下的客户需求,成为亟需解决的难题。
图1.碎片整理示意图
本论文创新性提出一种新型细粒度碎片整理算法——phecon,通过云服务器二次调度的方式聚合集群内资源碎片,以满足更大规格资源的开通需求。同时,该论文还提出了基于分治思想的numa感知启发式算法和“诱导迁移”(induced migration)技术,通过规格填充、物理服务器选择、云服务器排序和numa调度,实现集群布局优化。
基于上述技术特点,phecon可适配天翼云“2 4 31 x”的资源布局和异构数据中心的异构资源特点,做到一池一算、算无遗策,满足全域异构资源的二次调度,实现分钟级的快速碎片整理,提供优质的上云体验。目前,天玑智能调度平台稳定运行phecon碎片整理功能,累计提供服务72次,每年节省运营成本超过千万元,减少碳排放超百吨。
yggdrasil:cxl使能的无感网络i/o性能加速
在通信密集型应用程序的运行过程中,基于linux内核的操作系统网络通讯组件面临巨大的运行负担。为有效解决上述问题,本论文提出yggdrasil网络通讯平替方案。
yggdrasil是天翼云聚合计算团队预研的下一代数据中心网络通信技术。如图2所示,该技术可基于cxl共享内存实现用户态的高性能tcp/ip通信,且完全兼容现有的socket api,无需修改代码即可完成性能加速。天玑实验室团队通过模拟和真实cxl硬件进行评估的结果表明,yggdrasil可使memcached的吞吐性能相比传统linux socket高出8.2倍,并在不同消息大小的微基准测试中,将通讯延迟降低到传统方式的0.3%到4.1%。
图2.关于yggdrasil快速/慢速通信路径示意图
yggdrasil的性能优势与易用性主要得益于三个方面的设计优化:
(1)在跨主机通信中,yggdrasil采用基于cxl的分布式共享内存(即快速通信路径)以提升性能,在cxl不可用的情况下,自动无感切换回传统socket(即慢速通信路径)。
(2)yggdrasil依托于受信任的用户空间监控守护进程管理通讯连接控制平面操作,减少上下文切换开销。数据平面采用对等模型进行跨物理主机的进程间通信,充分利用cxl共享内存的性能优势。
(3)为弥补socket api和共享内存之间的语义鸿沟,采取多种技术兼顾接口兼容性和性能优势。
基于yggdrasil的i/o网络性能优势及良好的api接口兼容性,yggdrasil方案将在天翼云弹性计算产品线自主设计和研发的聚合计算平台进行落地,以减少网络i/o税,从而为客户提供更澎湃的算力资源,助力客户创造更多价值。
面向未来,天翼云将继续加强关键核心技术自主攻关,以领先的产品能力夯实数字基础设施底座,为千行百业数字化转型保驾护航。