国产芯片传来好消息，纯国产CPU测试数据“曝光”

在过去的很长一段时间里，西方媒体经常会用到“比较落后”这样的自研形容中国芯，尤其是华为芯片事件发生后，这种比较刺眼的字眼出现的更加频繁。

实事求是的将，国内半导体产业的整体水平与西方国家存在着一定的差距，尤其是EUV光刻机这种高尖端设备，国内企业至今仍未突破，导致国内芯片制造企业即便是掌握着先进的芯片制程工艺，也无法制造出高端芯片，解决中企高端芯片被卡脖子的问题。

但是，随着这两年国内半导体企业不断加大投入，“中国芯”取得了质的突破，与西方芯片的差距不断被缩小，多个短板被补强，如国产编程语言 SPL 的问世，填补了国内技术的空白，实现了“从0到1”的突破。

对于数据库类的关键业务，全国产技术（国产 CPU+ 国产数据库）和国外主流技术在性能上相比还有不小的差距，经常需要借助分布式技术使用数倍的硬件才能获得类似的效果。

国产编程语言 SPL 的问世，可以方便程序员写出（比 SQL）更短小简单且计算量更低的代码（针对同样计算任务），能够对采用 SQL 的主流数据库形成明显的效率和性能优势。这样，在国产 CPU 上运行用 SPL 编写的数据库运算，就可能获得在国外 CPU 上运行 SQL 数据库的同样性能，甚至大幅超过。从而使数据库运算类的关键业务实现全国产技术替代。本次测试设计了三个计算任务，涉及常规查询、复杂在线查询和离线跑批任务，分别在海光、龙芯、飞腾三款国产芯片上运行后看效果，并对比历史上在国外芯片上运行的情况。

系统配置

	海光	龙芯	飞腾
CPU	2颗7285，共64核	4颗3C5000，共64核	2颗2500，共128核
RAM	256G	256G	256G
硬盘	SSD	SSD	SSD
OS	麒麟V10	Loongnix	麒麟V10
SPL	开源社区版 202208

测试一

常规查询，TPCH 100G

TPCH 是国际标准，具体内容不再过多解释。需要说明的是，TPCH 虽然有 22 个题，但仍然不能全面反映出被测系统对实际业务的响应性能。主要原因如下两点：1.TPCH 中问题比较常规，没有涉及序运算，分步运算也较简单。而实际业务中有性能瓶颈的运算，其复杂度通常会远高于 TPCH，会大量涉及序运算和分步计算；2. 测试问题已经被长期公开，有些数据库可能会专门做相应的优化；当然，作为国际标准，也会有一定的参考价值。TPCH 各题的 SPL 写法可参考从 TPCH 测试学习性能优化技巧测试结果（单位：秒）

	海光	龙芯	飞腾	Intel+Oracle
Q1	25	40	33	131
Q2	2	4	3	27
Q3	8	19	15	222
Q4	4	12	9	207
Q5	15	20	27	225
Q6	3	7	8	135
Q7	11	18	21	184
Q8	13	20	28	192
Q9	31	63	58	234
Q10	10	19	16	215
Q11	2	5	4	33
Q12	7	19	13	184
Q13	97	195	152	37
Q14	6	22	20	157
Q15	12	22	24	155
Q16	9	19	15	13
Q17	9	13	25	165
Q18	7	21	14	344
Q19	9	16	16	154
Q20	7	12	16	175
Q21	19	24	24	326
Q22	23	37	33	48
AVG	14.95	28.5	26.09	161.95
AVG-G	9.68	19.22	18.36	125.56

1. 海光、龙芯、飞腾均以 32 线程运算，初步的测试表明，大多数运算在这个并行数下最快。

2.AVG 行是 22 个题的平均时间；AVG-G 行是几何平均数，这样能反应出性能差距的倍数关系，规避某些题因为普遍都慢在简单平均时权重太大的问题。

3. 最右边对比列，硬件环境：2 颗 Intel 3014 1.7G 共 12 核，64G 内存；Oracle 运行 12 线程。因 CPU 主频及并行数不同，没有直接可比性，但仍有参考价值。

4.SPL 的 Q13 的表现有点特殊，因为 Q13 在这个线程数时，会占用过大内存；而 SPL 用 Java 实现，内存不足时会导致大量的垃圾收集时间。本次测试目标不是调出每个题的最优性能，就没有刻意再优化它。

测试二

离线数据准备，国家天文台聚类计算

这是国家天文台的实际业务，测试也采用了真实数据。

共 11 张照片，每张有 500 万天体，将位置（天文距离）邻近的天体聚合成一个计算属性。期望计算时间在数小时内，因为每天都会有新的照片拍摄出来，必须当天处理完。

本任务的数据量不大（<10G)，但计算量非常大，和规模的平方成正比。

用某分布式数据库动用 100 个 CPU，仅处理 50 万天体也需要 3.8 小时，处理 500 万目标规模预计需要 15 天，不具有实用性。

详情可参考 SPL 提速天体聚类任务 2000 倍

测试结果（单位：小时）

并行数	16	32	64
海光	3.91	2.39	2.21
龙芯	6.65	4.04	3.96
飞腾	9.27	5.33	3.64

更高并行没有表现出线性加速，主要是因为这个问题的特殊性，运算步骤之间有依赖关系，各个线程会有重复计算，无法做到线性提速。

三款芯片均可以在目标数据规模时达到任务要求的时间指标，性能都具有实用性。

测试三

在线查询，电商漏斗计算

电商漏斗是典型的有序计算，需要统计在指定时间窗口按指定次序发生多次事件中前 N 个的用户数，以便计算用户流失率为营销动作提供依据。这是用户行为分析中很常见的计算，也是传统数据库很难高速完成的计算。漏斗计算的细节和 SPL 加速方法可参考 SQL 提速：漏斗转化分析本题是美国一家电商企业的真实案例，漏斗共有 5 步，计算难度较高。使用该企业在某个分站点一个月的脱敏数据，规模接近 4 亿行。这个运算用 SQL 在美国著名云数据仓库 Snowflake 的 Medium 级服务器（相当于 64 核）上三分钟未跑出结果，用户期望不超过 30 秒。测试结果（单位：秒）

并行数	32	16	8	4
海光	16	18	29	59
龙芯	32	41	59	101
飞腾	25	30	44	76

三款芯片在 32 线程时的运算性能可以达到或接近用户的期望值。

补充说明

1. 测试海光时还使用过 CentOS，性能表现要比使用麒麟时有较明显的优势（天文台运算 64 线在 1.5 小时内完成）；测试飞腾时仅使用了麒麟，有可能其性能被操作系统影响；龙芯的 Loongnix 看起来表现较出色。2. 在龙芯上还做过一个军方外围任务测试：在 82 亿行的脱敏海事数据中按时间段和经纬度范围查找经过船只，龙芯上 SPL 的执行性能大概相当于 Intel3014 的 50%，仍比 Intel8260 上的 MySQL 快了数倍到上百倍（和时间段宽度有关）。

初步结论

1. 海光的性能表现明显在三者中最强，性能大约是龙芯和飞腾的两倍。龙芯总体较飞腾稍弱，但差距不是很大，在长时间小并行任务中还能胜出。2. 使用 SPL 编程时，这三款国产芯片都能胜任数据仓库类的复杂计算场景，能赶上甚至大幅超越国外芯片上国外数据库的性能，完全可应用于关键的数据计算任务。

SPL下载地址：http://c.raqsoft.com.cn/article/1595816810031

SPL开源地址：https://github.com/SPLWare/esProc

展开阅读全文

页面更新：2024-03-18

标签：麒麟芯片天文台漏斗天体线程好消息性能数据库测试数据

1 2 3 4 5

国产芯片传来好消息，纯国产CPU测试数据“曝光”

SPL下载地址：http://c.raqsoft.com.cn/article/1595816810031

SPL开源地址：https://github.com/SPLWare/esProc

手机用多长时间

鱼泡安全号更新后的功能，你都体验了吗？

优惠后不到20万的奥迪纯电SUV，续航325km，带“虚拟座舱”

中材国际：应对风险挑战创新业务模式深耕存量市场

数字之光点亮产业未来-从2022年世界互联网大会乌镇峰会看数字经济发展信心

马云、刘强东、黄峥三大电商巨头开启隐身模式你怎么看？

AI合成主播丨国际油价10日上涨

“第二个香港”即将腾飞！斥资1173亿，将建成我国最大自由贸易港

贵州茅台跌幅近50%,是建仓还是等待？

资讯热点｜11月11日：10月份社融数据下滑

前10月104家国企通过北京产权交易所完成混改募集社会资本565.29亿元

李宁道歉，代价123亿；到底冤不冤？

园区推荐丨服装纺织印染产业园：柬埔寨EPIAC环保综合产业示范园

房价的八个常见的菜场逻辑

在欧洲买港口买铁路：日赚3.6亿的中远海运，悄悄干了件大事

资讯热点｜11月11日：10月份社融数据下滑

目前出色的3款国产手机，性能强悍价格良心，还买什么iPhon

华为麒麟芯片被拒代工之后，台积电5nm利用率能撑多久？

对标保时捷Taycan Turbo S，整车性能强悍，特斯拉Model S

「关注」芯片巨头的新战场，国内半导体领头羊中芯国际是

千元机也有轻薄好手感！历经10万次严苛测试，OPPO A58品质

联发科发布5G基带芯片T800 下载速度可达7.9Gbps

降准要来了？10月金融数据超预期回落，机构：明年1月降准可

科学家发现首个星际天体，2014年撞击地球，生命源于地外？

芯片巨头新款旗舰SoC箭在弦上，双11大幅优惠背景下有必