等额的花费享受6倍性能!这份数据你这都不心动吗?


“百度的BigSQL可以为用户提供高性能的临时查询服务,这需要计算节点在本地缓存热数据,以减少DFS 的I/O对查询性能的影响,我们使用英特尔的傲腾永久内存,这极大地提高了集群的处理能力,并在确保缓存质量的同时获得了明显TCO收益。”—— 百度高级系统工程师黎世勇如何满足用户对服务响应时间的要求在近年来全球数据规模呈指数级增长的背景下,如何满足用户对服务响应时间的要求已经成为许多企业尤其是科技企业面临的严峻挑战,虽然响应时间只有一秒钟,但企业很可能会失去成千上万的客户,因此没有企业敢轻视客户体验,Spark SQL模块是Apache Spark专门为大规模数据中心结构化数据处理开发的功能模块,百度BigSqL数据处理平台是基于Spark SQL开发的,它在性能上做了很多优化,开发了很多新功能并极大地改善业务结果,例如帮助百度的特设查询服务图灵减少工作量和平均查询延迟。

等额的花费享受6倍性能!这份数据你这都不心动吗?

把常用的数据放在更快的存储里将常用数据放入更快的存储中OAP的核心是使用索引和缓存技术来加速交互式查询响应,当查询具有非常特定的筛选条件时,OAP可以在满足条件的列上创建索引,通过与列数据文件并排创建和存储完整的B树索引,OAP可以快速搜索B树索引以识别目标行,同时跳过后端存储(如HDFS)上不必要的数据扫描,因为索引文件与原始数据文件是分开的,所以在创建或删除索引时不需要重写原始数据文件,根据此策略,BigSQL启用了高级缓存管理器,它可以主动填充热点列并清除缓存中不再需要的列。

等额的花费享受6倍性能!这份数据你这都不心动吗?

让更快的存储空间再大一点显然,OAP的本质是将热数据放入速度更快的内存中,以便加速,但它也带来了新的问题:首先,记忆不能无限扩展;其次,在超过一定的内存容量后,成本会呈指数级增长,这也是硬件级采用傲腾的基本出发点,众所周知,傲腾是一项突破性的技术,它集高容量、经济性、实用性和数据持久性于一身,它有两个特点:一是容量大,成本低;第二,它适合顺序阅读,进一步发展,傲腾有两种工作模式:内存模式和应用程序直接访问模式,在“内存模式”下,应用程序可以使用傲腾作为扩展的易失性系统内存,而无需重写软件,动态随机存取存储器将起到缓存的作用,此外,为了确保傲腾和百度独特的操作系统环境的无缝集成,百度和英特尔在硬件、操作系统和库等领域进行了一系列的协同优化。

等额的花费享受6倍性能!这份数据你这都不心动吗?

性能提升6倍为了验证OAP项目和傲腾的性能,百度分两步进行了多次评估和内部测试:第一步是决策支持基准测试,第二步是真实查询测试,在决策支持基准测试中,首先将数据集大小控制在1TB,使用相同容量的动态随机存取存储器和傲腾,测试结果表明,两者都能容纳所有缓存的数据,傲腾的性能略低于动态随机存储器(11.7%),但成本明显较低,当数据集达到3TB并且使用相同成本的动态随机存取存储器和傲腾时,前者的容量不足以缓存所有数据,相比之下,傲腾不仅可以缓存所有数据,而且性能比动态随机存取存储器高出6倍。

等额的花费享受6倍性能!这份数据你这都不心动吗?

在第二种情况下(即动态随机存取存储器和傲腾的成本相同),只有傲腾有足够的容量来缓存所有热数据,其性能比动态随机存取存储器高22%,在傲腾内存的支持下,图灵集群的工作负载减少了30%,平均查询延迟减少了20%,每个傲腾服务器实例的Spark/OAP性能提高了50%,而成本仅增加了20%。

展开阅读全文

页面更新:2024-02-18

标签:性能   英特尔   数据   数据处理   存储器   缓存   索引   心动   容量   内存   成本   模式   文件   测试   动态   体育   企业

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top