亿级Kafka数据写入,发现还是Clickhouse比Doris香!


我们知道,对于一个号称功能强大的数据库来说,它能够支持数据写入种类的丰富性,某种程度也就决定了它使用场景的广阔性。


Doris提供的数据写入方式跟Clickhouse有些类似,都多到让你看花眼,都可以根据不同数据来源进行个性化选择。


只不过,从官方文档的描述来看,Doris支持的数据导入方式好像要更丰富一点:



它将不同的导入类型用了两种不同的描述方式,但其实里面的内容很多又都是相同的。


今天这篇内容不打算聊这些导入方式有哪些区别和联系,因为官网已经说的很清楚了,不再赘述。


在之前聊CK的文章中,我们聊了如何用kafka数据源,分别写入CK的本地表,分片表,以及副本表,并大致体验了下十亿级数据量写入CK后,表的查询效率情况。


那么这篇文章,咱同样也准备用kafka数据源写入Doris的表,也灌入亿量级的数据源,跟CK做个对比,看看数据查询情况如何。


一、 导入方式的选择


既然要把数据导入到Doris表中,那么首先要做的事情就是选择数据的导入方式。


我们知道,对于一个外部数据源,想要把其数据写入到数据库表中,那么具体实现方式是有非常多的,但总结起来可以分为两大类:


通过外部工具方式导入:比如兼容的第三方数据导入工具,支持的API写入,用计算引擎写入等;


通过数据库本身提供的方式:不用额外开发代码,也不用第三方工具,通过数据库自身提供的一些功能来写入;


对于一个自诩功能强大的数据库来说,我们当然首选数据库自带的导入方式,看它到底能不能满足要求,以及在使用过程中会有哪些坑,和值得注意的地方。


对于CK来说,之前文章已经介绍过了,它提供的内部导入kafka数据的方案就是创建kafka引擎表(外部数据源表),拿我提供给大家的上网行为数据来举例,在CK创建的引擎表语句是这样的:


CK中创建的kafka引擎表语句


但是此时,数据并没有真正进入到CK内部,这张创建好的表(dns_logs),本身是不存储任何数据到磁盘的。


然后通过这张外部引擎表,结合CK的物化视图功能,就可以把kafka的数据给接入到CK内部。


但是对于Doris来说,虽然也有外部数据源表(这点跟CK一样),但是目前从官方文档来看,它还不支持Kafka引擎表:



Doris虽然不支持kafka引擎表,但是它支持另一种方式对kafka数据的导入,这种方式叫:Routin Load,也叫例行导入。


但是目前这种导入的方式仅仅支持kafka一种数据源,也就是说它是专门为kafka而设计的一种外部数据源导入方式:



二、导入步骤


这个Routin Load的导入方式有点不一样的地方在于,需要你先创建承接数据的Doris表,也就是OLAP表,然后通过创建一个Routin Load导入任务来把数据给灌入到这张Doris OLAP表中。


如果类比CK的话,这个“Routin Load导入任务”就有点类似于CK创建物化视图的功能,因为CK的物化视图一创建(基于kafka引擎表和CK表),数据就开始从kafka持续导入到CK表中。


于是,我先在Doris中创建一张承接kafka数据的Doris表:



接着再创建一个Routin Load导入任务:


由于无法通过类似show create table的方式查看,只能这样贴出来


这里可以设置很多参数,具体的官网介绍的也很清楚,这里不想赘述。


然后通过命令:SHOW ROUTINE LOAD FOR ${load_name} 来查看任务进度:



这里比CK要好的地方在于,可以通过这种方式随时查看数据导入的进度和状态,而且可以支持断点续传功能,但CK貌似没有提供这样的接口便利。


但是,无论是CK还是Doris,通过数据自身提供的这种数据导入方式,依然有些做得不够完善的地方,那么接下来,就是我要吐槽的了。


三、槽点说明


可以看到上面那幅,我创建导入kafka数据的Routin Load导入任务的黄色截图中,被标记的部分,那个设置是用来读取kafka数据时可以忽略的错误条数的。


那为啥我要那么设置呢?


原因在于我当前这个kafka的topic其实放了两种不同类型的数据,一种类型是11个字段,而另一种类型为9个字段:


9字段数据源


11字段数据源


但是,我此时只想要写入那个9字段类型的数据,按理应该可以根据导入规则进行一些设置和过滤,但是我找了一圈,就是没有找到更好的办法(其实根据字段个数来筛选就可以了),我查了官网提供的解决方案:



目前来看,只有这3个可以作为筛选数据源的手段,但是:


1. columns_mapping:这个是用来做字段映射的,用于kafka数据通过分隔符分隔之后,调整其源数据字段顺序,跟实际Doris表中的顺序关系的,显然满足不了要求;


2. preceding_filter:只能对列值进行条件限制,也满足不了;





3. where_predicates: 同样,也只能对列的具体值进行限制,也满足不了:



虽然文档中说“详细介绍,可以参阅【列映射,转换与过滤】”这部分说明,但是依然没有找到解决办法。


并且,就这个问题,我还专门咨询了Doris的PMC,也确认了当前版本的Doris无法就这个情况进行筛选(并被告知该功能正在开发中)。


当然,这个缺陷不能说明是个多大的问题,其实CK对于Kafka数据源的导入也有类似问题(都无法支持高阶功能的数据过滤),而且CK还不支持对kafka数据列的过滤,几乎没有主动筛选功能。


四、应急办法


既然Doris无法通过判断kafka数据源中,单条数据的字段数量来筛选目标数据,那么就只能想出一些“骚操作”来解决这个问题了。


好在Doris在用Routin Load导入kafka数据时,提供了一个有用的参数,叫max_error_number:



也就是在根据数据导入规则(根据分隔符切分后有9个字段)导入数据时,如果导入的数据不符合标准(字段长度不对),能够允许不符合规则的最大条数。


看到这里,我眼前一亮,这个利用Routin Load导入数据的方案能不能行,就看这个参数了。


果然,在没有加这参数之前,这个导入任务一启动就报错了:



提示说,导入的数据字段比要求的多,也就是那个11字段的数据惹的祸。


但是加入这个参数之后,导入任务就能正常运行了,虽然状态显示有很多错误的row被解析(允许忽略),但是导入任务并不会因此而暂定(挂掉):



当然,CK我也用的是同样的策略(也利用了同样的错误忽略参数),才把数据给正常导入到数据库中,虽然不优雅吧,但也是目前能想到的解决办法之一了。


五、查询对比


通过以上这种方式,我大概向这张Doris表灌入了1.3亿+条数据(时间所限只导入了这么多),分布在3台BE上,整个导入过程没有出现任何异常。


对比CK集群,同样是一张分布在3台CK服务器上的分片表,也取相同的数据量进行查询对比。


查询条件为:以小时为单位统计各个上网IP在各个小时内的上网次数,并取上网次数前10的结果。


Doris的查询结果,如下图所示:



CK的查询结果,如下图所示:



可能你会好奇,CK的查询语句除了函数语法有些不一样外,为什么还有个嵌套查询,原因在于CK这张表数据导入的早,目前已经有几十亿数据量了,于是先从里面取跟Doris表一样多的数量后,再执行的聚合操作。


加上数据写入表中的类型,排序方式都是一样的,所以理论上,这个对比应该是公平的。


经过了多次的查询测试后发现(约10次),CK和Doris在对于这个场景的查询,查询时间基本一致,都维持在8秒左右(前后两次查询的时间都隔的很开情况下)。


而且对于CK来说,如果两次查询的时间挨的很近的话,第二次的查询效率要明显比第一次快(比如第一次是8秒,1分钟内再查就变成2秒),估计是利用了OS缓存机制。



但Doris每次查询时间,无论第一次查询跟第二次查询的时间挨的有多近,其查询效率都保持不变,永远都在8秒左右。


所以,如果这里非要分个胜负的话,个人认为CK要强一点,而且要知道,这两个集群中,CK的集群硬件配置要明显比Doris的硬件配置差一些(内存和CPU只有它一半)。


作者丨Anryg(安瑞哥)

来源丨公众号:安瑞哥是码农(ID:gh_c12dc29ae2e7)

dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn


更多干货内容及开源工具下载获取方式:添加群秘dbayuqing,备注开源工具

展开阅读全文

页面更新:2024-02-08

标签:数据   数据源   字段   参数   类型   方式   功能   发现   数据库   引擎   时间

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top