亿级Kafka数据写入，发现还是Clickhouse比Doris香！

我们知道，对于一个号称功能强大的数据库来说，它能够支持数据写入种类的丰富性，某种程度也就决定了它使用场景的广阔性。

Doris提供的数据写入方式跟Clickhouse有些类似，都多到让你看花眼，都可以根据不同数据来源进行个性化选择。

只不过，从官方文档的描述来看，Doris支持的数据导入方式好像要更丰富一点：

它将不同的导入类型用了两种不同的描述方式，但其实里面的内容很多又都是相同的。

今天这篇内容不打算聊这些导入方式有哪些区别和联系，因为官网已经说的很清楚了，不再赘述。

在之前聊CK的文章中，我们聊了如何用kafka数据源，分别写入CK的本地表，分片表，以及副本表，并大致体验了下十亿级数据量写入CK后，表的查询效率情况。

那么这篇文章，咱同样也准备用kafka数据源写入Doris的表，也灌入亿量级的数据源，跟CK做个对比，看看数据查询情况如何。

一、导入方式的选择

既然要把数据导入到Doris表中，那么首先要做的事情就是选择数据的导入方式。

我们知道，对于一个外部数据源，想要把其数据写入到数据库表中，那么具体实现方式是有非常多的，但总结起来可以分为两大类：

通过外部工具方式导入：比如兼容的第三方数据导入工具，支持的API写入，用计算引擎写入等；

通过数据库本身提供的方式：不用额外开发代码，也不用第三方工具，通过数据库自身提供的一些功能来写入；

对于一个自诩功能强大的数据库来说，我们当然首选数据库自带的导入方式，看它到底能不能满足要求，以及在使用过程中会有哪些坑，和值得注意的地方。

对于CK来说，之前文章已经介绍过了，它提供的内部导入kafka数据的方案就是创建kafka引擎表(外部数据源表)，拿我提供给大家的上网行为数据来举例，在CK创建的引擎表语句是这样的：

CK中创建的kafka引擎表语句

但是此时，数据并没有真正进入到CK内部，这张创建好的表(dns_logs)，本身是不存储任何数据到磁盘的。

然后通过这张外部引擎表，结合CK的物化视图功能，就可以把kafka的数据给接入到CK内部。

但是对于Doris来说，虽然也有外部数据源表(这点跟CK一样)，但是目前从官方文档来看，它还不支持Kafka引擎表：

Doris虽然不支持kafka引擎表，但是它支持另一种方式对kafka数据的导入，这种方式叫：Routin Load，也叫例行导入。

但是目前这种导入的方式仅仅支持kafka一种数据源，也就是说它是专门为kafka而设计的一种外部数据源导入方式：

二、导入步骤

这个Routin Load的导入方式有点不一样的地方在于，需要你先创建承接数据的Doris表，也就是OLAP表，然后通过创建一个Routin Load导入任务来把数据给灌入到这张Doris OLAP表中。

如果类比CK的话，这个“Routin Load导入任务”就有点类似于CK创建物化视图的功能，因为CK的物化视图一创建(基于kafka引擎表和CK表)，数据就开始从kafka持续导入到CK表中。

于是，我先在Doris中创建一张承接kafka数据的Doris表：

接着再创建一个Routin Load导入任务：

由于无法通过类似show create table的方式查看，只能这样贴出来

这里可以设置很多参数，具体的官网介绍的也很清楚，这里不想赘述。

然后通过命令：SHOW ROUTINE LOAD FOR ${load_name} 来查看任务进度：

这里比CK要好的地方在于，可以通过这种方式随时查看数据导入的进度和状态，而且可以支持断点续传功能，但CK貌似没有提供这样的接口便利。

但是，无论是CK还是Doris，通过数据自身提供的这种数据导入方式，依然有些做得不够完善的地方，那么接下来，就是我要吐槽的了。

三、槽点说明

可以看到上面那幅，我创建导入kafka数据的Routin Load导入任务的黄色截图中，被标记的部分，那个设置是用来读取kafka数据时可以忽略的错误条数的。

那为啥我要那么设置呢？

原因在于我当前这个kafka的topic其实放了两种不同类型的数据，一种类型是11个字段，而另一种类型为9个字段：

9字段数据源

11字段数据源

但是，我此时只想要写入那个9字段类型的数据，按理应该可以根据导入规则进行一些设置和过滤，但是我找了一圈，就是没有找到更好的办法(其实根据字段个数来筛选就可以了)，我查了官网提供的解决方案：

目前来看，只有这3个可以作为筛选数据源的手段，但是：

1. columns_mapping：这个是用来做字段映射的，用于kafka数据通过分隔符分隔之后，调整其源数据字段顺序，跟实际Doris表中的顺序关系的，显然满足不了要求；

2. preceding_filter：只能对列值进行条件限制，也满足不了；

3. where_predicates: 同样，也只能对列的具体值进行限制，也满足不了：

虽然文档中说“详细介绍，可以参阅【列映射，转换与过滤】”这部分说明，但是依然没有找到解决办法。

并且，就这个问题，我还专门咨询了Doris的PMC，也确认了当前版本的Doris无法就这个情况进行筛选(并被告知该功能正在开发中)。

当然，这个缺陷不能说明是个多大的问题，其实CK对于Kafka数据源的导入也有类似问题(都无法支持高阶功能的数据过滤)，而且CK还不支持对kafka数据列的过滤，几乎没有主动筛选功能。

四、应急办法

既然Doris无法通过判断kafka数据源中，单条数据的字段数量来筛选目标数据，那么就只能想出一些“骚操作”来解决这个问题了。

好在Doris在用Routin Load导入kafka数据时，提供了一个有用的参数，叫max_error_number:

也就是在根据数据导入规则(根据分隔符切分后有9个字段)导入数据时，如果导入的数据不符合标准(字段长度不对)，能够允许不符合规则的最大条数。

看到这里，我眼前一亮，这个利用Routin Load导入数据的方案能不能行，就看这个参数了。

果然，在没有加这参数之前，这个导入任务一启动就报错了：

提示说，导入的数据字段比要求的多，也就是那个11字段的数据惹的祸。

但是加入这个参数之后，导入任务就能正常运行了，虽然状态显示有很多错误的row被解析(允许忽略)，但是导入任务并不会因此而暂定(挂掉)：

当然，CK我也用的是同样的策略(也利用了同样的错误忽略参数)，才把数据给正常导入到数据库中，虽然不优雅吧，但也是目前能想到的解决办法之一了。

五、查询对比

通过以上这种方式，我大概向这张Doris表灌入了1.3亿+条数据(时间所限只导入了这么多)，分布在3台BE上，整个导入过程没有出现任何异常。

对比CK集群，同样是一张分布在3台CK服务器上的分片表，也取相同的数据量进行查询对比。

查询条件为：以小时为单位统计各个上网IP在各个小时内的上网次数，并取上网次数前10的结果。

Doris的查询结果，如下图所示：

CK的查询结果，如下图所示：

可能你会好奇，CK的查询语句除了函数语法有些不一样外，为什么还有个嵌套查询，原因在于CK这张表数据导入的早，目前已经有几十亿数据量了，于是先从里面取跟Doris表一样多的数量后，再执行的聚合操作。

加上数据写入表中的类型，排序方式都是一样的，所以理论上，这个对比应该是公平的。

经过了多次的查询测试后发现(约10次)，CK和Doris在对于这个场景的查询，查询时间基本一致，都维持在8秒左右（前后两次查询的时间都隔的很开情况下）。

而且对于CK来说，如果两次查询的时间挨的很近的话，第二次的查询效率要明显比第一次快（比如第一次是8秒，1分钟内再查就变成2秒），估计是利用了OS缓存机制。

但Doris每次查询时间，无论第一次查询跟第二次查询的时间挨的有多近，其查询效率都保持不变，永远都在8秒左右。

所以，如果这里非要分个胜负的话，个人认为CK要强一点，而且要知道，这两个集群中，CK的集群硬件配置要明显比Doris的硬件配置差一些(内存和CPU只有它一半)。

作者丨Anryg(安瑞哥)

来源丨公众号：安瑞哥是码农（ID：gh_c12dc29ae2e7）

dbaplus社群欢迎广大技术人员投稿，投稿邮箱：editor@dbaplus.cn

更多干货内容及开源工具下载获取方式：添加群秘dbayuqing，备注开源工具

展开阅读全文

页面更新：2024-02-08

标签：数据数据源字段参数类型方式功能发现数据库引擎时间

1 2 3 4 5

第九届库布其国际沙漠论坛侧记：沙漠中的“国际范”令人惊艳

中新网库布其8月26日电题：第九届库布其国际沙漠论坛侧记：沙漠中的“国际范”令人惊艳中新网记者李爱平初秋的内蒙古自治区鄂尔多斯杭锦旗库布其沙漠，满眼绿意，沿途由灌木、乔木、草本植物组成的“绿色地毯”，让前来参加第

旷视孙剑意外去世震惊业内死因仍在调查中

本文内容来自于网络，若与实际情况不相符或存在侵权行为，请联系删除。人工智能领域失去杰出学者孙剑：思想的先驱和科研的引领者2022年6月14日，中国著名人工智能企业旷视科技发布了一则讣告，宣布该公司的首席科学家、旷视

为什么C919会在机头“打补丁”？而波音737和A320没有

很惭愧，C919飞了这么久，我还没有坐过。在家网上冲浪时，见到C919的照片，突然注意到它脑袋上有一块补丁，有点冷门。我就好奇，这是个什么东西？919的同类机型，或者说竞争对手，有波音的737和空客的A320。找来照片对比一下，嘿，头顶都挺

百度与紫金山实验室、江苏未来网络研究院、未来网络集团达成战略合作

据百度官微，8月24日，百度与网络通信与安全紫金山实验室、江苏省未来网络创新研究院、江苏未来网络集团有限公司签署战略合作框架协议。各方将围绕大模型核心技术联合攻关，力争在3-5年内实现行业大模型技术创新能力江苏领

飞行汽车在长沙首飞！湖南搭建全国首个飞行汽车跨江运行场景

长沙晚报掌上长沙8月26日讯（全媒体记者吴鑫矾）26日上午，全国首个飞行汽车跨江运行场景首飞暨应用场景探索签约仪式在长沙举办，小鹏汇天飞行汽车旅航者X2完成从河西的湘江基金小镇到河东的三馆一厅的首次跨江飞行演示，相

一次Java内存占用高的排查案例，解释了我对内存问题的所有疑问

问题现象7月25号，我们一服务的内存占用较高，约13G，容器总内存16G，占用约85%，触发了内存报警(阈值85%)，而我们是按容器内存60%(9.6G)的比例配置的JVM堆内存。看了下其它服务，同样的堆内存配置，它们内存占用约70%~79%，此服务比其

买个机器人回家

越来越多的机器人延伸至新的领域、场景提供服务或应用。它们不一定是科幻电影里的酷炫模样，反而可能以平常的姿态一点点地接近我们，成为生活中习以为常的助手。随着人工智能技术不断突破，机器人产业蓬勃发展，“机器人+康

被骗至缅甸的中科院博士获救！志愿者披露细节

26日凌晨，中国驻泰国大使馆、中国驻清迈总领事馆同步首页发布通报称，“中科院博士被困缅甸电诈园区”事件当事人张某被泰国警方寻获，使馆正与泰国警方协调，争取尽快安排张某回国。25日中午，张某的家人告诉封面新闻记者，张某

全国多地万达关闭杜比影院，部分影城回应：换成PRIME厅

舒服的沙发、劲爆的音效、精美的画质——2016年，随着杜比影院在国内全面落地，这种全新的观影方式获得了影迷的好评。不过最近在多个社交平台，却出现了杜比影院告别的帖子：“昆明杜比影院今日谢幕”“江汉路（记者注：武汉）万达

难倒果链的钛合金边框加工，对刀具要求有多高？

切削刀具是机械制造中用于金属加工最常见的工具，随着机械制造技术升级需求，硬质合金材料及涂层已是刀具发展主流之一。近期，以追求材料和技术方面创新而闻名的苹果公司，正面临着生产问题，或将导致新款iPhone 15的出货量不

向外卖“包装刺客”说不平台对1.6万多违规商家进行整改

近期，外卖包装收费标准不一、过度收费等“包装刺客”现象，引发网友热议。为了维护消费者权益，规范餐饮商家的打包费收取行为，美团外卖平台已经采取措施，将违规商家下架。　　今天（8月25日）中午，记者在实地走访时发现，同样是打

安井食品：预制菜第二增长曲线逆袭

通过不断布局，预制菜已经成为安井食品第一大收入来源。杨现华/文在发力两年后，“速冻一哥”安井食品（603345.SH）的第一大收入不再是速冻火锅料制品，2023年上半年预制菜已经成为公司最大的收入来源。疫情后，万亿蓝海的预制菜

河南省市场监督管理局公布茶叶过度包装执法典型案例（第三批）

央广网郑州8月25日消息（记者彭华）为有效遏制茶叶过度包装现象，促进茶产业高质量发展，今年5月以来，河南省市场监督管理局组织指导各地市场监管部门加大对重点时段、重点场所、重点区域监督检查力度，依法纠正、查处了一批茶

湘财股份：上半年扭亏为盈1.37亿元

湘财股份8月25日发布2023年半年度报告，上半年实现营业收入4.04亿元，同比下降72.80%；归属于上市公司股东的净利润1.37亿元，上年同期为-8260.07万元；基本每股收益0.0478元。上半年，子公司湘财证券股份有限公司经纪业务、信用

三部门：延续实施支持居民换购住房有关个人所得税政策

关于延续实施支持居民换购住房有关个人所得税政策的公告财政部税务总局住房城乡建设部公告2023年第28号为继续支持居民改善住房条件，现就有关个人所得税政策公告如下：一、自2024年1月1日至2025年12月31日，对出售自有住

上滑加载更多 ↓

亿级Kafka数据写入，发现还是Clickhouse比Doris香！

第九届库布其国际沙漠论坛侧记：沙漠中的“国际范”令人惊艳

旷视孙剑意外去世震惊业内死因仍在调查中

为什么C919会在机头“打补丁”？而波音737和A320没有

百度与紫金山实验室、江苏未来网络研究院、未来网络集团达成战略合作

飞行汽车在长沙首飞！湖南搭建全国首个飞行汽车跨江运行场景

一次Java内存占用高的排查案例，解释了我对内存问题的所有疑问

买个机器人回家

被骗至缅甸的中科院博士获救！志愿者披露细节

全国多地万达关闭杜比影院，部分影城回应：换成PRIME厅

难倒果链的钛合金边框加工，对刀具要求有多高？

向外卖“包装刺客”说不平台对1.6万多违规商家进行整改

安井食品：预制菜第二增长曲线逆袭

河南省市场监督管理局公布茶叶过度包装执法典型案例（第三批）

湘财股份：上半年扭亏为盈1.37亿元

三部门：延续实施支持居民换购住房有关个人所得税政策

万万没想到,这样的“塌房”方式,竟会在韩红身上发生

一个流传千年的养生动作，不花钱帮你改善五脏六腑的功能

研究显示：坚持8种健康的生活方式，预计延长20年寿命！您做

交广夜听｜一个人成长最快的方式：深度工作

香港故宫文化博物馆馆长吴志华：观众任何时间来都能看到

2023暑期游数据：济南景区门票订单增长超2倍，济南人最爱

细看乾隆“十全武功”发现，没有一个名副其实的

信任互链世界，数据创造价值，这场聚焦数据安全的主题论坛

河北持续深化科技体制机制改革激活发展引擎

人活得越长越好吗？研究发现，活到65岁至70岁的人是最幸福