实践数据湖在sqlclient中，以sql方式从kafka读数据到iceberg

前言

之前使用flink1.11.6 iceberg0.11 没写成功，升级flink到1.12.7

升级后版本：
flink-1.12.7-bin-scala_2.12
flink-sql-connector-hive-2.3.6_2.12-1.12.7.jar
kafka_2.12-2.4.1

1. 启动flink sql

[root@hadoop101 bin]# sql-client.sh embedded -j /opt/software/iceberg-flink-runtime-0.12.1.jar  -j /opt/software/flink-sql-connector-hive-2.3.6_2.12-1.12.7.jar  -j /opt/software/flink-sql-connector-kafka_2.12-1.12.7.jar  shell 
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/opt/module/flink-1.12.7/lib/log4j-slf4j-impl-2.16.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/opt/module/hadoop-2.7.2/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]
No default environment specified.
Searching for '/opt/module/flink-1.12.7/conf/sql-client-defaults.yaml'...found.
Reading default environment from: file:/opt/module/flink-1.12.7/conf/sql-client-defaults.yaml
No session environment specified.

Command history file path: /root/.flink-sql-history
                                   ▒▓██▓██▒
                               ▓████▒▒█▓▒▓███▓▒
                            ▓███▓░░        ▒▒▒▓██▒  ▒
                          ░██▒   ▒▒▓▓█▓▓▒░      ▒████
                          ██▒         ░▒▓███▒    ▒█▒█▒
                            ░▓█            ███   ▓░▒██
                              ▓█       ▒▒▒▒▒▓██▓░▒░▓▓█
                            █░ █   ▒▒░       ███▓▓█ ▒█▒▒▒
                            ████░   ▒▓█▓      ██▒▒▒ ▓███▒
                         ░▒█▓▓██       ▓█▒    ▓█▒▓██▓ ░█░
                   ▓░▒▓████▒ ██         ▒█    █▓░▒█▒░▒█▒
                  ███▓░██▓  ▓█           █   █▓ ▒▓█▓▓█▒
                ░██▓  ░█░            █  █▒ ▒█████▓▒ ██▓░▒
               ███░ ░ █░          ▓ ░█ █████▒░░    ░█░▓  ▓░
              ██▓█ ▒▒▓▒          ▓███████▓░       ▒█▒ ▒▓ ▓██▓
           ▒██▓ ▓█ █▓█       ░▒█████▓▓▒░         ██▒▒  █ ▒  ▓█▒
           ▓█▓  ▓█ ██▓ ░▓▓▓▓▓▓▓▒              ▒██▓           ░█▒
           ▓█    █ ▓███▓▒░              ░▓▓▓███▓          ░▒░ ▓█
           ██▓    ██▒    ░▒▓▓███▓▓▓▓▓██████▓▒            ▓███  █
          ▓███▒ ███   ░▓▓▒░░   ░▓████▓░                  ░▒▓▒  █▓
          █▓▒▒▓▓██  ░▒▒░░░▒▒▒▒▓██▓░                            █▓
          ██ ▓░▒█   ▓▓▓▓▒░░  ▒█▓       ▒▓▓██▓    ▓▒          ▒▒▓
          ▓█▓ ▓▒█  █▓░  ░▒▓▓██▒            ░▓█▒   ▒▒▒░▒▒▓█████▒
           ██░ ▓█▒█▒  ▒▓▓▒  ▓█                █░      ░░░░   ░█▒
           ▓█   ▒█▓   ░     █░                ▒█              █▓
            █▓   ██         █░                 ▓▓        ▒█▓▓▓▒█░
             █▓ ░▓██░       ▓▒                  ▓█▓▒░░░▒▓█░    ▒█
              ██   ▓█▓░      ▒                    ░▒█▒██▒      ▓▓
               ▓█▒   ▒█▓▒░                         ▒▒ █▒█▓▒▒░░▒██
                ░██▒    ▒▓▓▒                     ▓██▓▒█▒ ░▓▓▓▓▒█▓
                  ░▓██▒                          ▓░  ▒█▓█  ░░▒▒▒
                      ▒▓▓▓▓▓▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒░░▓▓  ▓░▒█░
          
    ______ _ _       _       _____  ____  _         _____ _ _            _  BETA   
   |  ____| (_)     | |     / ____|/ __ | |       / ____| (_)          | |  
   | |__  | |_ _ __ | | __ | (___ | |  | | |      | |    | |_  ___ _ __ | |_ 
   |  __| | | | '_ | |/ /  ___ | |  | | |      | |    | | |/ _  '_ | __|
   | |    | | | | | |   <   ____) | |__| | |____  | |____| | |  __/ | | | |_ 
   |_|    |_|_|_| |_|_|_ |_____/ __________|  _____|_|_|___|_| |_|__|
          
        Welcome! Enter 'HELP;' to list all available commands. 'QUIT;' to exit.


Flink SQL>

2. 建kafka表

format=raw的只有在flink1.12后才支持

create table kafka_test_log
(
  data String
) WITH (
  'connector' = 'kafka',
  'topic' = 'test_log',
  'properties.bootstrap.servers' = 'hadoop101:9092,hadoop102:9092,hadoop103:9092',
  'properties.group.id' = 'rickKafkaHiveGroup5',
  'scan.startup.mode' = 'earliest-offset',
  'format' = 'raw'
)


create table kafka_test_log_csv
(
  data String
) WITH (
  'connector' = 'kafka',
  'topic' = 'test_log',
  'properties.bootstrap.servers' = 'hadoop101:9092,hadoop102:9092,hadoop103:9092',
  'properties.group.id' = 'rickKafkaHiveGroup6',
  'scan.startup.mode' = 'earliest-offset',
  'format' = 'csv'
)
create table kafka_test_log2
(
  data String
) WITH (
  'connector' = 'kafka',
  'topic' = 'test_log2',
  'properties.bootstrap.servers' = 'hadoop101:9092,hadoop102:9092,hadoop103:9092',
  'properties.group.id' = 'rickKafkaHiveGroup5',
  'scan.startup.mode' = 'earliest-offset',
  'format' = 'raw'
)

create table kafka_test_log_csv
(
  data String
) WITH (
  'connector' = 'kafka',
  'topic' = 'test_log',
  'properties.bootstrap.servers' = 'hadoop101:9092,hadoop102:9092,hadoop103:9092',
  'properties.group.id' = 'rickKafkaHiveGroup7',
  'scan.startup.mode' = 'earliest-offset',
  'format' = 'csv'
)

3. 读kafka的数据写入到kafka

Flink SQL> insert into kafka_test_log2 select * from kafka_test_log;
[INFO] Submitting SQL update statement to the cluster...
[INFO] Table update statement has been successfully submitted to the cluster:
Job ID: 777618b911d015a9b80cab316edf3fe8

页面查看
读进来和发出去的条数都是0，

使用sql直接查，发现把数据完整从 kafka_test_log写到 kafka_test_log2;
结论：flink的insert into 语法的mertrix有bug,显示条数有问题

Flink SQL> select * from kafka_test_log2;

4.写入到iceberg

4.1 创建 hive catalog 从kafka->iceberg

创建hive_catalog与表
CREATE CATALOG hive_catalog4 WITH (
  'type'='iceberg',
  'catalog-type'='hive',
  'uri'='thrift://hadoop101:9083',
  'clients'='5',
  'property-version'='1',
  'warehouse'='hdfs:///user/hive/warehouse/hive_catalog4'
);

在hive_catalog下创建数据库
use catalog hive_catalog4;
 

create table `hive_catalog4`.`default`.`ib_hive_test_log`(
 data String
);

在hive datalog下建表，写入iceberg

insert into  `hive_catalog4`.`default`.`ib_hive_test_log` select * from   default_catalog.default_database.kafka_test_log_csv

4.2 创建 hadoop catalog ，从kafka->iceberg


CREATE CATALOG hadoop_catalog4 WITH (
  'type'='iceberg',
  'catalog-type'='hadoop',
  'warehouse'='hdfs://ns/user/hive/warehouse/iceberg_hadoop_catalog4',
  'property-version'='1'
);
use catalog hadoop_catalog4;
create database iceberg_db;
create table `hadoop_catalog4`.`iceberg_db`.`ib_hadoop_test_log`(
 data String
);
insert into hadoop_catalog4.iceberg_db.ib_hadoop_test_log select data from  default_catalog.default_database.kafka_test_log  ;

到hdfs查看

生产者生产看看，发现iceberg的数据目录还是0，iceberg的输出没有

[root@hadoop101 ~]# kafka-console-producer.sh --topic test_log  --broker-list hadoop101:9092,hadoop102:9092

总结

经过测试，读写kafka都没有问题有想过是否消费者组的问题，更换消费者组，还是没输出。。。 hive catalog 与 hadoop catalog都尝试过，没用

是不是iceberg有问题?

展开阅读全文

页面更新：2024-04-16

标签：数据读数生产者前言语法结论没用消费者完整版本方式发现

1 2 3 4 5

使用Clangd提升C++代码编写体验

作者：jinshang，腾讯WXG后台开发工程师| 导语工欲善其事，必先利其器。LLVM项目推出的Clangd拥有稳定的体验、完善的功能和活跃的社区，它作为一个稳定高效的C++代码插件可以成倍地提升我们的代码编写体验，是每个C++程序员提

意大利法院撤销对苹果公司和亚马逊的1.733亿欧元反垄断罚款

据《华尔街日报》10月4日报道，意大利一家法院撤销了该国竞争监管机构对苹果公司和亚马逊开出的1.733亿欧元的反垄断罚单，称该监管机构没有给这两家科技巨头足够的时间准备辩护。去年11月，意大利竞争管理局（Italian Compet

人民网评：辛吉飞注销800w账号，揭露了多少当下社会的骗局

最近，一个主播注销账号的消息被人民网热评大家还记得这位吗？是的他就是“海克斯科技”代言人——辛吉飞，一个被官方评为：敢揭露资本真相的真男人为什么敢这么说呢？全因为是大哥所做的事迹，他揭露了没有水果的果茶，没有猪肉

红米Note11R新机来了：全系128GB存储配大电池，999元5G神器

在今年国庆，不知道有多少人是在关注手机产品呢？国庆前旗舰手机市场迎来新品引起了很多人关注，但其实更多人需要的可能是高性价比的产品，或者干脆就是价格便宜的机型。红米Note11R也在这个时候上市了，非常低调，但是这款产品

天目有话说“海克斯科技”走红有好有弊关键是要正向科普防焦虑

“海克斯科技”无疑是最近的网络热词之一，这个出自网游的词语，特指魔法和科技融合的顶尖技术。而这个词之所以会走红全网，完全是因为一些短视频博主通过使用最简易和充满着化学原料感的添加剂等物质，展现制作市场热销食品

22年9月中国新能源汽车销量排行榜｜比亚迪一路绝尘

比亚迪的20+万的销量，比中国新势力前十的销量总和加起来还要多的多。这也太恐怖了！比亚迪潜台词：不好意思！在座的都是垃圾！补充：合创汽车9月销量3011，未出现在各平台数据统计中。比亚迪2022年每月的的销量： 2022年01月，全

数字虚拟人的定义

2020年12月，中国人工智能产业发展联盟总体组和中关村数智人工智能产业联盟数字人工作委员会首次发布的《2020年虚拟数字人发展白皮书》对虚拟数字人进行界定：“虚拟数字人是指具有数字化外形的虚拟人物。与具备实体的机

今年iPhone 14比iPhone 13更香？大运存加持，晚淘汰n年是重点

大家都说今年iPhone 14是苹果有史以来最挤牙膏的一代，因为A15处理器、仍旧1200W像素主摄+1200W像素超广角，短刘海设计，换了手机跟没换一样。但iPhone 14标准版没有涨价，首款丐版入门手机标配6GB运存，新增低饱和度蓝设计，辨

「10月4日星期二农历九月初九」新闻打包听知晓天下事

·日前，国办印发《关于加快推进“一件事一次办”打造政务服务升级版的指导意见》。·农业农村部最新农情调度显示，全国秋粮已收获5.04亿亩，完成38.6%，进度同比快2个百分点。·3日，全国铁路发送旅客约575万人次，开行旅客列

雷曼兄弟有伴了？瑞士信贷要破产，这可也是百年投行啊

近日，国外市场在疯传一条信息，澳洲广播公司（ABC）旗下商业记者David Taylor根据「可靠消息」报道，一间大型投资银行濒临破产。消息传出后，不知怎的，很多人将目光瞄向了瑞士信贷（Credit Suisse），一家具有百年历史的国际知名投行。

国庆之后，养老金重算补发，以下4种情况的退休人员能多涨钱？

被大家盼望已久的国庆节终于来了，在大家喜迎节日的时刻，还有一个好消息告诉大家，就是部分人的养老金要补发。今年退休、领取职工养老金的人，国庆之后，多地将开始重新核算，核算后，会将少发的养老金补发给对应的退休老人。为什

为富豪们减税失败，特拉斯“劝阻”新国王成功：你不能去参加这个会！国王：好的

据央视新闻，当地时间10月3日，在英国政府宣布将放弃此前提出的对高收入者取消45%最高所得税税率的计划后，英镑对美元汇率应声上涨，已回升至该计划公布前的水平。在当天的亚洲早盘交易中，英镑对美元汇率回升至1.1250。英镑对

吴远大：让“中国芯”走向世界

工作中的吴远大吴远大在指导公司研发团队进行芯片设计　　吴远大　全国人大代表、河南仕佳光子科技有限公司常务副总经理　　“一张硅片，要经过100多道生产步骤，才能变成米粒大的芯片。我国的光电子芯片产业要想实现突

补缴知识：社保补缴的规定是这样的？有哪些法律依据？

社保知识，小龙虾每日分享第548期，欢迎关注！人社部与财政部在2016年的时候就发通知，禁止规定范围外的社保补缴。那么哪些情况下可以补缴社保呢？一、单位造成的补缴《劳动法》及《社保法》规定，用人单位与员工建立劳动关系后，

京东方要过一段苦日子了

文丨吴大郎出品丨牛刀财经（niudaocaijing）京东方正在陷入一系列问题的问困扰中。此前，京东方中报数据不理想引发市场关注。半年报显示，京东方2022年上半年度实现营业收入为916.1亿元，同比下滑15.66%；归母净利润65.96亿元，同

上滑加载更多 ↓

实践数据湖在sqlclient中，以sql方式从kafka读数据到iceberg

前言

1. 启动flink sql

2. 建kafka表

3. 读kafka的数据写入到kafka

4.写入到iceberg

4.1 创建 hive catalog 从kafka->iceberg

4.2 创建 hadoop catalog ，从kafka->iceberg

总结

使用Clangd提升C++代码编写体验

意大利法院撤销对苹果公司和亚马逊的1.733亿欧元反垄断罚款

人民网评：辛吉飞注销800w账号，揭露了多少当下社会的骗局

红米Note11R新机来了：全系128GB存储配大电池，999元5G神器

天目有话说“海克斯科技”走红有好有弊关键是要正向科普防焦虑

22年9月中国新能源汽车销量排行榜｜比亚迪一路绝尘

数字虚拟人的定义

今年iPhone 14比iPhone 13更香？大运存加持，晚淘汰n年是重点

「10月4日星期二农历九月初九」新闻打包听知晓天下事

雷曼兄弟有伴了？瑞士信贷要破产，这可也是百年投行啊

国庆之后，养老金重算补发，以下4种情况的退休人员能多涨钱？

为富豪们减税失败，特拉斯“劝阻”新国王成功：你不能去参加这个会！国王：好的

吴远大：让“中国芯”走向世界

补缴知识：社保补缴的规定是这样的？有哪些法律依据？

京东方要过一段苦日子了

重庆大足龙水五金市场成功入选国家市场采购贸易方式试

云南发现一只没有壳的巨大蜗牛，身体像石，头像蛇，应是高山

开悟的人：发现我们都活在思维牢笼中

4个月来最大单日跌幅！特斯拉重挫超8%；重磅数据公布，美股

女人用这两种方式称呼你，说明已经对你动情

烈士纪念日前夕，这群校尉军官和文职人员以特殊方式铭记

秋天火了一种搭配方式，叫“针织开衫+长裤”，温柔舒适大

在瑞士发现爱因斯坦原来是个渣男

结婚三年，丈夫从来不碰妻子，妻子却发现他早就有孩子，国产

华为Mate 50拍摄夜景效果如何？从样片中，你能发现更多光