Flink1.9实战:使用SQL读取Kafka并写入MySQL--688IT编程网

Flink1.9实战：使⽤SQL读取Kafka并写⼊MySQL

上周六在深圳分享了《Flink SQL 1.9.0 技术内幕和最佳实践》，会后许多⼩伙伴对最后演⽰环节的 Demo 代码⾮常感兴趣，迫不及待地想尝试下，所以写了这篇⽂章分享下这份代码。希望对于 Flink SQL 的初学者能有所帮助。完整分享可以观看 Meetup 视频回顾：

演⽰代码已经开源到了 GitHub 上：

这份代码主要由两部分组成：1) 能⽤来提交 SQL ⽂件的 SqlSubmit 实现。2）⽤于演⽰的 SQL ⽰例、Kafka 启动停⽌脚本、⼀份测试数据集、Kafka 数据源⽣成器。

通过本实战，你将学到：

1. 如何使⽤ Blink Planner

2. ⼀个简单的 SqlSubmit 是如何实现的

3. 如何⽤ DDL 创建⼀个 Kafka 源表和 MySQL 结果表

4. 运⾏⼀个从 Kafka 读取数据，计算 PVUV，并写⼊ MySQL 的作业

5. 设置调优参数，观察对作业的影响

SqlSubmit 的实现

笔者⼀开始是想⽤ SQL Client 来贯穿整个演⽰环节，但可惜 1.9 版本 SQL CLI 还不⽀持处理 CREATE TABLE 语句。所以笔者就只好⾃⼰写了个简单的提交脚本。后来想想，也挺好的，可以让听众同时了解如何通过 SQL 的⽅式，和编程的⽅式使⽤ Flink SQL。

SqlSubmit 的主要任务是执⾏和提交⼀个 SQL ⽂件，实现⾮常简单，就是通过正则表达式匹配每个语句块。如果是 CREATE TABLE 或 INSERT INTO 开头，则会调⽤tEnv.sqlUpdate(...)。如果是 SET 开头，则会将配置设置到 TableConfig 上。其核⼼代码主要如下所⽰：

EnvironmentSettings settings = wInstance()

.useBlinkPlanner()

.inStreamingMode()

.build();

// 创建⼀个使⽤ Blink Planner 的 TableEnvironment, 并⼯作在流模式

TableEnvironment tEnv = ate(settings);

// 读取 SQL ⽂件

List<String> sql = adAllLines(path);

// 通过正则表达式匹配前缀，来区分不同的 SQL 语句

List<SqlCommandCall> calls = SqlCommandParser.parse(sql);

// 根据不同的 SQL 语句，调⽤ TableEnvironment 执⾏

for (SqlCommandCall call : calls) {

switch (callmand) {

case SET:

String key = call.operands[0];

String value = call.operands[1];

/ 设置参数

break;

case CREATE_TABLE:

String ddl = call.operands[0];

tEnv.sqlUpdate(ddl);

break;

case INSERT_INTO:

String dml = call.operands[0];

tEnv.sqlUpdate(dml);

break;

default:

throw new RuntimeException("Unsupported command: " + callmand);

}

// 提交作业

使⽤ DDL 连接 Kafka 源表

在 flink-sql-submit 项⽬中，我们准备了⼀份测试数据集（来⾃阿⾥云天池公开数据集，特别鸣谢），位于 src/main/resources/user_behavior.log。数据以 JSON 格式编码，⼤概长这个样⼦：

{"user_id": "543462", "item_id":"1715", "category_id": "1464116", "behavior": "pv", "ts": "2017-11-26T01:00:00Z"}

{"user_id": "662867", "item_id":"2244074", "category_id": "1575622", "behavior": "pv", "ts": "2017-11-26T01:00:00Z"}

为了模拟真实的 Kafka 数据源，笔者还特地写了⼀个 source-generator.sh 脚本（感兴趣的可以看下源码），会⾃动读取 user_behavior.log 的数据并以默认每毫秒1条的速率灌到Kafka 的 user_behavior topic 中。

有了数据源后，我们就可以⽤ DDL 去创建并连接这个 Kafka 中的 topic（详见 src/main/resources/q1.sql）。

CREATE TABLE user_log (正则匹配年月日

user_id VARCHAR,

item_id VARCHAR,

category_id VARCHAR,

behavior VARCHAR,

ts TIMESTAMP

) WITH (

'pe' = 'kafka', -- 使⽤ kafka connector

'connector.version' = 'universal', -- kafka 版本，universal ⽀持 0.11 以上的版本

'pic' = 'user_behavior', -- kafka topic

'connector.startup-mode' = 'earliest-offset', -- 从起始 offset 开始读取

'connector.properties.0.key' = 't', -- 连接信息

'connector.properties.0.value' = 'localhost:2181',

'connector.properties.1.key' = 'bootstrap.servers',

'connector.properties.1.value' = 'localhost:9092',

'update-mode' = 'append',

'pe' = 'json', -- 数据源格式为 json

'format.derive-schema' = 'true' -- 从 DDL schema 确定 json 解析规则

)

注：可能有⽤户会觉得其中的 connector.properties.0.key 等参数⽐较奇怪，社区计划将在下⼀个版本中改进并简化 connector 的参数配置。

使⽤ DDL 连接 MySQL 结果表

连接 MySQL 可以使⽤ Flink 提供的 JDBC connector。例如

CREATE TABLE pvuv_sink (

dt VARCHAR,

pv BIGINT,

uv BIGINT

) WITH (

'pe' = 'jdbc', -- 使⽤ jdbc connector

'connector.url' = 'jdbc:mysql://localhost:3306/flink-test', -- jdbc url

'connector.table' = 'pvuv_sink', -- 表名

'connector.username' = 'root', -- ⽤户名

'connector.password' = '123456', -- 密码

'connector.write.flush.max-rows' = '1' -- 默认5000条，为了演⽰改为1条

)

PV UV 计算

假设我们的需求是计算每⼩时全⽹的⽤户访问量，和独⽴⽤户数。很多⽤户可能会想到使⽤滚动窗⼝来计算。但这⾥我们介绍另⼀种⽅式。即 Group Aggregation 的⽅式。

INSERT INTO pvuv_sink

SELECT

DATE_FORMAT(ts, 'yyyy-MM-dd HH:00') dt,

COUNT(*) AS pv,

COUNT(DISTINCT user_id) AS uv

FROM user_log

GROUP BY DATE_FORMAT(ts, 'yyyy-MM-dd HH:00')

它使⽤ DATE_FORMAT 这个内置函数，将⽇志时间归⼀化成“年⽉⽇⼩时”的字符串格式，并根据这个字符串进⾏分组，即根据每⼩时分组，然后通过 COUNT(*) 计算⽤户访问量（PV），通过 COUNT(DISTINCT user_id) 计算独⽴⽤户数（UV）。这种⽅式的执⾏模式是每收到⼀条数据，便会进⾏基于之前计算的值做增量计算（如+1），然后将最新结果输出。所以实时性很⾼，但输出量也⼤。

我们将这个查询的结果，通过 INSERT INTO 语句，写到了之前定义的 pvuv_sink MySQL 表中。

注：在深圳 Meetup 中，我们有对这种查询的性能调优做了深度的介绍。

实战演⽰

环境准备

本实战演⽰环节需要安装⼀些必须的服务，包括：

Flink 本地集：⽤来运⾏ Flink SQL 任务。

Kafka 本地集：⽤来作为数据源。

MySQL 数据库：⽤来作为结果表。

Flink 本地集安装

1.下载 Flink 1.9.0 安装包并解压：

2.下载以下依赖 jar 包，并拷贝到 flink-1.9.0/lib/ ⽬录下。因为我们运⾏时需要依赖各个 connector 实现。

flink-sql-connector-kafka_2.11-1.9.0.jar

flink-json-1.9.0-sql-jar.jar

flink-jdbc_2.11-1.9.0.jar

mysql-connector-java-5.1.48.jar

3.将 flink-1.9.0/conf/flink-conf.yaml 中的 taskmanager.numberOfTaskSlots 修改成 10，因为我们的演⽰任务可能会消耗多于1个的 slot。

4.在 flink-1.9.0 ⽬录下执⾏ ./bin/start-cluster.sh，启动集。

运⾏成功的话，可以在访问到 Flink Web UI。

另外，还需要将 Flink 的安装路径填到 flink-sql-submit 项⽬的 env.sh 中，⽤于后⾯提交 SQL 任务，如我的路径是

FLINK_DIR=/Users/wuchong/dev/install/flink-1.9.0

Kafka 本地集安装

下载 Kafka 2.2.0 安装包并解压：

将安装路径填到 flink-sql-submit 项⽬的 env.sh 中，如我的路径是

KAFKA_DIR=/Users/wuchong/dev/install/kafka_2.11-2.2.0

在 flink-sql-submit ⽬录下运⾏ ./start-kafka.sh 启动 Kafka 集。

在命令⾏执⾏ jps，如果看到 Kafka 进程和 QuorumPeerMain 进程即表明启动成功。

MySQL 安装

可以在官⽅页⾯下载 MySQL 并安装：

如果有 Docker 环境的话，也可以直接通过 Docker 安装

$ docker pull mysql

$ docker run --name mysqldb -p 3306:3306 -e MYSQL_ROOT_PASSWORD=123456 -d mysql

然后在 MySQL 中创建⼀个flink-test的数据库，并按照上⽂的 schema 创建pvuv_sink表。

提交 SQL 任务

1.在flink-sql-submit⽬录下运⾏./source-generator.sh，会⾃动创建user_behavior topic，并实时往⾥灌⼊数据。

2.在flink-sql-submit⽬录下运⾏./run.sh q1，提交成功后，可以在 Web UI 中看到拓扑。

在 MySQL 客户端，我们也可以实时地看到每个⼩时的 pv uv 值在不断地变化

结尾

本⽂带⼤家搭建基础集环境，并使⽤ SqlSubmit 提交纯 SQL 任务来学习了解如何连接外部系统。flink-sql-submit/src/main/resources/q1.sql中还有⼀些注释掉的调优参数，感兴趣的同学可以将参数打开，观察对作业的影响。关于这些调优参数的原理，可以看下我在上的分享《Flink SQL 1.9.0 技术内幕和最佳实践》。

本⽂作者：巴蜀真⼈

本⽂为云栖社区原创内容，未经允许不得转载。

688IT编程网

Flink1.9实战:使用SQL读取Kafka并写入MySQL

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Flink1.9实战:使用SQL读取Kafka并写入MySQL

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式