seatunnel 2.3.1全流程部署使用教程

 更新时间:2023年05月22日 09:27:14   作者:zzuli_cyf  
SeaTunnel是一个非常易于使用的超高性能分布式数据集成平台,支持海量数据的实时同步,这篇文章主要介绍了seatunnel 2.3.1全流程部署使用,需要的朋友可以参考下
(福利推荐:【腾讯云】服务器最新限时优惠活动,云服务器1核2G仅99元/年、2核4G仅768元/3年,立即抢购>>>:9i0i.cn/qcloud

(福利推荐:你还在原价购买阿里云服务器?现在阿里云0.8折限时抢购活动来啦!4核8G企业云服务器仅2998元/3年,立即抢购>>>:9i0i.cn/aliyun

SeaTunnel是什么?

SeaTunnel下一代高性能、分布式、海量数据集成框架。SeaTunnel是一个非常易于使用的超高性能分布式数据集成平台,支持海量数据的实时同步。每天可以稳定高效地同步数百亿数据,已被近百家公司用于生产。

SeaTunnel的核心特性有哪些?

  • 1.组件丰富(内置丰富插件,支持各种数据产品方便快捷的传输和集成数据)。

  • 2.高扩展性(基于模块化和插件化设计,支持热插拔, 带来更好的扩展性)。

  • 3.简单易用(特有的架构设计下,使得开发配置更简单,几乎零代码,无使用成本)。

  • 4.成熟稳定(经历多家企业,大规模生产环境使用和海量数据的洗礼,稳定健壮)。

Seatunnel 2.3.1 部署使用

1 部署

1.1 下载解压

https://dlcdn.apache.org/incubator/seatunnel/2.3.1/apache-seatunnel-incubating-2.3.1-bin.tar.gz

下载完毕之后上传到服务器上面并解压

# 解压到了/opt/module目录下
tar -zxvf apache-seatunnel-incubating-2.3.1-bin.tar.gz -C /opt/module

1.2 下载对应的connector

在apache的仓库下载相应的connector,下载时每个jar包在不同的路径下面,放到/seatunnel-2.3.1/connectors/seatunnel目录下

https://repo.maven.apache.org/maven2/org/apache/seatunnel/

connector-assert-2.3.1.jar
connector-cdc-mysql-2.3.1.jar
connector-console-2.3.1.jar # 自带的
connector-doris-2.3.1.jar
connector-elasticsearch-2.3.1.jar
connector-fake-2.3.1.jar # 自带的
connector-file-hadoop-2.3.1.jar
connector-file-local-2.3.1.jar
connector-hive-2.3.1.jar
connector-iceberg-2.3.1.jar
connector-jdbc-2.3.1.jar
connector-kafka-2.3.1.jar
connector-redis-2.3.1.jar

配置安装seatunnel的插件

vim  seatunnel-2.3.1/config/plugin_config

调用安装脚本的时候会在maven的中央仓库下载对应的jar包,尽量少放,下载太慢了,我放了这些

--connectors-v2--
connector-assert
connector-cdc-mysql
connector-jdbc
connector-fake
connector-console
--end--

1.3 安装seatunnel

sh bin/install-plugin.sh 2.3.1

整个过程非常慢…应该是从maven中央仓库下载东西

1.4 补充一些jar包

使用hive的话需要将这两个jar放入到seatunnel-2.3.1/lib目录下:

hive-exec-2.3.9.jar
# 下载链接
# https://repo.maven.apache.org/maven2/org/apache/hive/hive-exec/2.3.9/hive-exec-2.3.9.jar
# 注意这里是hive-exec-2.3.9.jar,不要从你的hive的lib目录下拷贝最新的jar包,就用这个
seatunnel-hadoop3-3.1.4-uber-2.3.1.jar  
# 下载链接
# https://repo.maven.apache.org/maven2/org/apache/seatunnel/seatunnel-hadoop3-3.1.4-uber/2.3.1/seatunnel-hadoop3-3.1.4-uber-2.3.1.jar  
seatunnel-hadoop3-3.1.4-uber-2.3.1-optional.jar
# 下载链接
# hhttps://repo.maven.apache.org/maven2/org/apache/seatunnel/seatunnel-hadoop3-3.1.4-uber/2.3.1/seatunnel-hadoop3-3.1.4-uber-2.3.1-optional.jar

中间由于其他缘故我拷贝了一个hive框架/lib目录下的libfb303-0.9.3.jar放到seatunnellib目录下了。

  • 使用mysql的话需要将mysql的驱动拷贝过来,应该是需要8系列的mysql驱动,我这里使用的是mysql-connector-java-8.0.21.jar

2 测试样例

2.1 官方demo fake to console

seatunnel-2.3.1/config/v2.batch.config.template

env {
  execution.parallelism = 2
  job.mode = "BATCH"
  checkpoint.interval = 10000
}
source {
  FakeSource {
    parallelism = 2
    result_table_name = "fake"
    row.num = 16
    schema = {
      fields {
        name = "string"
        age = "int"
      }
    }
  }
}
sink {
  Console {
  }
}

运行命令

cd /opt/module/seatunnel-2.3.1
./bin/seatunnel.sh --config ./config/v2.batch.config.template -e lcoal

运行成功的话会可以在console看到打印的测试数据

2.2 mysql to console

我新建了一个用来放运行配置的目录/opt/module/seatunnel-2.3.1/job

vim mysql_2console.conf

mysql_2console.conf

env {
  execution.parallelism = 2
  job.mode = "BATCH"
  checkpoint.interval = 10000
}
source{
    Jdbc {
        url = "jdbc:mysql://hadoop102/dim_db?useUnicode=true&characterEncoding=utf8&useSSL=false"
        driver = "com.mysql.cj.jdbc.Driver"
        connection_check_timeout_sec = 100
        user = "root"
        password = "xxxxxx"
        query = "select * from dim_basicdata_date_a_d where date < '2010-12-31'"
    }
}
sink {
    Console {
    }
}

查询的是一张日期维表的数据

建表语句:

CREATE DATABASE dim_db DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
drop table if exists  dim_db.dim_basicdata_date_a_d;
create table if not exists dim_db.dim_basicdata_date_a_d
(
    `date`          varchar(40) comment '日期',
    `year`          varchar(40) comment '年',
    `quarter`       varchar(40) comment '季度(1/2/3/4)',
    `season`        varchar(40) comment '季节(春季/夏季/秋季/冬季)',
    `month`         varchar(40) comment '月',
    `day`           varchar(40) comment '日',
    `week`          varchar(40) comment '年内第几周',
    `weekday`       varchar(40) comment '周几(1-周一/2-周二/3-周三/4-周四/5-周五/6-周六/7-周日)',
    `is_workday`    varchar(40) comment '是否是工作日(1-是,0-否)',
    `date_type`     varchar(40) comment '节假日类型(工作日/法定上班[调休]/周末/节假日)',
    `update_date`   varchar(40) comment '更新日期'
);

可以自己插入几条数据试试

运行命令

cd /opt/module/seatunnel-2.3.1
./bin/seatunnel.sh --config ./job/mysql_2console.conf  -e local

2.3 hive to console

创建一张hive表

CREATE database db_hive;
drop table if exists  db_hive.dim_basicdata_date_a_d;
create table if not exists db_hive.dim_basicdata_date_a_d
(
    `date`          string comment '日期',
    `year`          string comment '年',
    `quarter`       string comment '季度(1/2/3/4)',
    `season`        string comment '季节(春季/夏季/秋季/冬季)',
    `month`         string comment '月',
    `day`           string comment '日',
    `week`          string comment '年内第几周',
    `weekday`       string comment '周几(1-周一/2-周二/3-周三/4-周四/5-周五/6-周六/7-周日)',
    `is_workday`    string comment '是否是工作日(1-是,0-否)',
    `date_type`     string comment '节假日类型(工作日/法定上班[调休]/周末/节假日)',
    `update_date`   string comment '更新日期'
);

自行插入几条数据

创建配置文件hive_2console.conf

env {
  execution.parallelism = 2
  job.mode = "BATCH"
  checkpoint.interval = 10000
}
source{
  Hive {
    table_name = "db_hive.dim_basicdata_date_a_d"
    metastore_uri = "thrift://hadoop102:9083"
  }
}
sink {
    Console {
    }
}

这里我使用的hive连接方式是jdbc访问元数据,所以metastore_uri = "jdbc:hive2://hadoop102:10000"也可以正常使用。

hive-site.xml修改配置文件,有可能你已经配置好了

    <!-- 为了方便连接,采用直连的方式连接到hive数据库,注释掉下面三条配置信息 -->
    <!-- 指定存储元数据要连接的地址 -->
        <property>
        <name>hive.metastore.uris</name>
        <value>thrift://hadoop102:9083</value>
    </property>
    <!-- 指定 hiveserver2 连接的 host -->
    <property>
        <name>hive.server2.thrift.bind.host</name>
        <value>hadoop102</value>
    </property>
    <!-- 指定 hiveserver2 连接的端口号 -->
    <property>
        <name>hive.server2.thrift.port</name>
        <value>10000</value>
    </property>

运行命令

cd /opt/module/seatunnel-2.3.1
./bin/seatunnel.sh --config ./job/hive_2console.conf -e local

2.4 mysql to hive

创建配置文件

dim_basicdate_mysql_2hive.conf

env {
  execution.parallelism = 2
  job.mode = "BATCH"
  checkpoint.interval = 10000
}
source{
    Jdbc {
        url = "jdbc:mysql://hadoop102/dim_db?useUnicode=true&characterEncoding=utf8&useSSL=false"
        driver = "com.mysql.cj.jdbc.Driver"
        connection_check_timeout_sec = 100
        user = "root"
        password = "111111"
        query = "select * from dim_basicdata_date_a_d"
    }
}
sink {
    Hive {
        table_name = "db_hive.dim_basicdata_date_a_d"
        metastore_uri = "thrift://hadoop102:9083"
    }
}

运行命令

cd /opt/module/seatunnel-2.3.1
./bin/seatunnel.sh --config ./job/dim_basicdate_mysql_2hive.conf-e local

到此这篇关于seatunnel 2.3.1全流程部署使用教程的文章就介绍到这了,更多相关seatunnel 部署使用内容请搜索程序员之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持程序员之家!

相关文章

  • Markdown语法备忘

    Markdown语法备忘

    Markdown 是一种轻量级标记语言,它允许人们使用易读易写的纯文本格式编写文档,然后转换成格式丰富的HTML页面
    2014-10-10
  • 好玩的vbs小程序之关机功能

    好玩的vbs小程序之关机功能

    这篇文章主要介绍了好玩的vbs小程序之关机功能,非常有趣,感兴趣的朋友跟随小编一起看看吧
    2019-09-09
  • 一文教你在现有Vue项目中嵌入Blazor项目

    一文教你在现有Vue项目中嵌入Blazor项目

    目前官方只提供了angular和react俩种示例,所以本教程将来讲解如何在Vue的现有项目中嵌入使用Blazor项目。文中的方法讲解详细,感兴趣的小伙伴可以了解一下
    2023-01-01
  • Blazor实现组件嵌套传递值的示例详解

    Blazor实现组件嵌套传递值的示例详解

    这篇文章主要为大家详细介绍了Blazor实现组件嵌套传递值的相关知识,文中的示例代码讲解详细,具有一定的学习价值,感兴趣的可以了解一下
    2023-02-02
  • 基于chatgpt开发QQ机器人原理分析

    基于chatgpt开发QQ机器人原理分析

    ChatGPT是当前自然语言处理领域的重要进展之一,可应用于多种场景,如智能客服、聊天机器人、语音助手等。本文通过调用OpenAI GPT-3模型提供的Completion API来实现一个更加智能的QQ机器人,文中原理代码介绍的非常详细,感兴趣的同学可以参考下
    2023-05-05
  • 一文学会Hadoop与Spark等大数据框架知识

    一文学会Hadoop与Spark等大数据框架知识

    Hadoop是一个开源的可运行于大规模集群上的分布式文件系统和运行处理基础框架,Spark是UC Berkeley?AMPLab开发的是一种计算框架,分布式资源工作交由集群管理软件(Mesos、YARN),本文介绍Hadoop与Spark大数据框架知识,感兴趣的朋友一起看看吧
    2022-04-04
  • Jebrains付费插件Activation code[持续更新]

    Jebrains付费插件Activation code[持续更新]

    这篇文章主要介绍了Jebrains付费插件Activation code[持续更新],使用本Activation code需要jetbrains-agent支持!感兴趣的朋友跟随小编一起看看吧
    2020-09-09
  • session的存储方式和配置方法介绍

    session的存储方式和配置方法介绍

    Session又称为会话状态,是Web系统中最常用的状态,用于维护和当前浏览器实例相关的一些信息。我们控制用户去权限中经常用到Session来存储用户状态,这篇文章会讲下Session的存储方式、在web.config中如何配置Session、Session的生命周期等内容
    2012-05-05
  • Git Submodule管理项目子模块的使用

    Git Submodule管理项目子模块的使用

    这篇文章主要介绍了Git Submodule管理项目子模块的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-08-08
  • DSDS应用场景(高通5G)

    DSDS应用场景(高通5G)

    本文是对DSDS一个简单的介绍,感兴趣的小伙伴可以一起来做一个初步的了解
    2021-08-08

最新评论

?


http://www.vxiaotou.com