认识DataX及简单入门
创始人
2024-06-02 21:29:17
0

认识DataX及简单入门


文章目录

  • 认识DataX及简单入门
    • 1. DataX的概述
      • 1.1 什么是DataX
      • 1.2 DataX 的设计
      • 1.3 支持的数据源
      • 1.3 支持的数据源
      • 1.4 框架设计
      • 1.5 运行原理
      • 1.6 DataX和Sqoop的对比
    • 2. 简单入门
      • 2.1 官方地址
      • 2.2 前置要求
      • 2.3 安装


1. DataX的概述

1.1 什么是DataX

DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aDqVojTf-1675513258287)(./1.jpg)]

1.2 DataX 的设计

为了解决异构数据源同步问题,阿里巴巴将DataX如下设计:

将复杂的网状的同步链路变成了星型数据链路, DataX 作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。

如下图所示:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gbkkwkcA-1675513258288)(./2.jpg)]

1.3 支持的数据源

DataX 目前已经有了比较全面的插件体系,主流的RDBMS 数据库、NOSQL、大数据计算系统都已经接入。

如下图所示:

1.3 支持的数据源

DataX 目前已经有了比较全面的插件体系,主流的RDBMS 数据库、NOSQL、大数据计算系统都已经接入。

如下图所示:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-m8K1w5dp-1675513258289)(./3.jpg)]

1.4 框架设计

DataX的框架如下图所示:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0oAanikV-1675513258289)(./4.jpg)]

  • Reader:数据采集模块,负责采集数据源的数据,将数据发送给Frame work。
  • Writer:数据写入模块,负责不断向Framework取数据,并将数据写入到目的端。
  • Framework:用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。

1.5 运行原理

见下图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4FyUM3Mx-1675513258290)(./5.jpg)]

解释说明:

  • Job:单个作业的管理节点,负责数据清理、子任务划分、TaskGroup.监控管理。
  • Task:由Job切分而来,是DataX作业的最小单元,每个Task负责一部分数据的同步工作。
  • Schedule:将Task组成TaskGroup,单个TaskGroup的并发数量为5。’
  • TaskGroup:负责启动Task。

举例来说,用户提交了一个 DataX 作业,并且配置了 20 个并发,目的是将一个 100 张分表的 mysql 数据同步到 odps 里面。

那么DataX 的调度决策思路是:

  • DataXJob 根据分库分表切分成了 100 个 Task。

  • 根据 20 个并发,DataX 计算共需要分配 4 个 TaskGroup。

  • 4 个TaskGroup 平分切分好的 100 个 Task,每一个 TaskGroup 负责以 5 个并发共计运行 25 个 Task。

1.6 DataX和Sqoop的对比

功能DataXSqoop
运行模式单进程多线程MR
MySQL 读写单机压力大; 读写粒度容易控制MR 模式重,写出错处理麻烦
Hive 读写单机压力大很好
文件格式orc 支持orc 不支持,可添加
分布式不支持,可以通过调度系统规避支持
流控有流控功能需要定制
统计信息已有一些统计,上报需定制没有,分布式的数据收集不方便
数据校验在 core 部分有校验功能没有,分布式的数据收集不方便
监控需要定制需要定制
社区开源不久,社区不活跃一直活跃,核心部分变动很少

2. 简单入门

2.1 官方地址

下载地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

源码地址:https://github.com/alibaba/DataX

2.2 前置要求

  • 操作系统:Linux

  • JDK:1.8 以上,推荐 1.8

  • Python:推荐 Python2.6.X

2.3 安装

  • 将下载好的datax.tar.gz 上传到 node01 的 /opt/software目录下

  • 解压 datax.tar.gz 到/opt/module目录下

[whybigdata@node01 software]$ tar -zxvf datax.tar.gz -C /opt/module/
  • 运行自动检测脚本
[whybigdata@node01 bin]$ cd /opt/module/datax/bin/
[whybigdata@node01 bin]$ python datax.py /opt/module/datax/job/job.json

结果如下,表示没有问题,安装成功

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jhe8rTAS-1675513258291)(./6.jpg)]

全文结束!

相关内容

热门资讯

有一种记忆叫温暖作文 有一种记忆叫温暖优秀作文(精选10篇)  无论是在学校还是在社会中,大家最不陌生的就是作文了吧,写作...
半命题作文:什么的等待「」 半命题作文:什么的等待「精选」  有些等待是出于关爱,有些等待是为了幸福,有些等待则是为了成功。今天...
下雪的作文 关于下雪的作文 (集锦15篇)  在我们平凡的日常里,大家总免不了要接触或使用作文吧,作文是由文字组...
庐江堂何氏祠堂对联 庐江堂何氏祠堂对联  解读百家姓何姓,中丞山峻;水部梅清。整理何氏宗祠对联大全。何姓是当今中国姓氏排...
stay with me音译... stay with me音译歌词  Bigbang是2006年YG Entertainment推出的...
月考总结作文 月考总结作文五篇  总结是对某一阶段的工作、学习或思想中的经验或情况进行分析研究的书面材料,它有助于...
以变为话题的作文 以变为话题的作文范文800字(精选90篇)  大家都写过作文,肯定对各类作文都很熟悉吧,特别是应用频...
家乡的风味小吃作文 家乡的风味小吃作文(合集15篇)  在平平淡淡的学习、工作、生活中,大家对作文都不陌生吧,根据写作命...
动画电影《大鱼海棠》印象曲的... 动画电影《大鱼海棠》印象曲的歌词  大鱼 - 周深  (动画电影《大鱼海棠》印象曲)  作曲 : 钱...
秋天的芦苇作文 秋天的芦苇作文4篇  在日常学习、工作抑或是生活中,大家都经常接触到作文吧,作文是人们以书面形式表情...
写给闺蜜的一封信作文 写给闺蜜的一封信作文(精选7篇)  无论是身处学校还是步入社会,大家都接触过作文吧,作文根据写作时限...
快乐原来如此简单作文600字 快乐原来如此简单作文600字(通用5篇)  在平平淡淡的学习、工作、生活中,大家一定都接触过作文吧,...
一件奇怪的事小学生作文 一件奇怪的事小学生作文  都说世上无奇不有,你遇到什么奇怪的事情呢?下面是小编整理的一件奇怪的事小学...
以树为话题的优秀作文 以树为话题的优秀作文(精选30篇)  大家都经常看到作文的身影吧,尤其是占有重要地位的话题作文,话题...
庆三八作文 庆三八作文五篇  在学习、工作乃至生活中,大家一定都接触过作文吧,作文根据体裁的不同可以分为记叙文、...
品位生活作文 品位生活作文  无论是在学校还是在社会中,大家都跟作文打过交道吧,作文是一种言语活动,具有高度的综合...
启示作文 精选启示作文五篇  在平平淡淡的学习、工作、生活中,大家都尝试过写作文吧,写作文可以锻炼我们的独处习...
遗憾也是一种美作文700字 遗憾也是一种美作文700字  导语:世间没有永不凋谢的花朵,人生也没有永远灿烂的风景。下面YJBYS...
我和白雪公主过一天作文 我和白雪公主过一天作文(精选29篇)  在平平淡淡的学习、工作、生活中,大家总少不了接触作文吧,作文...
我的同桌李艳冰作文 我的同桌李艳冰作文  她,个子高高,没有什么引人注目的地方,但她却有一颗金子般的心灵。她就是我的同桌...