项目简介
DataX是阿里云DataWorks数据集成的开源版本,在阿里巴巴集团内部广泛应用,是高效的离线数据同步工具/平台,支持多种异构数据源之间的高效数据同步,涉及MySQL、Oracle、OceanBase等众多数据源。
项目的主要特性和功能
数据同步框架
DataX将不同数据源的同步抽象为Reader插件(从源头数据源读取数据)和Writer插件(向目标端写入数据),理论上可支持任意数据源类型的数据同步。其插件体系作为生态系统,新接入数据源可与现有数据源互通。
支持的数据源
拥有全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统均已接入。支持的数据源包括但不限于RDBMS关系型数据库(如MySQL、Oracle等)、阿里云数仓数据存储(如ODPS、ADS等)、NoSQL数据存储(如OTS、HBase等)、无结构化数据存储(如TxtFile、FTP等)。
商业版本
阿里云DataWorks数据集成是DataX团队的商业化产品,能在复杂网络环境下,实现丰富异构数据源间高速稳定的数据移动,提供繁杂业务背景下的数据同步解决方案。支持云上近3000家客户,单日同步数据超3万亿条,支持离线50 + 种数据源,可进行整库迁移等各类同步,2020年更新实时同步能力,支持10 + 种数据源读写任意组合,提供多种数据源到阿里云大数据引擎的一键全增量同步方案。
安装使用步骤
下载与解压
从 DataX下载地址 下载DataX的压缩包,将其解压到本地目录。
示例配置文件
以下是从MySQL同步数据到HBase的简单配置文件示例:
json
{
"job": {
"content": [
{
"reader": {
"name": "mysqlreader",
"parameter": {
"username": "root",
"password": "root",
"column": ["id", "name", "age"],
"connection": [
{
"jdbcUrl": ["jdbc:mysql://127.0.0.1:3306/database"],
"table": ["table"]
}
]
}
},
"writer": {
"name": "hbase11xwriter",
"parameter": {
"hbaseConfig": {
"hbase.zookeeper.quorum": "localhost",
"hbase.zookeeper.property.clientPort": "2181"
},
"table": "hbase_table",
"column": [
{
"name": "rowkey",
"type": "string"
},
{
"name": "cf:name",
"type": "string"
},
{
"name": "cf:age",
"type": "string"
}
]
}
}
}
],
"setting": {
"speed": {
"channel": 3
}
}
}
}
运行DataX任务
在DataX的安装目录下,使用以下命令运行DataX任务:
bash
python bin/datax.py path/to/your/job.json
监控和日志
DataX提供详细日志输出,可通过查看DataX安装目录log
文件夹中的日志文件监控任务执行情况。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】