开源数据同步工具——datax

数据是阿里巴巴集团中广泛使用的离线数据同步工具/平台,包括MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、tablestooox

支持的数据存储

类型

数据源

(Reader (读) ) ) ) )。

Writer (写入) ) ) ) )。

文档

RDBMS关系数据库

MySQL

甲骨文公司

SQL服务器

PostgreSQL

DRDS

通用RDBMS (支持所有关系数据库)

阿里巴巴云数仓数据存储

ODPS

ADS

操作系统

OCS

否SQL数据存储

OTS

Hbase0.94

Hbase1.1

Phoenix4.x

蒙哥数据库

海文

无结构化数据存储

TxtFile

FTP

硬盘驱动器

电子搜索

环境依赖

JDK(1.6或更高版本,推荐1.6 )教程

python (推荐python 2.6.x )教程

datax下载位置

脚本文件: run.bat,内容如下。

cd E:\Application\datax #将进入datax目录

python2儒教长颈鹿\ datax.py-p ‘-dtable=tablename ‘ job\myjob.JSON

任务文件: job/job.json,内容如下。

{

‘ job’: {

‘ setting’: {

‘ speed’: {

‘ byte’: 10485760

(,

‘错误限制’ : {

‘ record’: 0,

‘ percentage’: 0.02

}

(,

‘ content’: [{

‘ reader’: {

‘ name ‘ : ‘ SQL服务器reader ‘,

‘ parameter’: {

‘ username’: ‘sa ‘,//源数据库用户名

‘ password’: ‘123456 ‘,//源数据库密码

‘ column’: [‘*’]显示,

‘ connection’: [{

‘ table’: [‘$table’],

‘ JDBCURL’:[‘JDBC:SQL服务器://10.1.1.133601433; DatabaseName=dbname’]//源数据库ip、端口、库名称

() ) ]

}

(,

‘ writer’: {

‘ name’: ‘sqlserverwriter ‘,

‘ parameter’: {

‘ username’: ‘sa ‘,//目标数据库用户名

‘ password’: ‘123456 ‘,//目标数据库密码

‘ column’: [‘*’]显示,

‘ preSql’: [

‘ truncate table @table ‘

]、

‘ postSql’: [‘],

‘ connection’: [{

‘ table’: [‘$table’],

‘ JDBC URL ‘ : ‘ JDBC : SQL server ://10.1.1.133601433; DatabaseName=dbname ‘

(//目标数据库ip、端口、库名称

}

}

() ) ]

}

}

目录结构

数据传输

run.bat

job

() job.json