数据是阿里巴巴集团中广泛使用的离线数据同步工具/平台,包括MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、tablestooox
支持的数据存储
类型
数据源
(Reader (读) ) ) ) )。
Writer (写入) ) ) ) )。
文档
RDBMS关系数据库
MySQL
甲骨文公司
SQL服务器
PostgreSQL
DRDS
通用RDBMS (支持所有关系数据库)
阿里巴巴云数仓数据存储
ODPS
ADS
操作系统
OCS
否SQL数据存储
OTS
Hbase0.94
Hbase1.1
Phoenix4.x
蒙哥数据库
海文
无结构化数据存储
TxtFile
FTP
硬盘驱动器
电子搜索
环境依赖
JDK(1.6或更高版本,推荐1.6 )教程
python (推荐python 2.6.x )教程
datax下载位置
脚本文件: run.bat,内容如下。
cd E:\Application\datax #将进入datax目录
python2儒教长颈鹿\ datax.py-p ‘-dtable=tablename ‘ job\myjob.JSON
任务文件: job/job.json,内容如下。
{
‘ job’: {
‘ setting’: {
‘ speed’: {
‘ byte’: 10485760
(,
‘错误限制’ : {
‘ record’: 0,
‘ percentage’: 0.02
}
(,
‘ content’: [{
‘ reader’: {
‘ name ‘ : ‘ SQL服务器reader ‘,
‘ parameter’: {
‘ username’: ‘sa ‘,//源数据库用户名
‘ password’: ‘123456 ‘,//源数据库密码
‘ column’: [‘*’]显示,
‘ connection’: [{
‘ table’: [‘$table’],
‘ JDBCURL’:[‘JDBC:SQL服务器://10.1.1.133601433; DatabaseName=dbname’]//源数据库ip、端口、库名称
() ) ]
}
(,
‘ writer’: {
‘ name’: ‘sqlserverwriter ‘,
‘ parameter’: {
‘ username’: ‘sa ‘,//目标数据库用户名
‘ password’: ‘123456 ‘,//目标数据库密码
‘ column’: [‘*’]显示,
‘ preSql’: [
‘ truncate table @table ‘
]、
‘ postSql’: [‘],
‘ connection’: [{
‘ table’: [‘$table’],
‘ JDBC URL ‘ : ‘ JDBC : SQL server ://10.1.1.133601433; DatabaseName=dbname ‘
(//目标数据库ip、端口、库名称
}
}
() ) ]
}
}
目录结构
数据传输
run.bat
job
() job.json