MariaDB 到 Hive
CloudCanal 支持从 MariaDB 到 Hive 的数据迁移、同步、校验和链路能力。
| 功能 | 说明 |
|---|---|
结构迁移 | 如目标不存在所选表,则自动根据源端元数据,结合映射生成对端创建语句并执行创建 |
全量数据迁移 | 逻辑迁移,通过顺序扫描表数据,将数据分批写入到对端数据库 |
增量实时同步 | 支持 INSERT, UPDATE, DELETE 常见 DML 同步(有主键表) |
重置位点 | 支持按照文件位点、时间戳 回溯位点,重新消费过去一段时间或指定 Binlog 文件和位点开始的增量日志 |
表名映射 | 支持 和源端保持一致, 转小写, 转大写, 以'_数字'后缀截取 |
元数据检索 | 从源端表查对端,查询设置过过滤条件的,查询设置过对端主键的 |
高级功能
| 功能 | 说明 |
|---|---|
全量前清空目标数据 | 运行全量任务前清除老数据,包括重跑任务、定时全量迁移都会触发此能力 |
重建目标表 | 运行全量任务前重建目标表,包括重跑任务、定时全量迁移都会触发此能力 |
定时全量迁移 | 文档1:创建定时全量任务 |
自定义代码 | 文档1:创建自定义代码任务 |
设置目标主键 | 变更主键为其他字段,方便数据聚合等操作 |
数据过滤条件 | 支持 WHERE 条件进行数据过滤,内容为 SQL 92 子集,文档:创建数据过滤任务 |
限制和注意点
| 限制项 | 说明 |
|---|---|
MySQL 存储引擎 | 支持 InnoDB, MySIAM, 阿里云 XEngine, 其他存储引擎暂未测试 |
MySQL 字符集 | 支持 utf8, utf8mb4, latin1, 其他编码暂未测试 |
前置条件
| 条件 | 说明 |
|---|---|
账号权限 | |
开启 Binlog | [mysqld] |
任务参数
| 参数名称 | 说明 |
|---|---|
parseBinlogParallel | 增量解析 Binlog 的并发数 |
parseBinlogBufferSize | 用于增量解析 Binlog 的环形队列大小 |
maxTransactionSize | 单事务最大数据条数,超过则分段刷出 |
limitThroughputMb | 限制增量 Binlog 流量 |
extraDDL | 兼容额外的 DDL 同步,包括 PT, GHOST, ALI_DMS, PT_GHOST |
fullDataSqlConditionEnabled | 将过滤条件拼入 SQL 中进行源端数据扫描,此参数只针对全量迁移有效 |
srcTimeZone | 源端时区,例如 +08:00, Asia/Shanghai, America/New_York 等 |
Tips: 通用参数配置请参考 通用参数及功能
任务参数
| 参数名称 | 说明 |
|---|---|
asyncFlushIntervalSec | 攒批写入,等待刷出的间隔时间,超过此时间或超过 totalDataInMemMb 则刷出数据到写入队列 |
totalDataInMemMb | 攒批写入,内存中最大数据容量,超过此容量或超过 asyncFlushIntervalSec 则刷出数据到写入队列 |
realFlushPauseSec | 刷出数据到 HDFS 文件的等待时间,0 则不等待 |
hdfsBlockSize | Hive 底下的 HDFS 写入的文件块大小 |
incrTempSchemaName | Hive 增量临时 Schema |
incrTempTableIntervalCharacter | Hive 增量临时表连接符 |
incrTempTableDistConnect | Hive 增量临时表连接区分符,必须为两个,使用 ; 间隔 |
incrMergePollingPauseSec | 增量合并检查线程轮询时间(单位:秒) |
incrMergeTimePauseMin | 增量临时表合并间隔时间(单位:分钟) |
Tips: 通用参数配置请参考 通用参数及功能
