🎉 CloudCanal 上线 V6.1.0.0：KingbaseES 分区表迁移性能大幅提升

跳到主要内容

Aurora for MySQL 到 Hive

CloudCanal 支持从 Aurora for MySQL 到 Hive 的数据迁移、同步、校验和链路能力。

选择对端数据库：

Hive

数据链路

基本功能

功能	说明
结构迁移	如目标不存在所选表，则自动根据源端元数据，结合映射生成对端创建语句并执行创建
全量数据迁移	逻辑迁移，通过顺序扫描表数据，将数据分批写入到对端数据库
增量实时同步	支持 INSERT, UPDATE, DELETE 常见 DML 同步（有主键表）
重置位点	支持按照文件位点、时间戳回溯位点，重新消费过去一段时间或指定 Binlog 文件和位点开始的增量日志
表名映射	支持和源端保持一致, 转小写, 转大写, 以'_数字'后缀截取
元数据检索	从源端表查对端，查询设置过过滤条件的，查询设置过对端主键的

高级功能

功能	说明
全量前清空目标数据	运行全量任务前清除老数据，包括重跑任务、定时全量迁移都会触发此能力
重建目标表	运行全量任务前重建目标表，包括重跑任务、定时全量迁移都会触发此能力
定时全量迁移	文档1：创建定时全量任务文档2：定时全量实现增量数据迁移
自定义代码	文档1：创建自定义代码任务文档2：自定义代码任务 debug 文档3：在自定义代码中打日志
设置目标主键	变更主键为其他字段，方便数据聚合等操作
数据过滤条件	支持 WHERE 条件进行数据过滤，内容为 SQL 92 子集，文档：创建数据过滤任务

限制和注意点

限制项	说明
MySQL 存储引擎	支持 InnoDB, MySIAM, 阿里云 XEngine, 其他存储引擎暂未测试
MySQL 字符集	支持 utf8, utf8mb4, latin1, 其他编码暂未测试

使用示例

标题	详情
CloudCanal x Hive 构建高效的实时数仓	文档：CloudCanal x Hive 构建高效的实时数仓

链路FAQ

MySQL 任务延迟怎么办?
MySQL 源端找不到 binlog 文件
如何打开 MySQL 源端心跳?
MySQL 源端 Schema 权限报错怎么办?

Tips: MySQL 源端相关 FAQ 同样适用于 MySQL 系数据源。

源端数据源

前置条件

条件	说明
账号权限	文档：MySQL / MariaDB 需要的权限
开启 Binlog	[mysqld] log-bin=mysql-bin # 开启 Binlog binlog-format=ROW # 选择 ROW 模式 binlog_row_image=FULL # 变更带所有列数据

任务参数

参数名称	说明
parseBinlogParallel	增量解析 Binlog 的并发数
parseBinlogBufferSize	用于增量解析 Binlog 的环形队列大小
maxTransactionSize	单事务最大数据条数，超过则分段刷出
limitThroughputMb	限制增量 Binlog 流量
extraDDL	兼容额外的 DDL 同步，包括 PT, GHOST, ALI_DMS, PT_GHOST
fullDataSqlConditionEnabled	将过滤条件拼入 SQL 中进行源端数据扫描，此参数只针对全量迁移有效
srcTimeZone	源端时区，例如 +08:00, Asia/Shanghai, America/New_York 等

Tips: 通用参数配置请参考通用参数及功能

目标端数据源

前置条件

条件	说明
网络准备	迁移同步节点（sidecar）可连接 Hdfs / Hive 节点

任务参数

参数名称	说明
asyncFlushIntervalSec	攒批写入，等待刷出的间隔时间，超过此时间或超过 totalDataInMemMb 则刷出数据到写入队列
totalDataInMemMb	攒批写入，内存中最大数据容量，超过此容量或超过 asyncFlushIntervalSec 则刷出数据到写入队列
realFlushPauseSec	刷出数据到 HDFS 文件的等待时间，0 则不等待
hdfsBlockSize	Hive 底下的 HDFS 写入的文件块大小
incrTempSchemaName	Hive 增量临时 Schema
incrTempTableIntervalCharacter	Hive 增量临时表连接符
incrTempTableDistConnect	Hive 增量临时表连接区分符，必须为两个，使用 ; 间隔
incrMergePollingPauseSec	增量合并检查线程轮询时间（单位：秒）
incrMergeTimePauseMin	增量临时表合并间隔时间（单位：分钟）

Tips: 通用参数配置请参考通用参数及功能

联系我们

微信二维码

扫码添加微信，获取技术支持