SAP HANA 到 Doris
CloudCanal 支持从 SAP HANA 到 Doris 的数据迁移、同步、校验和链路能力。
| 功能 | 说明 |
|---|---|
结构迁移 | 如目标不存在所选表,则自动根据源端元数据,结合映射生成对端创建语句并执行创建 |
全量数据迁移 | 逻辑迁移,通过顺序扫描表数据,将数据分批写入到对端数据库 |
增量实时同步 | 支持 INSERT, UPDATE, DELETE 常见 DML 同步 |
数据校验和订正 | 全量数据校验,并可选根据校验结果订正差异数据,支持定时,文档:创建定时校验订正任务 |
修改订阅 | 新增、删除、修改订阅表,支持历史数据迁移,文档:修改订阅 |
增量位点回溯 | 支持按照数据 ID、时间戳 回溯位点,重新消费过去一段时间的 CDC 数据 |
表名映射 | 支持 和源端保持一致, 转小写, 转大写, 以'_数字'后缀截取 |
元数据检索 | 从源端表查对端,查询设置过过滤条件的,查询设置过对端主键的 |
高级功能
| 功能 | 说明 |
|---|---|
基于 Trigger 增量同步 | 任务会自动创建表的触发器,触发器能捕获数据的 INSERT / UPDATE / DELETE 事件并写入增量 CDC 数据表 |
全量前清空目标数据 | 运行全量任务前清除老数据,包括重跑任务、定时全量迁移都会触发此能力 |
重建目标表 | 运行全量任务前重建目标表,包括重跑任务、定时全量迁移都会触发此能力 |
Stream Load 数据写入 | 采用 Stream Load 到 Doris / SelectDB be 写入数据, 默认攒批写入,可动态调节刷出数据节奏和批次大小 |
0 值时间处理 | 支持将 0 值时间设置成不同类型的值,防止写入对端报错 |
自定义表属性 | 包括分桶数、副本数等属性设置 |
设置数据分区 | 创建任务时,可按表粒度指定分区定义(静态或动态),结构迁移时自动添加该分区定义 |
定时全量迁移 | 文档1:创建定时全量任务 |
自定义代码 | 文档1:创建自定义代码任务 |
数据过滤条件 | 支持 WHERE 条件进行数据过滤,内容为 SQL 92 子集,文档:创建数据过滤任务 |
限制和注意点
| 限制项 | 说明 |
|---|---|
DDL 变化处理方案 | SAP HANA 源端通过触发器捕获增量数据,不支持 DDL 同步。若发生 DDL 变更,可参考文档:SAP HANA 源端表结构变更 |
HANA 增量同步数据类型 | HANA 增量阶段,触发器不支持捕获 TEXT、BIN_TEXT、ST_POINT、ST_GEOMETRY 类型的数据变更 |
对端表类型 | 仅支持 唯一键模型(Unique) |
源端表类型 | 不支持 无主键表 迁移同步 |
数据类型 | 不支持 BINARY, BLOB 等二进制类型 |
增量写入冲突策略 | Stream Load 写入以主键进行整行替换 |
前置条件
| 条件 | 说明 |
|---|---|
账号权限 | 文档:HANA 需要的权限 |
任务参数
| 参数名称 | 说明 |
|---|---|
sysTriggerDataSchema | 触发器写入增量表 SCHEMA 名称 |
sysTriggerDataTable | 触发器写入增量表 TABLE 名称 |
incrPagingCount | 触发器增量同步每次查询数据总量 |
incrIdleSleepSecond | 触发器的增量同步空闲时查询间隔(单位:秒) |
incrScanIntervalMs | 设置基于触发器的增量同步数据查询间隔(单位:毫秒) |
autoCheckTriggerAndReInstall | 任务启动时检查触发器状态并重新安装 |
triggerDataCleanEnabled | 是否开启定时清理触发器增量表数据 |
triggerDataCleanIntervalMin | 设置触发器增量表的清理间隔(单位:分钟) |
triggerDataRetentionMin | 设置触发器增量表数据的保留时间(单位:分钟) |
dbHeartbeatEnable | 配置对源端数据库是否开启心跳 |
needTriggerDataJsonEscape | 是否对触发器增量表数据加转义符(\) |
triggerDataJsonQuotation | 自定义触发器增量表 JSON 数据引号 |
triggerParamBathSize | 设置触发器模板中每个变量包含列的个数 |
fullBeforeImageEnabled | 触发器是否记录所有列变更前的完整数据 |
Tips: 通用参数配置请参考 通用参数及功能
前置条件
| 条件 | 说明 |
|---|---|
账号权限 | 具备 SELECT, DDL 权限(可选) |
网络准备 | 迁移同步节点(sidecar)可连接 Doris / SelectDB FE QueryPort 和 FE/BE HttpPort |
任务参数
| 参数名称 | 说明 |
|---|---|
host | MySQL 协议交互链接,对应 Doris / SelectDB FE QueryPort |
httpHost | Doris stream load 链接,对应 Doris / SelectDB FE/BE HttpPort |
totalDataInMemMb | 攒批写入,内存中最大数据容量,超过此容量或超过 asyncFlushIntervalSec 则刷出数据到写入队列 |
asyncFlushIntervalSec | 攒批写入,等待刷出的间隔时间,超过此时间或超过 totalDataInMemMb 则刷出数据到写入队列 |
flushBatchMb | 单表最大攒批容量,超过此容量则刷出数据到写入队列 |
realFlushPauseSec | 使用 stream load 刷出数据到 Doris / SelectDB 的等待时间,0 则不等待 |
soTimeoutSec | 在 QueryPort 或 HttpPort 执行操作时 tcp 超时链接(so_timeout) |
enableTimeZoneProcess | 是否对时间字段进行时区转换 |
timezone | 目标端 Doris/SelectDB 时区,例如 +08:00 Asia/Shanghai America/New_York |
maxInSizePerQuery | 校验任务中,对端单次查询的最大 IN 条件值数量,大于该值会自动拆分多次查询 |
Tips: 通用参数配置请参考 通用参数及功能