MongoDB 到 ClickHouse
CloudCanal 支持从 MongoDB 到 ClickHouse 的数据迁移、同步、校验和链路能力。
| 功能 | 说明 |
|---|---|
全量数据迁移 | 逻辑迁移,通过顺序扫描表数据,将数据分批写入到对端数据库,支持的 _id 类型为 ObjectId、Long、Integer |
增量实时同步 | 支持 INSERT、UPDATE、DELETE 同步 |
数据校验和订正 | 全量数据校验,并可选根据校验结果订正差异数据,支持定时,文档:创建定时校验订正任务 |
修改订阅 | 新增、删除、修改订阅表,支持历史数据迁移,文档:修改订阅 |
增量位点回溯 | 支持按照 时间戳 回溯位点,重新消费过去一段时间的 oplog |
部署形态支持 | 支持 主备、副本集、分片集群 |
表名映射 | 支持 和源端保持一致, 转小写, 转大写, 以'_数字'后缀截取 |
高级功能
| 功能 | 说明 |
|---|---|
追加模式写入 | INSERT 和 UPDATE 以追加模式批量写入, DELETE 单独通过 ALTER 方式执行 |
定时优化表 | 通过设置 autoOptimizeThresholdSec 参数,定时优化表 |
自定义代码 | 文档1:创建自定义代码任务 |
添加虚拟列 | 支持添加自定义的虚拟列,指定的值为固定值,如区域、编号等 |
限制和注意点
| 限制项 | 说明 |
|---|---|
oplog 大小和保留时间设置 | MongoDB 默认配置 replication.oplogSizeMB 过小 或 storage.oplogMinRetentionHours 过小,如数据同步延迟过大,可能导致未消费的 oplog 被清除,需调大此参数 |
MongoDB 主备架构的任务设置 | 源端 MongoDB 主备架构模式,需要将源端任务参数 oplogCollection 设置为 oplog.$main |
changeStream 模式 | MongoDB 3.6 以上支持 changeStream 获取增量变更,同步任务可以设置源端参数 captureMode 为 CHANGE_STREAM,MongoDB 分片集群可以填写 Mongos 连接串进行同步 |
oplog 模式 | 当使用 oplog 模式进行 MongoDB 源端同步时,需要确保该能够访问到 local 库 |
特殊操作 | DELETE 操作过多(>50 条/秒)将大幅影响数据同步性能 |
目标端表引擎 | 仅支持以下表引擎以及对应的源端表类型:
|
任务参数
| 参数名称 | 说明 |
|---|---|
captureMode | 配置 MongoDB 增量源端模式,支持 OP_LOG 和 CHANGE_STREAM 模式 |
changeStreamBatchSize | 配置 MongoDB Change Stream 每一批拉取变更事件的最大条数 |
oplogCollection | 配置 MongoDB oplog 的集合名,默认是 oplog.rs |
timezone | 需要转换的源端时区(默认 UTC) |
Tips: 通用参数配置请参考 通用参数及功能
任务参数
| 参数名称 | 说明 |
|---|---|
multiReplica | 是否为多副本集群 |
clusterName | 集群名称,当 multiReplica 为 true, 则自动在 DDL/DML 中加入 ON CLUSTER clusterName 子句 |
ckTableEngine | 当前支持以下表引擎:
|
autoOptimizeThresholdSec | 定时优化表(optimize table final)间隔,<=0 则关闭此功能 |
enableTimeRangeClamping | 是否启用时间范围裁剪,强制将时间和日期值收束到 ClickHouse JDBC 的合法区间内,超出的数值将被截断至最小值或最大值。默认关闭(false)。 收束后范围(UTC):
|
Tips: 通用参数配置请参考 通用参数及功能
