AutoMQ 到 Iceberg
CloudCanal 支持从 AutoMQ 到 Iceberg 的数据迁移、同步、校验和链路能力。
| 功能 | 说明 |
|---|---|
增量实时同步 | 支持订阅源端 Topic 的消息,并转换为 INSERT、UPDATE、DELETE DML |
修改订阅 | 新增、删除、修改订阅 Topic,文档:修改订阅 |
重置位点 | 按 时间戳 回溯位点,重新消费过去一段时间的数据 |
高级功能
| 功能 | 说明 |
|---|---|
消息格式 | 支持以下消息格式,文档:消息格式说明
|
写入冲突策略 | 源端有主键表进行覆盖写入,源端无主键表进行追加写入 |
自定义表属性 | 包括 format-version 等属性设置 |
设置数据分区 | 创建任务时,可按表粒度指定分区定义(静态或动态),结构迁移时自动添加该分区定义 |
任务参数
| 参数名称 | 说明 |
|---|---|
schemaFormat | MQ 消息格式,文档:消息格式说明 |
consumerGroupId | AutoMQ 消费组 Id |
consumeParallel | 消费 AutoMQ 的并行度 |
sessonTimeoutMs | AutoMQ Session 超时时间(毫秒) |
maxPollRecords | AutoMQ 一次最大拉取消息数量 |
Tips: 通用参数配置请参考 通用参数及功能
前置条件
| 条件 | 说明 |
|---|---|
网络准备 | 迁移同步节点(sidecar)可连接 Catalog 和 文件存储 |
Nessie 数据源配置模版 |
|
Glue 数据源配置模版 |
|
REST 数据源配置模版 |
|
任务参数
| 参数名称 | 说明 |
|---|---|
fileFormat | 写入文件格式(parquet / orc / ... ) |
writeTargetFileSizeMb | 写入目标文件大小(MB) |
writeProps | 写入配置参数(Json 格式) |
commitBranch | 写入提交的分支 |
totalDataInMemMb | 攒批写入,内存中最大数据容量,超过此容量或超过 asyncFlushIntervalSec 则刷出数据到写入队列 |
asyncFlushIntervalSec | 攒批写入,等待刷出的间隔时间,超过此时间或超过 totalDataInMemMb 则刷出数据到写入队列 |
flushBatchMb | 单表最大攒批容量,超过此容量则刷出数据到写入队列 |
realFlushPauseSec | 刷出数据到 Iceberg 的等待时间,0 则不等待 |
Tips: 通用参数配置请参考 通用参数及功能
