多来源数据汇聚
简介
CloudCanal 近期增强了数据汇聚防重能力,消除各个来源 数据表名冲突、主键/唯一键约束冲突 的可能性。
这个增强具体特性包括:
- 常用虚拟列添加
- 指定虚拟列为对端表主键
- 对端表名分级元数据拼接
- 可视化操作,无需写自定义代码
本文简要介绍上述特性,并使用 MySQL -> StarRocks 作为示例进行能力演示。
技术点
多种虚拟列
为了应对不同场景,不同数据源,CloudCanal 提供了以下虚拟列生成能力,如下表。
同时也支持 单表设置多个虚拟列,针对特定表设置,批量设置。
| 虚拟列种类 | 说明 | 有效的操作 |
|---|---|---|
| 指定具体值 | 可指定特定的数字、字符串生成新列,写入到对端 | INSERT, UPDATE, DELETE |
| 数据迁移或同步时间 | 以数据到达 CloudCanal 的时间生成新列,写入对端 | |
| 源端实例ID_SCHEMA_表_主键值 | 按照源端数据源 实例ID,Schema,表 和 主键值 做拼接生成新列,写入对端 | |
| 源端实例ID_DB_SCHEMA_表_主键值 | 按照源端数据源 实例ID,Catalog,Schema,表 和 主键值 做拼接生成新列,写入对端 | |
| 源端实例DB_SCHEMA_表_主键值 | 按照源端数据源 Catalog,Schema,表 和 主键值 做拼接生成新列,写入对端 | |
| 源端实例SCHEMA_表_主键值 | 按照源端数据源 Schema,表 和 主键值 做拼接生成新列,写入对端 | |
| 源端实例表_主键值 | 按照源端数据源 表 和 主键值 做拼接生成新列,写入对端 | |
| 转换表达式 | 按照预设的脚本转换数据,支持的转换规则请参考 当前支持的脚本 |
指定虚拟列为对端主键(唯一键)
多来源数据汇聚到同一张表,如果存在主键或唯一约束,往往会形成冲突,比较典型的例子如来自各地的 MySQL 数据自带自增主键,汇聚到对端主键即冲突。
为了解决这个问题,我们利用既有的 设定对端主键能力,将其扩展到虚拟列,通过将类似 源端实例ID_SCHEMA_表_主键值 设置成对端主键达成主键或唯一键约束成立。
此能力可针对特定表或批量进行设置。