🎉 CloudCanal 上线 V6.1.0.0：KingbaseES 分区表迁移性能大幅提升

跳到主要内容

PostgreSQL 到 Iceberg

CloudCanal 支持从 PostgreSQL 到 Iceberg 的数据迁移、同步、校验和链路能力。

选择对端数据库：

Iceberg

数据链路

基本功能

功能	说明
结构迁移	如目标不存在所选表，则自动根据源端元数据，结合映射生成对端创建语句并执行创建
全量数据迁移	逻辑迁移，通过顺序扫描表数据，将数据分批写入到对端数据库
增量实时同步	支持 INSERT, UPDATE, DELETE 常见 DML 同步
修改订阅	新增、删除、修改订阅表，支持历史数据迁移，文档：修改订阅
表名映射	支持和源端保持一致, 转小写, 转大写, 以'_数字'后缀截取
DDL 同步	ALTER TABLE ADD COLUMN, DROP COLUMN, MODIFY COLUMN, CHANGE COLUMN
元数据检索	从源端表查对端，查询设置过过滤条件的

高级功能

功能	说明
写入冲突策略	源端有主键表进行覆盖写入，源端无主键表进行追加写入
自定义表属性	包括 format-version 等属性设置
设置数据分区	创建任务时，可按表粒度指定分区定义（静态或动态），结构迁移时自动添加该分区定义
自定义代码	文档1：创建自定义代码任务文档2：自定义代码任务 debug 文档3：在自定义代码中打日志
设置目标主键	变更主键为其他字段，方便数据聚合等操作
数据过滤条件	支持 WHERE 条件进行数据过滤，内容为 SQL 92 子集，文档：创建数据过滤任务

源端数据源

前置条件

条件

说明

账号权限

需要权限如下(以自建数据库为例):

GRANT ALL PRIVILEGES ON DATABASE 同步库 TO 同步账号（或同步库 information_schema 中所有视图的 SELECT 权限和需要同步表、索引、约束的 SELECT 权限)
ALTER USER 同步账号 REPLICATION

增量同步准备

准备动作按如下步骤进行:

修改 postgresql.conf, 设置 wal_level=logical 和 wal_log_hints = on
修改 pg_hba.conf, 设置 host replication 同步账号 CIDR网段 md5 , host 同步库同步账号 CIDR网段 md5, host postgres 同步账号 CIDR网段 md5
重启 PostgreSQL

网络准备

迁移同步节点（sidecar）可连接 PostgreSQL 标准交互接口（如 5432）

任务参数

参数名称	说明
fullFetchSize	全量扫描数据设置的 fetch size
eventStoreSize	缓存解析完毕的增量事件缓存大小
ignoreGisSRID	解析 GIS 数据类型时是否忽略 SRID
defaultGisSRID	设置 GIS 数据类型的 SRID

Tips: 通用参数配置请参考通用参数及功能

目标端数据源

前置条件

条件	说明
网络准备	迁移同步节点（sidecar）可连接 Catalog 和文件存储
Nessie 数据源配置模版	网络地址（CatalogUri）: ip:19120/api/v1 catalogName: nessie catalogType: NESSIE catalogWarehouse: s3://warehouse catalogProps: { "io-impl": "org.apache.iceberg.aws.s3.S3FileIO", "s3.endpoint": "http://ip:9000", "s3.access-key-id": "admin", "s3.secret-access-key": "password", "s3.path-style-access": "true", "client.region": "ap-southeast-1" }
Glue 数据源配置模版	网络地址（CatalogUri）: glue.ap-southeast-1.amazonaws.com httpsEnabled: true catalogName: glue_catalog catalogType: GLUE catalogWarehouse : s3://warehouse catalogProps: { "io-impl": "org.apache.iceberg.aws.s3.S3FileIO", "s3.endpoint": "https://s3.ap-southeast-1.amazonaws.com", "s3.access-key-id": "", "s3.secret-access-key": "", "s3.path-style-access": "true", "client.region": "ap-southeast-1", "client.credentials-provider.glue.access-key-id": "", "client.credentials-provider.glue.secret-access-key": "", "client.credentials-provider": "com.amazonaws.glue.catalog.credentials.GlueAwsCredentialsProvider" }
REST 数据源配置模版	网络地址（CatalogUri）: ip :8181 httpsEnabled: false catalogName: rest_catalog catalogType: REST catalogWarehouse : s3://warehouse catalogProps: { "io-impl": "org.apache.iceberg.aws.s3.S3FileIO", "s3.endpoint": "http://ip:9000", "s3.access-key-id": "admin", "s3.secret-access-key": "password", "s3.path-style-access": "true", "client.region": "us-east-1" }

任务参数

参数名称	说明
fileFormat	写入文件格式（parquet / orc / ... ）
writeTargetFileSizeMb	写入目标文件大小（MB）
writeProps	写入配置参数（Json 格式）
commitBranch	写入提交的分支
totalDataInMemMb	攒批写入，内存中最大数据容量，超过此容量或超过 asyncFlushIntervalSec 则刷出数据到写入队列
asyncFlushIntervalSec	攒批写入，等待刷出的间隔时间，超过此时间或超过 totalDataInMemMb 则刷出数据到写入队列
flushBatchMb	单表最大攒批容量，超过此容量则刷出数据到写入队列
realFlushPauseSec	刷出数据到 Iceberg 的等待时间，0 则不等待

Tips: 通用参数配置请参考通用参数及功能

联系我们

微信二维码

扫码添加微信，获取技术支持