Oracle to Iceberg
| 功能 | 说明 |
|---|---|
结构迁移 | 如目标不存在所选表,则自动根据源端元数据,结合映射生成对端创建语句并执行创建 |
全量数据迁移 | 逻辑迁移,通过顺序扫描表数据,将数据分批写入到对端数据库 |
增量实时同步 | 支持 INSERT, UPDATE, DELETE 常见 DML 同步 |
修改订阅 | 新增、删除、修改订阅表,支持历史数据迁移,文档:修改订阅 |
重置位点 | 按 时间戳 或 Scn 回溯位点,重新消费过去一段时间 Oracle Redo Log |
表名映射 | 支持 和源端保持一致, 转小写, 转大写, 以'_数字'后缀截取 |
DDL 同步 | ALTER TABLE ADD COLUMN, DROP COLUMN |
高级功能
| 功能 | 说明 |
|---|---|
自动建字典 | 如果使用离线字典解析 Oracle Redo, 则在创建任务时自动创建字典 |
写入冲突策略 | 源端有主键表进行覆盖写入,源端无主键表进行追加写入 |
自定义表属性 | 包括 format-version 等属性设置 |
设置数据分区 | 创建任务时,可按表粒度指定分区定义(静态或动态),结构迁移时自动添加该分区定义 |
自定义代码 | 文档1:创建自定义代码任务 |
设置目标主键 | 变更主键为其他字段,方便数据聚合等操作 |
数据过滤条件 | 支持 WHERE 条件进行数据过滤,内容为 SQL 92 子集,文档:创建数据过滤任务 |
前置条件
| 条件 | 说明 |
|---|---|
账号权限 | 文档:Oracle 需要的权限 |
增量同步准备 | |
网络准备 | 迁移同步节点(sidecar)可连接 ORACLE 标准交互接口(如 1521) |
任务参数
| 参数名称 | 说明 |
|---|---|
fullFetchSize | 全量扫描数据设置的 fetch size |
eventStoreSize | 缓存解析完毕的增量事件缓存大小 |
logminerUser | 执行 Logminer SQL 的 Oracle 连接用户 |
logminerPasswd | 执行 Logminer SQL 的 Oracle 连接密码 |
logminerConnectType | 执行 Logminer SQL 的 Oracle 连接类型(PDB),包括 ORACLE_SID, ORACLE_SERVICE 两种可选 |
logminerSidOrService | 执行 Logminer SQL 的 Oracle 连接串 SID 或服务名(PDB) |
parseRedoSqlParallel | 解析 Logminer 数据的并发度 |
parseRedoSqlBufferSize | 解析 Logminer 数据的环形队列大小 |
redoFetchSize | 单次获取 Logminer 分析数据条数 |
redoOfferTransMaxSize | 未消费但已提交事务最大缓存数量 |
oraMiningSessionPauseSec | 使用 Logminer 挖掘日志间隙停顿时间,单位为秒 |
maxEventCountPerTxInMem | 内存中每个事务的最大事件数 |
logMiningScnStep | Oracle Logminer 分析 redo log 时指定的分析范围大小 |
abandonUnCommitTxTimeoutSec | 不带数据变更的事务未提交超过设置的值,则自动放弃该事务 |
restartTxWithDataTimeoutSec | 带数据变更的事务未提交超过设置的值,则自动重启任务 |
oraUseOnlineDic | 是否使用在线日志,false 使用离线日志对 Oracle 压力较大 |
oraReleaseIntervalSec | 重建分析链接的间隔,以释放 Oracle 服务端资源 |
fallBackScnStep | 和 Redo log 最新数据保持的距离,0 表示紧跟 |
sqlCaseConversionEnabled | 是否打开 DDL 大小写转换(根据当前数据库默认大小写规则) |
Tips: 通用参数配置请参考 通用参数及功能
前置条件
| 条件 | 说明 |
|---|---|
网络准备 | 迁移同步节点(sidecar)可连接 Catalog 和 文件存储 |
Nessie 数据源配置模版 |
|
Glue 数据源配置模版 |
|
REST 数据源配置模版 |
|
任务参数
| 参数名称 | 说明 |
|---|---|
fileFormat | 写入文件格式(parquet / orc / ... ) |
writeTargetFileSizeMb | 写入目标文件大小(MB) |
writeProps | 写入配置参数(Json 格式) |
commitBranch | 写入提交的分支 |
totalDataInMemMb | 攒批写入,内存中最大数据容量,超过此容量或超过 asyncFlushIntervalSec 则刷出数据到写入队列 |
asyncFlushIntervalSec | 攒批写入,等待刷出的间隔时间,超过此时间或超过 totalDataInMemMb 则刷出数据到写入队列 |
flushBatchMb | 单表最大攒批容量,超过此容量则刷出数据到写入队列 |
realFlushPauseSec | 刷出数据到 Iceberg 的等待时间,0 则不等待 |
Tips: 通用参数配置请参考 通用参数及功能
