🎉 CloudCanal 上线 V6.1.0.0:KingbaseES 分区表迁移性能大幅提升
跳到主要内容

MariaDB 到 Elasticsearch

CloudCanal 支持从 MariaDB 到 Elasticsearch 的数据迁移、同步、校验和链路能力。

选择对端数据库:

数据链路

基本功能

功能说明
结构迁移

如目标不存在 Index,则根据源端元数据,结合映射规则在对端创建 Index mapping

全量数据迁移

逻辑迁移,通过顺序扫描表数据,将数据分批写入到对端数据库

增量实时同步

支持 INSERT, UPDATE, DELETE 常见 DML 同步
无主键表 UPDATE, DELETE 不同步

数据校验和订正

全量数据校验,并可选根据校验结果订正差异数据,支持定时,文档:创建定时校验订正任务

修改订阅

新增、删除、修改订阅表,支持历史数据迁移,文档:修改订阅

重置位点

支持按照文件位点、时间戳 回溯位点,重新消费过去一段时间或指定 Binlog 文件和位点开始的增量日志

索引名映射

支持 按下划线拼接(任务名_DB_SCHEMA_表), 转小写, 转大写, 和源端保持一致, 以'_数字'后缀截取

DDL 同步
  • ALTER TABLE ADD COLUMN
元数据检索

从源端表查对端,查询设置过过滤条件的,查询设置过对端主键的

高级功能

功能说明
全量前清空目标数据

运行全量任务前清除老数据,包括重跑任务、定时全量迁移都会触发此能力

重建目标表

运行全量任务前重建目标表,包括重跑任务、定时全量迁移都会触发此能力

ES 时间写入格式

以该字段的第一个时间格式写入 Elasticsearch,如果未设置时间格式,则使用 yyyy-MM-dd'T'HH:mm:ss 格式

ES 时区设置

只有当时间格式的时区为 ZZZZZ 时,才会将页面设置的时区写入到 Elasticsearch

可选索引字段

默认索引所有字段,可选择不索引指定字段

字段级分词器

可选择字符串类型且索引的字段分词器,支持 STANDARD(默认)、SIMPLE 等常见分词器,并可指定自定义分词器

设定 Index _id 字段

默认以源端主键值拼接,可修改为其他字段值

定时全量迁移

文档1:创建定时全量任务
文档2:定时全量实现增量数据迁移

自定义代码

文档1:创建自定义代码任务
文档2:自定义代码任务 debug
文档3:在自定义代码中打日志

数据过滤条件

支持 WHERE 条件进行数据过滤,内容为 SQL 92 子集,文档:创建数据过滤任务

设置目标主键

变更主键为其他字段,方便数据聚合等操作

限制和注意点

限制项说明
MySQL 存储引擎

支持 InnoDB, MySIAM, 阿里云 XEngine, 其他存储引擎暂未测试

MySQL 字符集

支持 utf8, utf8mb4, latin1, 其他编码暂未测试

使用示例

标题详情
Elasticsearch 对端同步技术详解

文档:Elasticsearch 对端同步技术详解

MySQL 到 Elasticsearch 数据迁移同步

文档:MySQL 到 Elasticsearch 数据迁移同步

MySQL 到 Elasticsearch 宽表构建

文档:MySQL 到 Elasticsearch 宽表构建


源端数据源

前置条件

条件说明
账号权限

文档:MySQL / MariaDB 需要的权限

开启 Binlog

[mysqld]
log-bin=mysql-bin # 开启 Binlog
binlog-format=ROW # 选择 ROW 模式
binlog_row_image=FULL # 变更带所有列数据

任务参数

参数名称说明
parseBinlogParallel

增量解析 Binlog 的并发数

parseBinlogBufferSize

用于增量解析 Binlog 的环形队列大小

maxTransactionSize

单事务最大数据条数,超过则分段刷出

limitThroughputMb

限制增量 Binlog 流量

extraDDL

兼容额外的 DDL 同步,包括 PT, GHOST, ALI_DMS, PT_GHOST

fullDataSqlConditionEnabled

将过滤条件拼入 SQL 中进行源端数据扫描,此参数只针对全量迁移有效

srcTimeZone

源端时区,例如 +08:00, Asia/Shanghai, America/New_York 等

Tips: 通用参数配置请参考 通用参数及功能


目标端数据源

前置条件

条件说明
账号权限

具备索引的 create, delete, create_index, delete_index, read, write 权限

网络准备

迁移同步节点(sidecar)可连接 Elasticsearch 节点

任务参数

参数名称说明
maxBulkSizeMb

单表最大攒批容量,超过此容量则刷出数据到写入队列

totalDataInMemMb

攒批写入,内存中最大数据容量,超过此容量或超过 asyncFlushIntervalSec 则刷出数据到写入队列

asyncFlushIntervalSec

攒批写入,等待刷出的间隔时间,超过此时间或超过 totalDataInMemMb 则刷出数据到写入队列

realFlushPauseSec

使用 Bulk Write 刷出数据到 ElasticSearch 的等待时间,0 则不等待

pkSeparator

拼接 _id 的分隔符(字段数 > 1)

enableBulkSizeThreshold

启用批量写入模式(默认开启)

Tips: 通用参数配置请参考 通用参数及功能

联系我们
微信二维码

扫码添加微信,获取技术支持