名词解释
CloudCanal 是一款面向云计算的数据迁移同步产品,其中包含几个核心概念,本篇文章将简要介绍这些概念,辅助你了解系统。
数据源
数据源 是 CloudCanal 的一种实体资源,可以为关系型数据库( MySQL/PostgreSQL/SQL Server 等)、消息中间件(Kafka/RabbitMQ 等)、缓存( Redis/Memcached 等)、实时数仓( Greenplum/TiDB 等)、大数据产品( Hive/Kudu 等)等或者它们对应的云托管产品, 一般数据源包含链接串地址、登录认证信息等属性。
一个数据源一般以 my-59bi20aqxxxxx96 类似的 id 表示。
机器
机器 是 CloudCanal 的一种实体资源,主要用来运行 数据任务,可以是自建虚拟机( VM )、物理机、云托管虚拟机( ECS,EC2 等)、开发机( Mac 等)。
一个机器只属于一个集群。
数据任务
数据任务是 CloudCanal 的一种逻辑概念,主要作用是描述一组有序进程完成一项数据流动工作,如数据同步任务,包含一组先后或同时运行的结构迁移(可选)、全量迁移(可选)、增量同步、数据校验进程。
一个数据任务一般以 canal7yr4y7xxxx3 类似的实例id表示。
集群
集群是 CloudCanal 的一个逻辑概念,是数据任务在机器间调度的基本单元(数据任务只在单个集群中调度),可跨机架、机房、可用区,甚至地域,一般建议将物理距离相近的机器放于一个集群中。
一个集群一般以 clusterl79txxxxku 类似的集群名称表示。
异步任务
异步任务是 CloudCanal 管控的基础组件,针对长流程、需要重试、需要状态等待等业务逻辑。
一个异步任务一般由 1~n 个步骤组成,每一个步骤完成一项特定工作,当步骤失败时,该异步任务将停止继续往下运行,直到问题被消除再重试或取消执行。
增量同步时长
CloudCanal 当前将功能分拆为 4 个维度进行计量,增量同步时长 为其中一个,数据迁移功能中的增量同步,数据同步功能中的增量同步,数据订阅中的增量同步,都将消耗增量同步时长。
增量同步时长 可以多任务间共享,计量周期为 1 小时,增量同步停止、异常都不计入同步时长。
当 增量同步时长 减为 0 ,系统将自动停止该用户下正在进行的增量同步对应功能,直到重新补充时长之后恢复(需手动启动)。
全量迁移次数
CloudCanal 当前将功能分拆为 4 个维度进行计量, 全量迁移次数 为其中一个,数据迁移功能中的全量迁移,数据同步功能中的数据初始化,数据订阅功能中的数据初始化,都将消耗全量迁移次数。
当 全量迁移次数 减为 0 ,用户将无法新创建全量迁移相关功能,直到重新补充次数后恢复。
全量校验次数
CloudCanal 当前将功能分拆为 4 个维度进行计量, 全量校验次数 为其中一个,单独的数据校验功能,数据迁移、数据同步功能中的数据校验,都将消耗全量校验次数。
当 全量校验次数 减为 0 ,用户将无法新创建全量校验相关功能,直到重新补充次数后恢复。
结构迁移次数
CloudCanal 当前将功能分拆为 4 个维度进行计量, 结构迁移次数 为其中一个,单独的结构迁移功能,数据迁移、数据同步功能中的结构迁移,都将消耗结构迁移次数。
当 结构迁移次数 减为 0 ,用户将无法新创建结构迁移相关功能,直到重新补充次数后恢复。