云海麒麟应用容灾系统(KIRIN CDP)是一套基于连续数据保护的在线容灾系统,是集持续数据保护、数据备份、应急接管、容灾资源管理、容灾体系管理为一体的灾难恢复平台。
广泛应用于各类型应用服务器、数据库系统等核心业务系统数据和业务的不间断保护,实现数据实时备份和业务应急接管,保障各业务系统持续对外提供服务。
术语释义
CDP:持续数据保护,通过在操作系统核心层中植入文件过滤驱动程序,来实时捕获所有文件访问操作。对于需要CDP连续备份保护的文件,当CDP管理模块经由文件过滤驱动拦截到其改写操作时,则预先将文件数据变化部分连同当前的系统时间戳(System Time Stamp)一起自动备份到CDP存储体。从理论上说,任何一次的文件数据变化都会被自动记录,因而称之为持续数据保护。
VPC:虚拟数据中心,是拥有独立网络管理能力的一套私有网络空间,在本产品中,主要用于灾难恢复演练等功能独立使用,使用该技术避免在演练过程中对生产网络造成额外影响。
KVM:Kernel-based Virtual Machine,是 Linux下x86 硬件平台上的全功能虚拟化解决方案,包含一个可加载的内核模块 kvm.ko 提供和虚拟化核心架构和处理器规范模块。
多租户:多租户简单来说是指一个单独的实例可以为多个组织服务。多租户技术为共用的数据中心内如何以单一系统架构与服务提供多数客户端相同甚至可定制化的服务,并且仍然可以保障客户的数据隔离。一个支持多租户技术的系统需要在设计上对它的数据和配置进行虚拟分区,从而使系统的每个租户或称组织都能够使用一个单独的系统实例,并且每个租户都可以根据自己的需求对租用的系统实例进行个性化配置。
业务保护技术
针对于核心业务系统,KIRIN CDP平台提供连续数据复制和应急接管能力。
连续数据复制以实时的方式把数据从源系统复制到KIRIN CDP平台的存储资源池,对源系统整机进行保护,并在KIRIN CDP平台实现应急接管。由此来满足用户趋近于零的RTO和RPO要求。
采用KIRIN CDP平台保护生产系统时,容灾存储池中的的数据仅比源系统延迟可达微秒级,并且可随时恢复至任意一个历史时间点。与容灾存储池中的全量数据副本相结合,在数分钟内即可启动应急接管。使用应急接管功能,即可将业务中断时间控制在5分钟以内。
l 数据复制原理
KIRIN CDP的连续数据复制技术基于磁盘过滤驱动实现,实时监控每个磁盘的写IO,并将其采用异步方式复制到目标端存储池。
连续数据复制过程分为两个阶段,开始时对源系统所有数据或指定的磁盘、分区创建一个基本的复制副本,即全量镜像,接下来对源系统中的增量数据进行连续复制,并通过数据位图来确保增量数据传输的可靠性。
被保护的数据可以复制到KIRIN CDP平台自身存储空间,也可复制到第三方裸设备。
l 业务恢复方式
通过连续数据复制保护的业务系统,可以通过KIRIN CDP平台实现整机接管、细粒度数据恢复等各类场景。
1) 整机硬件接管
对于发生整机故障的业务系统,如病毒、误操作导致的整机故障或应急损坏等情况,可采用整机应急接管功能实现业务不间断。
在KIRIN CDP统一容灾管理平台中,整机应急接管支持如下特性:
Ø 支持任意时间点状态的业务应急接管,在面临逻辑故障时,可灵活选择一个发生逻辑错误前的时间点来接管业务系统,保证业务可用性;
Ø 接管主机环境保持与源主机完全相同,如磁盘分区结构、系统环境、程序配置信息等;
Ø 智能化自动分配计算资源,根据保护过程中收集的源系统负载信息自动匹配;
Ø 自动构建接管虚拟网络;
Ø 支持灾后重建过程中的不停机反向复制。
2) 细粒度数据恢复
如仅有个别数据发生丢失情况,可采用细粒度数据恢复功能将需要的数据恢复至原机或异机。
在KIRIN CDP统一容灾管理平台中,数据恢复支持如下特性:
Ø 支持任意时间点的数据恢复;
Ø 支持多业务系统一致性组恢复;
Ø 支持整机数据恢复;
Ø 支持磁盘级数据一致性组恢复;
Ø 支持文件级数据恢复。
l 灾难恢复演练
定期组织灾难恢复演练,检验和确保灾难备份系统的有效性,是灾难恢复体系建设中的重要组成部分。KIRIN CDP统一灾备管理平台提供便利的数据验证和仿真测试功能。
Ø 支持一键仿真全部原生产环境;
Ø 可同时启动多个时间点副本,演练过程对保护作业和生产业务无任何影响;
Ø 演练过程可手动或自动的记录流程并保存
Ø 无需手工搭建演练环境。
关键技术特点
l 同时支持周期保护与持续数据保护
对于同一数据源,可同时设定周期保护策略和持续数据保护策略。
周期保护策略最大保留副本数量无限制,并且支持副本合并和副本固化技术,副本保留策略可灵活设定,如按时间保留、按副本数量保留、按父子策略保留、按照自定义计划保留等方式。也可随时查看每一个副本的存储占用情况,以便手动删除副本或调整副本保留策略。
持续数据保护策略为保留任意微秒级IO录像,支持按照时间策略或存储空间策略设定保留策略。
l 自动精简复制
KIRIN CDP在保护业务系统时,采用自动精简模式对整机或指定磁盘进行保护,即全量复制仅需复制已使用的区块,对于空块进行排除处理。在存储端仅占用已有数据量大小的空间,传输时也仅传输已有数据块。降低存储资源占用、减少传输数据量。
l 微秒级持续数据保护
KIRIN CDP采用IO级的数据块捕获技术,历史副本保留最小时间粒度为微秒级(百万分之一秒),任意一微秒的时间点均可查看到IO数量记录,为IO级别的持续记录。支持任意时间点的瞬时挂载恢复,在进行恢复过程中业务系统的属性、环境变量、存储归属、数据大小以及相关使用权限与原生产环境保持一致,确保备份数据的有效性。
l 源端资源零占用
在持续数据保护时,无论是初始化全量过程还是增量过程,均极少占用生产端系统资源。实际测试结果而言,CPU占用小于1%,内存占用小于10MB,是一套真正意义上的隐形保护系统。
l 广泛兼容能力
KIRIN CDP广泛兼容各类基础设施,包括但不限于小型机系统(含AIX、HP-UN、Solaris等,含LPAR等部署模式)、X86架构(包括物理机及各类虚拟平台,如支持VMWare、Hyper-V、Xen、华为等)的Windows或Linux系统、支持ARM架构的Linux系统。同时支持MSCS、Oracle RAC、ROSE、LVS等双机或集群架构的保护,在针对双机或集群保护时,可自动跟踪节点切换进行保护,确保备份数据的完整性和实时性。
l LAN-FREE支持
KIRIN CDP平台支持通过FC链路进行LAN FREE保护。并且支持NPIV技术,即将同一个硬件FC端口进行虚拟化,生成多个N端口以供复杂环境中使用,多个N端口可分别设置为目标端或启动端。
l 本异地容灾
KIRIN CDP平台通过系统间的数据复制实现异地容灾功能,支持单向传输、双向复制、环形复制、多对一集中复制等多种异地容灾部署模式。
远程复制容灾支持实时、定时、指定时间段等复制模式,支持灵活的带宽控制策略,如按任意时间段、按节假日模式等进行带宽限制等,最小带宽设置精度为0.5kbps。
本异地复制时,默认启用重复数据删除技术进行传输,结合压缩等技术,进一步减少带宽占用,最大可降低至原来的10%。
l 容灾演练
KIRIN CDP平台支持独立的演练VPC网络,通过此项技术,可在不影响生产业务正常运行、不影响容灾任务、不影响现有网络的前提下实现容灾演练。
演练时,可同时提取多个时间点的历史副本进行启动,以便进行数据对比、系统测试等。当然,也可将数据副本挂载至原机或其他服务器(物理机或虚拟机均可),以便进行数据查验等。
演练过程中所产生的数据均不会影响原生产机和容灾数据,此部分临时数据在演练结束后,可选择删除或保留以供下次演练使用。
容灾演练可以采用手动发起方式执行,也可采用演练计划由系统自动执行,所有演练动作均可在数分钟内完成。
· 容灾资源池管理
KIRIN CDP平台创新性的引入私有云管理框架,将容灾中心的各类资源池化管理,形成以计算资源池、存储资源池和虚拟化网络为核心的容灾资源池。通过池化管理,提升容灾平台的可靠性、冗余性和扩展性,真正实现一体化容灾。
l 容灾计算资源池
容灾计算资源池基于成熟的KVM硬件辅助虚拟化技术构建,部署时可选择采用单节点模式或多节点集群模式。
同时,容灾计算资源池由KIRIN CDP平台统一调度,充分发挥KVM集群的各类特性,达到以下优势:
Ø 节点扩展方便,当容灾计算资源不足时,通过增加节点的方式可快速横向扩展;
Ø 自动资源匹配,在容灾保护过程中,KIRIN CDP平台会自动收集并分析业务系统的实际负载,这些信息将被利用于应急接管中。发起应急接管时,KIRIN CDP平台会根据收集的负载信息自动匹配相应的CPU、内存等资源。从而达到即不浪费计算资源、又能满足业务负载需要的目的;
Ø 超高可用性,多节点部署时,利用集群特性,无任何单点故障,保障业务持续在线。
l 容灾存储资源池
容灾存储资源池基于分布式技术构建,同时支持单节点部署时RAID冗余。即多节点部署时采用分布式架构,单节点部署时采用RAID冗余。
存储资源池采用Linux系统部署,采用专用存储资源池管理架构,无需在系统中生成文件系统进行管理,即无挂载目录结构。
在多节点部署时,具有超高IO和吞吐量性能,并有效避免单点故障风险。同时,在所有节点均保存有一份副本,保证元数据的可靠性。通过对元数据进行缓存,减少各个容灾组件与实际存储路径的直接交互,提高IO效率。
容灾存储资源池支持通过SSD进行缓存加速,在KIRIN CDP存储资源池中,SSD缓存加速分为写缓存和热区缓存两部分:
Ø 写缓存:对存储池的数据操作,包括数据块的创建、删除和修改等,均会首先写入SSD缓存。当写入请求的大小小于可用缓存时,所有数据块均会写入缓存。当写入请求的大小超过可用缓存时(常见于容灾首次全量同步),数据会直接写入存储池,在缓存中仅保留元数据。当缓存中的数据写入存储池后,缓存中的数据块将被清空,以提供足够高的IO。
Ø 热区缓存:即读缓存,KIRIN CDP平台采用近期最少使用算法(LRU),缓存业务频繁访问的数据。当数据被访问时,即被缓存到热区缓存中进行管理。在热区缓存不足时,自动将访问量最小的数据块踢出热区缓存。
l 容灾虚拟网络
在KIRIN CDP容灾管理平台中,引入VPC管理模型。通过VPC管理,可随时创建一个或多个完全隔离的网络用于容灾演练、应急接管等场景。
VPC是一个逻辑隔离的网络空间,与独立的数据中心网络完全相似。在VPC中,可以自定义网段划分、IP地址和路由策略等,而无需担心对现有数据中心网络产生影响。
在容灾演练时,KIRIN CDP平台可快速创建一个VPC演练网络,所有演练主机均运行在该VPC中,从而使得演练更为简单。无需配置复杂的网络信息等,更不会与现有业务发生冲突。同时,可通过EIP将VPC中的部分主机映射至生产网络,以便访问。
· 系统管理
l 多租户管理
KIRIN CDP平台采用共享数据库隔离数据的多租户架构,每个租户拥有自己独立的容灾资源池。
通过多租户管理模式,一套KIRIN CDP平台可以为多个客户服务,而客户之间的数据、状态等信息完全保持隔离。每个租户均可拥有自己独立的管理员、审计员、安全员、操作员等。
l 策略分发
对于容灾系统而言,制定保护策略往往需要反复衡量,并针对每个业务系统逐个进行配置。
在KIRIN CDP台中,支持统一策略分发,包括全域分发、租户级分发和用户自定义策略。
l 客户端集中部署
KIRIN CDP平台支持客户端统一部署,在传统物理架构的环境中,可通过扫描发现指定网络中的所有主机,输入需要被保护的主机密码即可实现客户端安装。
在虚拟化环境中,则更为方便,仅需验证虚拟化平台管理员权限即可统一安装。
客户端安装可选择即时执行或指定时间部署。
l 系统检测与告警
告警功能可以将管理员未能及时察觉的事件以各类方式进行通知,无论是不需要干预的小事件、还是需要立即采取行动的严重事件,KIRIN CDP均会在事件发生的瞬间侦测到,并根据配置的策略发送给指定范围的人员或者系统。
告警支持全局配置、按租户配置或按照任务进行配置,支持邮件、SNMP、或移动端APP等各类告警方式。
l 全局报告
报告提供包括已完成或正在执行的各类作业状态,包括备份恢复报告、接管报告、预检报告、趋势分析报告、健康检查报告等。
报告功能将利用存储的日志信息、检测信息等,对历史运行状态和未来趋势进行整体分析。
免责说明:此方案中软件部分非本公司品牌,由第三方合作伙伴提供。若您所使用的软件并非从本公司或经软件厂商官方授权的第三方获取,本公司将无法保证软件的合法正常使用,您因此遭受的损失与本公司无关。