云计算是一种基于互联网的大众参与的计算模式。其计算资源(包括计算能力、存储能力、交付能力)都是动态的、可伸缩的、被虚拟化的,而且以服务的方式提供。提供资源的网络被称为云,云中的资源在使用者看来是可以无限扩展的,并且可以随时获娶按需使用和付费。这种特性经常被称为像水电一样使用计算资源。与其它计算模式相比,云计算因能够整合大规模异构计算资源、易于动态扩展、虚拟化等特点,而成为解决上述问题的一个有效手段。因此,本文针对电力系统灾备中心现状,设计并实现了云计算资源管理平台,以期利用云计算技术解决电力系统灾备面临的实际问题,从而为电力系统的数据级灾备提供支撑。
目前,整个电力行业已经深刻认识到云计算可能带来的巨大效益,开展了大量的电力系统云计算的研究工作,但云计算在电力系统数据灾备中的应用研究才刚刚开始,因此有必要针对电力系统的灾备需求进行深化研究并真正实现云计算在电力系统的落地。本文将首先对云计算资源管理平台的设计与实现进行简要介绍,然后详细讨论云计算平台在灾备中心数据灾备业务中的应用场景以及带来的经济和管理效益,最后给出结论。
1 云计算平台的体系架构和技术实现
1.1 云计算资源管理平台的功能目标
云计算资源管理平台能够对电力系统灾备中心的各类资源(主机、存储、网络等)进行有效的管理、监控和调度,并将资源作为一种服务,通过网络提供给用户。
它的最终目标是:利用虚拟化技术实现对异构物理机和存储的统一管理,把基础设施资源以服务的形式进行封装,以面向服务的方式对外提供;实现对异构资源的有效整合、资源能力的按需分配和动态智能调度;为各类应用系统的运行提供稳定、可动态伸缩、安全的环境;为业务系统提供可快速部署的开发测试环境和运行环境;为云资源建设安全统一的防护体系。概括地说,云资源管理平台能够提供统一运维管理、异构资源整合、资源动态调配、智能扩一容、资产管理、资源监控、服务级别管理、弹性扩充、应用迁移、服务计费计量、流程管理和自动交付等功能,并能够统一资源接入规范,提高资源利用率,为应用提供高可用和高可靠的支持。
1.2总体架构
云计算资源管理平台的总体结构如图1所示。平台分为信息展现、系统管理、资源服务、资源整合、基础资源、安全、接口7大层次。各层次总体思路如下:
1) IT资源层。利用厂商的小型机管理系统管理小型机虚拟化;利用VMware管理x86虚拟化;利用存储网络管理工具管理网络和存储,构建主机和存储的资源池。
1.3.4资源调度算法
在大规模的虚拟机集群中,虚拟机数目和虚拟机的负载会随用户和应用的需求而经常变化,静态的资源分配往往会使虚拟机产生资源浪费或资源不足的情况,因此,虚拟机需要进行动态的资源调度:在虚拟机数量偏少和平均负载偏低的情况下,将虚拟机集中迁移到较少的物理机上,并将一部分物理机停机,以达到节能和提高计算/能耗比的目的;在虚拟机数量偏多和平均负载偏高的情况下,启动更多的备用物理机并进行负载平衡。同时,由于虚拟机中的应用负载会随时间变化,因此应及时响应虚拟机负载的变化,适当为高负载的虚拟机分配更充裕的资源,以适应虚拟机对资源的需求。
资源调度算法的基石是虚拟机迁移算法。虚拟机迁移算法分为预拷贝、停机拷贝和后拷贝3个阶段,目前有很多成熟的研究成果可以在100 ms内完成虚拟机的迁移。而资源调度算法的实现则更为复杂。总体上,资源调度算法的步骤如下:
1)获取虚拟机集群中所有物理机与虚拟机的性能监控数据,并针对不同类型资源的特点评估物理机与虚拟机的资源负载状态。
2)根据评估指数值,选择需要调度的虚拟机,并计算合适的目标结点,进行虚拟机的迁移。
3)列举虚拟机集合中所有负载高于上限值的虚拟机,用最佳适应算法寻找调度后物理资源负载最高但不超过物理负载上限阂值的物理机,迁移虚拟机到此物理机上。
本文的云计算资源管理平台使用的资源调度算法的典型流程如图5所示。
2 云计算平台在电力系统灾备业务中的应用场景
2.1总体介绍
云计算资源管理平台对电力系统灾备业务能够起到重要的支撑作用。在电力系统灾备中心,云计算资源管理平台可以纳管管控区和验证区的所有设备,向各网省和运维系统提供统一的虚拟化数据验证环境和管理软件运行环境,从而提高灾备中心的管理水平和数据验证工作效率。
2.2灾备数据管理
电力系统灾备中心负责电力企业的企业资源计划(enterprise resource planning ERP)及管控、营销、协同办公、一体化平台、生产管理、综合管理等的结构化数据和非结构化数据的灾备。生产端的数据通过网络利用数据库复制技术或存储复制技术备份到灾备中心高端存储上,由灾备中心统一负责管理,并开展常规性的数据备份和验证工作从而保障灾备数据的完整性和准确性。
2.3验证区应用场景
电力系统灾备中心验证区的主要工作内容是为各灾备网省公司验证灾备数据是否正确,使用云计算资源管理平台纳管灾备中心验证区的设备,并使用基于云计算资源管理平台的数据验证(简称云平台验证)方案,可以加快验证周期,增多同时进行数据验证的网省数量,在方便管理的同时提高资源利用率和验证工作效率。
图6, 7为灾备中心现有验证流程和云平台验证流程的对比。
从图中可以看到,整体验证流程涵盖了资源的申请、分配、验证、回收4大步骤,可以为网省公司提供完整的数据验证服务。目前,灾备中心没有数据验证支撑系统,验证工作缺乏IT支持和流程管理,资源分配和回收环节完全依赖手工操作,耗时较长,效率较低,人工介入多且管理难度大,资源独占导致使用利用率有限。而基于云计算资源管理平台的数据验证方式的使申请、分配、验证、回收4大步骤形成闭环,极大提升了灾备中心的数据验证能力。具体分析如下:
====分页符====
2.4平台带来的经济效益和管理效益
云计算资源管理平台将灾备中心的IT基础设施能力进行聚合,实现异构资源的整合管理,使得IT基础设施资源可以按需分配和动态调度;在云计算环境中,通过对业务应用负载峰谷的计算,得出错峰利用资源的方式,使资源在不同应用之间来回流动,将资源利用率保持在一个较高的水平上,提升IT基础设施的整体承载能力;通过对现有应用和资源的优化整合,可以空余出许多资源,大大节省未来的设备投资;使用统一的界面和流程提供自动化的资源安装、部署、运维能力,减少运维人员的手工操作,减少资源运维和管理成本。
下面从应用运行和灾备数据验证2个方面对平台带来的经济和管理效益进行具体的分析。
在应用运行方面,通过云计算资源管理平台能够以统一的方式部署、运行、维护和管理应用,极大地节省了管理成本,除此以外,云计算资源管理平台实现了应用的隔离运行和资源的灵活调配,在显著提高资源利用率的同时,保障了应用的安全稳定运行。以上海灾备中心为例,使用云计算资源管理平台对管控区的x86服务器、HP服务器、IBM服务器进行纳管,通过资源调配,应用隔离运行等技术手段,提高了同样配置服务器的利用率,并且能够同时承载更多网省展开验证工作,经过初步研究,资源的利用率至少可以提高1倍。通过云计算技术的应用,节省了大量硬件采购成本,具有明显的经济效益。同时,平台实现了运维流程的统一规范和部署方式的自动化,节省了人工投入的时间,极大地提高了运维效率,从而带来了明显的管理效益。
在灾备数据验证方面,使用云计算资源管理平台后,优化了数据灾备的实际流程,缩短了验证周期,增多了同时验证网省公司的数量,提高了数据验证的自动化水平。以上海灾备中心为例,其验证区的x86服务器、HP服务器、IBM服务器通过虚拟化技术、模板技术、验证流程整合等技术手段能够在同样硬件资源能力的基础上,承载更多网省公司同时进行验证,这样可以提高验证效率,减少人工成本。本文对上海灾备中心所纳管的其中一个应用数量中等的网省进行了测试,原来数据验证中分配环节所需时间从一周下降到一天,显然易见,云计算资源平台带来了明显的经济效益。除此之外,以统一的方式申请数据验证资源,自动化地分配和回收资源,能够提高运维效率,规范验证流程,从而带来了明显的管理效益。
云计算资源管理平台在灾备中心的定制应用可以说是云计算基础设施即服务(infrastructure as a service IaaS)层在电力系统业务中的真正落地,切实将云计算技术与电力系统灾备业务紧密相连,使灾备业务由原来的手工操作模式转变为具备IT支撑的流程化、自动化模式,极大提高了电力系统灾备业务的信息化水平。
3 结语
本文总结了电力系统灾备中心信息化进程中出现的问题,提出了将云计算技术引入用以解决问题的具体思路,并就关键技术进行了讨论。设计并实现了云计算资源管理平台,该平台实现了异构资源整合管理、资源按需申请、自动部署、资源动态调度和统一镜像管理等功能。目前,平台产品己经应用于灾备中心的实际业务中,为电力系统数据级灾备提供了有力支撑。
在未来,借助于云计算资源管理平台,可以同时管理电力企业的多个不同灾备中心资源池,达到多中心资源统一管理,提升灾备中心IT基础设施的承载能力,为实现多地集中式灾备中心向一级数据中心的演化奠定基础,同时也为电力系统后期面向应用级灾备的演进奠定了良好的技术基矗