数据中心是承载信息应用系统的主要设施,是数字化校园的重要组成部分。近年来随着云计算的兴起,数据中心相关的新技术不断涌现,深刻改变着数据中心的建设理念。
现状和挑战
上海交通大学数据中心在闵行校区建有主机房,在徐汇校区建有容灾机房,主、备机房距离超过30千米,通过校园网络实现万兆互连,现阶段部署了120余台服务器,近一半的服务器采用虚拟化技术,2013年底将扩容到240台。
我们在数据中心建设时,主要面临以下挑战:
1、 如何最大限度地保护已有投资,并且积极引入新技术;
2、 网络安全的挑战,传统互联网数据中心一般采用出口防火墙控制,对校务、财务、人事和科研等核心系统的保护显然不够;
3、虚拟化支持的挑战,为了适应虚拟化迁移的需求,数据中心网络架构向大二层过渡,生成树协议支持冗余拓扑的效率较差;
4、 数据与存储网络融合,随着以太网的普及,FCoE技术日益成熟,数据中心应该如何支持FC、FCoE、iSCSI和NAS等多种存储协议,存储系统又应该如何适应虚拟化的要求;
5、如何实现跨校园网的多数据中心互联,实现备份容灾;
6、如何建设校园云计算环境,采用开源还是商业方案;
7、校园信息系统逐步向云计算迁移,但并不是所有的应用都适合迁移到云计算环境中,运维管理需要如何适应传统应用和云计算应用的共存情况。
针对以上问题,我们从网络架构、虚拟化应用、容灾系统、多租户实现、运维和安全监控、云计算环境等几个方面阐述我校数据中心建设方案。
数据中心网络架构
上海交通大学数据中心主、备机房网络架构如图1所示。
图1 数据中心主、备机房网络架构
1、服务器分区,提高安全性
闵行主机房的网络水平分割为WEB、应用、数据和云服务4个服务器区。考虑到学校云计算环境会采用很多新的技术,对安全性与稳定性的要求与生产系统有区别,因此单独设置了一个云服务器区。4个区均配置汇聚交换机,运行三层路由协议,与数据中心核心交换机通过多条万兆以太网链路互连。数据中心核心交换机通过2条冗余的万兆以太网链路接入校园网。在此架构下,每个服务器区的安全级别和策略可以不同,但每个区汇聚层基本上都是同类型相似的安全策略,容易设置和排错。服务器区内部是大二层架构,可以支持虚拟机的在线迁移。徐汇灾备机房交换机数量远少于闵行机房,借助VRF技术在逻辑上仍然保持了WEB、应用和数据3个服务器分区的架构。
2、交换机虚拟化,减轻对STP协议的依赖
核心交换机使用了2台H3C 10508V 交换机,2台交换机通过IRF2(Intelligent Resilient Framework智能弹性架构)在二层和三层上均虚拟成一台交换机,极大方便了交换机的管理。汇聚交换机使用了Cisco Nexus5500系列交换机,2个一组,在接入端启用vPC(Virtual Port Channel)实现跨交换机的链路聚合,配置VRRP实现默认网关的冗余。接入交换机使用了Nexus 2000 Fabric Extender和第三方的接入交换机,第三方接入交换机通过链路聚合双上行接入Nexus 5500 交换机组。服务器也是双链路上行,万兆端口可直接接入Nexus 5500,千兆端口则接入Nexus 2000和千兆接入交换机。这是一个无环的网络架构,能充分利用所有上行链路,STP 协议仍然启用,但只会在异常情况才会发挥作用。
3、数据与存储网络融合
近年来,IP存储的性能和稳定性逐步被认可,随着万兆以太网端口价格的不断下降,IP存储与光纤存储在带宽上的差距也基本解决。新兴的FCoE能实现传统FC存储网络向FCoE存储网络平稳过渡,EMC、NetApp、Dell等存储厂商均正式推出支持FCoE的SAN存储系统,多家厂商也推出了支持Windows、Linux、VMware vSphere ESXi的CNA网卡。有鉴于此,我校在建设新的数据中心网络时决定走数据与存储网络融合之路。数据服务器区的Cisco Nexus 5500启用FCoE功能,部分接口配置8G FC SFP模块,SAN存储系统选择了支持FCoE的NetApp FAS系列存储系统。NetApp FAS和服务器的万兆网卡接入Nexus交换机的万兆接口,在同一万兆端口上可以同时支持FCoE、iSCSI和NAS协议,原有配置FC网卡的存储设备和服务器接入到Cisco Nexus 5500的FC接口上,与FCoE网络融合。NetApp FAS的FC接口接入现有的FC交换机,为原有的FC SAN提供存储空间。考虑到各厂商的FC交换机有极强的排他性,我们没有将原有的FC 交换机与Nexus 5500互连。随着时间的推移,FC SAN 设备将自然淘汰,数据中心将过渡到纯FCoE存储。位于WEB和应用服务器区的服务器主要通过IP 协议访问数据服务器区的存储。
融合网络极大减少了服务器物理接口的数量,减少了数据中心的设备数量。预计未来2年内,我校数据中心一半以上的服务器会配置万兆融合接口。
4、通过VPLS实现主备中心二层互通
我校的校园网络通过MPLS和VPLS实现多业务承载,数据中心借助校园网的这一特点,通过VPLS实现了闵行主中心和徐汇灾备中心的二层互通。校园网VPLS网络上的低延时能支持VMware的vMotion,支持存储的异地复制,支持主备中心的双活。因此,主备中心可以同时对外服务,极大提高了设备的可用性。
服务器虚拟化的应用
2004年我校在Sun的小型机上开始应用Solaris 10的zone虚拟化技术,在保障安全的基础上极大提高了小型机的利用率,之后就开始有意识地将虚拟化技术引入数据中心,是国内较早应用服务器虚拟化技术的学校。目前的生产系统主要应用了VMware、KVM和OpenVZ这三类虚拟机。KVM和OpenVZ都是Linux平台上开源的虚拟化技术,其中OpenVZ是一种操作系统级别的虚拟化技术,虽然只支持Linux虚拟机,但OpenVZ虚拟机的性能接近物理机,备份、管理和安全控制比其它虚拟技术更方便。我校的DNS、OpenLDAP、Postfix、IBM Websphere等Linux平台上的应用都长期稳定地运行在OpenVZ虚拟机中。
目前,除了数据库和一些富媒体应用外,数据中心的绝大部分应用都运行在虚拟机中,可以方便地向云计算演进。
容灾系统建设
数据备份通过Symantec的Veritas NetBackup完成,以磁盘备份为主,需要归档的数据再转存到磁带上。VMware虚拟机通过EMC Avmar Virtual Edition备份,Avmar支持源端重复数据删除,极大提高了虚拟机的备份和恢复速度,减少了备份空间的占用。根据学校的应用特点,我们主要为关键应用实现应用灾备,采用了以下方法:
1、通过SQL Server的Mirror功能实现SQL Server的异地灾备,在出现问题时可以迅速切换到镜像数据库。
2、对于Oracle数据库,曾经测试过Oracle的GoldenGate,但GoldenGate对数据库结构有一定需求,不能解决已有Oracle数据库的异地灾备,因此拟通过NetApp存储系统的SnapMirror实现Oracle数据库的容灾。
3、邮件系统和关键应用的虚拟机映像文件通过NetApp的SnapMirror通过IP网络镜像到徐汇备用中心,可根据需要迅速启用。
4、关键应用的WEB端和应用端在徐汇备份中心建有备份,并加入负载均衡中。
多租户的实现
设备集中、数据集中和应用集中是IT 建设的大趋势,为适应这一趋势,数据中心必须支持多租户,在虚拟化和云计算环境下,通过物理设备实现用户隔离的方法已无法实现,为此我校数据中心采用如下措施实现多租户功能:
1、在网络设备层面,通过VRF实现租户间的网络隔离。在采购三层交换机、防火墙和负载均衡设备时,要求这些设备都支持VRF或虚拟化功能,通过VRF,可以在相同的网络设备上虚拟出多个彼此隔离的网络。
2、在SAN存储系统上,我们启用NetApp Multistore功能,为不同租户建立不同的vFiler,每个vFiler是一个逻辑控制器,可以配置自己的路由表,建立自己存储资源,实现I P 存储的访问隔离。Ne tApp 的存储系统升级到DataOntap 8.1 Cluster模式后,通过Vserver可以实现FC/FCoE存储资源的虚拟化,能实现FC/FCoE存储访问的隔离。
目前学校的互联网基础服务、管理信息系统、财务系统、一卡通系统均运行在数据中心统一的硬件平台上,但应用之间实现了安全隔离。
运维管理和安全监控
高校数据中心的应用复杂多样,商业化的运维管理系统没有达到理想的性价比,因此我们的运维监控系统选择了开源Zabbix,在Zabbix的基础上定制而成。目前可以支持服务器、虚拟机、交换机、部分存储系统和各类应用系统的集中监测和报警,以图形化方式展示设备和应用的当前状态和历史数据。Zabbix支持agent,可方便定制自己的监控程序,比较适合我校数据中心多样的服务器和应用的监控。在数据中心的安全监测建设方面,针对WEB应用,我们在数据中心出口监控所有HTTP 80 端口对内、对外的访问,在追踪和发现数据中心内部WEB应用的安全漏洞上发挥了巨大作用。运维管理和安全建设是我校数据中心建设相对薄弱的环节,还有很多工作有待完善。
向云计算演进
虚拟化技术让IT 资源的分配变得更灵活、更加可靠、更加容易扩展和升级。在虚拟化技术的基础上,云计算提供了一种全新的服务交付模式,允许用户以服务的方式从服务提供商那里获得应用程序、开发环境、硬件平台、虚拟物理服务器等资源,按需使用,按需付费。云计算可以帮助数据中心实现资源整合,工作负载自动
管理,管理流程自动化,按需应用交付。在云计算建设上,我们不排斥商业化的软件,但更看重开源的云平台,主要基于以下原因:
1、降低成本。现有商业云计算软件的使用许可费用偏高,而大部分开源云计算软件可以免费使用,即使考虑到初期开发和维护的人力投入,仍然可以有效降低建设成本。
2、选择自由。可以不被某一企业的专有产品锁定,且可以根据自己的需求灵活开发新的功能。
3、有较好成熟度。不少开源云计算软件经过几年的发展,已经逐渐成熟稳定,国外很多公司、学校和科研机构已经开始应用在生产环境中。
4、是很好的教研工具。开源软件对于学校来说是“工具”,是现成的教科书,也是最好的试金石。
上海交通大学云平台建设从以下三个方面入手:
1、 IaaS平台建设
IaaS平台我们采用OpenStack搭建,可以提供类似Amazon的EC2、S3、EBS和VPC等服务。OpenStack是一个由社区开发推动的开源云计算项目,用于建设和管理公有/私有云,具有良好的可扩展性。
OpenStack目前拥有6个核心项目:
(1) 对象存储服务(Swift):提供高可用、分布式、最终一致的对象存储服务,使得用户可以高效、安全且廉价的存储/获取数据。
(2) 镜像服务(Glance):提供虚拟机镜像的发现、注册和获取等服务。这些镜像主要用于计算服务。
(3) 计算服务(Nova):按需为用户提供虚拟机。通过内部的nova-volume模块,它也能提供类似于Amazon EBS的块存储服务。
(4) 身份认证服务(Keystone):提供身份认证(Identity)、令牌(Token)、目录(Catalog)和策略(Policy)服务。
(5) 仪表盘服务(Horizon):为所有的OpenStack项目提供基于WEB的访问接口。
(6) 网络连接服务(Quantum):在设备接口(如虚拟机网卡)之间提供网络连接服务。
我们基于上述6个项目搭建了IaaS测试平台,包括40多台服务器,100TB iSCSI存储,400TB对象存储,设备之间通过全万兆以太网互联。考虑到实际应用中可能会存在热点镜像,我们还额外配置一块320G的SSD卡,可以加快镜像的部署,有效降低虚拟机供给时间。为了兼容现有的网络设备,不同租户之间的虚拟网络采用VLAN隔离。
为了能对IaaS平台中的物理机/虚拟机/网络等进行统一监控,我们基于sFlow开发部署了一套监控系统,能够实时采集系统的健康状态和用户的资源使用情况,并实现了用户自助监控和计费管理。用户不需要额外安装监控工具就可以在统一的Web界面中对自己所申请的虚拟机/存储/网络的状态进行监控。
经过近半年的测试,我们认为现有的测试平台基本能够满足运营需求,计划新增4 0 台服务器,完成OpenStack生产环境部署,为全校提供云主机服务。
2、PaaS平台建设
我们与VMware 密切协作,已完成开源的Cloud Foundry平台的测试性部署,即将为学校提供PaaS服务。
Cloud Foundry是由VMware主导推动的开源PaaS平台,可以有效简化应用的部署、运行和扩展。Cloud Foundry最大的特性是可以在multi-cloud上构建,可以在私有云和共有云环境中工作。Cloud Foundry的底层平台可以是vSphere、OpenStack、Amazon或Eucalyptus等,能够支持大量不同的应用程序框架和开发工具,并支持多种开发语言,用户不会束缚于某一种编程语言或模型。此外,Cloud Foundry还集成了多种服务,包括数据库、Messaging、自动伸缩等。
3、 云存储平台建设
2012年3月,我校推出了个人云存储服务jCube,为教师提供20G,为学生提供10G的存储空间,通过jCube用户可以实现多台PC间的文件同步与分享,通过智能手机访问云存储空间。jCube的后台存储服务基于够快公司的云存储技术,可以按需动态扩容,公司提供开发接口,我们可以根据需要实现定制开发。
我校数据中心建设正在从单纯的硬件系统建设向平台建设转化,从单纯支持校园信息系统向支持学生创新和教师科研转化,在这个过程中我们面临了技术和运维上的诸多挑战,我们的思路是积极尝试、开放兼容、适度创新,很多问题将在今后的运维过程中逐步暴露,有待于进一步的解决与完善。