云计算的可运维性介绍
云计算平台服务端的复杂性和创新性,对于运维是个全新的挑战,运维思路和方式都为之发生改变。这种改变不是简单的在传统运维上的优化,而是基于云计算特征孕育而生的运维重构;这种改变也并非一蹴而就,是随着云计算平台的发展过程不断演进,许多都没有最佳实践可循,是在摸着石头过河中不断积累经验。相对传统的网站运维,云计算平台运维的主要特征如下。
集群是基本运维单位:组成云计算平台的节点都是普通PC服务器,平台的高可用性,不再借助传统的高投入服务器硬件冗余方案(RAID、网络双上连、双电源等)实现,而是通过云计算平台自身的鲁棒性保障。这需要运维改变视角,从原来把服务器作为基本运维单位,转变为以集群作为基本运维单位。传统运维场景下的“及时”维修服务器,在云计算场景下,可以“轻松”定期维修。而这种“轻松”,并不是对运维需求的降低,而是基于对集群整体容量和健康状态的管理能力,即通过有效提炼和过滤各种服务器的个体运行状态,映射出集群的整体状态的能力。集群的容量管理、部署、监控、故障管理等运维任务,都必须以集群为单位进行。
大规模:单集群的规模,是衡量云计算平台能力的重要指标之一。对于生产环境而言,云计算集群也必须达到一定规模,才能实现云计算平台的高可用、低成本等真正价值。因此,在进行运维的规划和实现时,都要以满足大规模为必要条件。
可运维性是云平台基本属性:集群可运维性包括实现高效和大规模的部署、升级、迁移、扩容和故障管理等运维任务,是集群必须具备的能力。云平台从第一天设计开始,就必须包括该属性。开发团队和运维团队需要紧密协同,结合平台和运维特性加以实现。较之传统运维,云计算平台对于大规模集群的可运维性、可管理性等的要求高很多,是集群落地的刚性需求。
规范化:要在大规模下,实现集群部署、迁移、扩容等管理,依赖于从IDC设计、网络设计、服务器选型到云平台实现的全局统筹的规范化,这如同统一“度量衡”,实现“车同轨,书同文,行同伦”。规范化构成了云计算One Infrastructure重要属性。基于One Infrastructure的实现,把一批服务器从A集群迁移到B集群,只是在集群管理系统上对配置的远程变更,而不需要物理服务器实际搬迁。
来源:中国外包网