VMware虚拟化实施配置平台高可用Word格式.docx

资源描述

VMware虚拟化实施配置平台高可用Word格式.docx

《VMware虚拟化实施配置平台高可用Word格式.docx》由会员分享，可在线阅读，更多相关《VMware虚拟化实施配置平台高可用Word格式.docx（11页珍藏版）》请在冰点文库上搜索。

VMware虚拟化实施配置平台高可用Word格式.docx

因为虚拟机一开始分配的时候，由于是Thin模式，几乎所有的虚机都是看似非常大，但是实际占用非常小的模式。

因为运维的同事认为他们平均使用空间不可能超过100G空间，而Thin模式的阀值是按照每个机器150G的余量来设计的，所以认为不足为虑。

问题总结：

这个问题本其实是一个很简单的问题。

但是从运维管理上，对我们应该有所启示：

1Thin模式的设计本身来讲，是为了节省资源。

实际上也帮我们做到了这一点。

理论上只要我们做好监控，及时补充存储空间的不足，那么这个模式应该是个性价比很高的事情。

2任何事情都会有特殊场合，如果我们对特殊情况没有预想到，那么很可能会走到另一个弊端上。

假设我们对Thin模式资源的最大申请比率也有一个控制，比如说最大300G。

那么再异常的情况的影响面儿仅限于某个虚拟机。

案例分享之二：

高可用策略不合理导致的面积性故障案例

某天早上，公司内部好多办公系统登录失败。

邮件系统、流程管理、代码管理等。

但是过了大概一个小时，基本所有情况都恢复正常。

问题确认：

业务系统的状况：

没有任何异常情况，一切访问正常。

数据中心基础实施：

连续好多系统报警，而且还有物理主机报警，问题一大堆。

解决过程：

先来描述一下环境，基本90%以上系统运行在Vmware虚拟化平台之上，业务系统和内部办公管理系统完全隔离为两个不同的集群环境。

办公区为8台宿主机组成的物理集群，集群共享一台存储设备上的存储资源。

首先，我们再一次确认了宿主机的情况，5台宿主机当前运行状态正常，虚拟机也处于正常状态。

只有一台宿主机处于失联状态。

当把这一台宿主机再次重新启动之后，它也恢复正常了。

再次，查看问题发生时间的日志，包括宿主机日志。

我们发现有好多虚拟机发生了HA切换，不仅仅是故障主机上的虚拟机，而且还包括其他非故障主机上的虚拟机。

再仔细看，还有好多虚拟机发生了热迁移，有的迁移失败，有的迁移成功。

总之几乎所有主机上的虚拟机发生过HA和热迁移现象。

随后，我们再次确认宿主机硬件日志，发现故障时刻点先后有三台宿主机发生重新启动。

这样的话，事情就清楚了，几台宿主机先后发生重新启动，触发宿主机上的虚拟机发生HA，在这个过程中由于资源使用的瞬间不均衡，又触发了DRS的自动迁移。

这么多事情发生的时间又是如此之集中，那么最终导致面积性的故障发生。

此次问题之后，我们根据环境资源重新评估了HA和DRS等的策略，将激进策略修改为相对保守的策略。

本来虚拟化的HA和DRS策略是为了保障虚拟机的平衡和高可用性的机制，但是在某种不合理策略策略和极端物理故障场合下就有可能导致比正常故障范围还要大很多的面积性故障。

试想，如果DRS处于非激进状态，那么在发生HA的时候，即使资源不够，那么故障范围仅限于很小一部分虚拟机，不会发生彼此影响，而且时间集中化的影响。

尤其是Windows的虚拟机，成功热迁移的概率比Linux要低很多。

所以提醒大家合理设置高可用策略。

案例分享之三：

VMware虚拟化HA集群环境频繁出现网络异常，重启后恢复，这是什么故障原因？

物理服务器4台ESXi，两个集群环境，共享存储一台，一直都是正常运行的，突然有一天就出现网络问题，宿主机无法访问，业务中断，重启ESXi主机后，网络恢复，问题消失。

由于访问量较大，物理网卡一直处于工作状态，可所有硬件设备状态完好，日志无明显报错，问题在出现过第一次后，反复出现，只要一重启主机，问题恢复，间隔3-4天就出现一次。

无法通过日志找到原因。

联系vmware原厂，原厂说需要升级exsi版本，和服务器硬件微码。

最后升级了服务器硬件微码，和exsi版本。

结果只隔了一天，问题又一次出现了。

这次并不是所有的网络都阻断，管理地址未中断，但是虚拟机任然无法连通，业务中断。

在这之后，做过网络调整，管理网络和虚拟机业务网络分配到不通标准交换机中，问题出现时，同一个标准交换机内的虚拟机出现部分可以出去，外部可以访问，部分虚拟机出现网络配置中网关丢失现象，手动配置网关，依旧无法出去。

重启虚拟机之后，部分网络会中断，部分能通。

还是需要重启所有ESXi主机，才能恢复。

现在ESXi版本已经是5.5.643，微码版本已经是4.0.596，服务器微码也已经升级完成。

5.5U3，问题依旧，现在只能先进行网卡硬件更换，HPNC365T，网卡驱动已经包含在vmwarelinux中，自带。

不需要额外打驱动。

问题无法定位

这个问题的可能性原因是什么？

分析：

按照现象“同一个标准交换机内的虚拟机出现部分可以出去，外部可以访问，部分虚拟机出现网络配置中网关丢失现象，手动配置网关，依旧无法出去”&

“重启虚拟机之后，部分网络会中断，部分能通。

”假设一个标准交换机上有若干网卡，部分可以通，部分却不通。

那么是不是可以推测通过某一个物理网卡的虚拟机是OK的，而虚拟网卡流量落在另外一个物理网卡上的虚拟机是Failed的。

建议下一次遇到这种情况的时候，手动把其中一块儿网卡提出去。

如果最后的结果要么全部不通，要么全部恢复。

那么某块儿网卡问题的可能性就非常大了。

考虑更换网卡。

不要盲目相信X86机器上看到的网卡状态。

后续情况1：

现在已经完成网卡更换，目前链路正常。

继续观察。

后续情况2：

元旦稳定度过，未出现问题。

案例分享之四：

我自己在实用vSphere过程中遇到的大坑之一：

快照

请各位慎用虚拟机快照功能，需要用到快照时一定记得用完以后要删掉，不然快照会无限制的增长下去，关键是vClient中查看存储状态看不到快照占用的空间，会错误的以为存储空间还很充足，最终会拖垮整个ESXi上所有的主机，我用的是很早的版本vSphere4.0，新版本中是否还有这个问题，请有测试过的用户告知一下。

分析总结：

1.关于虚拟机的快照功能，我记得是可以设置保留份数的。

快照的数量根据实际的虚拟机化性能来指定。

不过为了保障业务和虚拟机性能，一般不会经常性的进行快照。

大部分快照一般是备份软件备份时产生，通常备份完成后会自动删除。

如果使用VMWARE进行快照，注意份数和快照策略就可以了。

2.快照越多，时间越久，性能越差，且合并时间越长，还是需要了解快照的实际作用，快照不是做备份的。

3.快照过多会影响性能快照之后会生成新快照文件原虚拟机文件将变成只读后续数据的的变更会写写入快照文件这种文件写入很慢。

----------------------------------------------------------

【典型问题及知识篇】

以下八部分知识中，各有若干典型问题。

针对其中部分问题，社区中的高手们给出了详细的分析解答，大家可以对照自己的实际情况进行参考。

1Vmware的计算高可用设计相关

典型问题：

Q1：

高可用平台中物理服务器的网络怎么样配置既合理有稳定，还能保证不会掉线（包括网卡如何配置）？

Q2：

VMware环境搭建中，在系统配置、架构等方面有哪些需要特别注意的地方？

Q3：

VMware虚拟化的高可用配置时，过程、环境有哪些特别需要注意的地方？

请各位高手们指教！

Q4：

VMware虚拟化实施过程中，如何配置平台高可用细节策略？

Q5：

VMware高可用的应用转移策略如何设置？

知识点：

这类相关问题主要的关注点在于以下几个方面：

第一，就VMwareHA的接入控制策略。

1.主机容忍的宿主机故障数目。

假设数目设置为1，那么集群发生超过这个数目的主机故障，那么虚拟机就不会再发生HA切换。

假设集群内所有宿主机的规格很标准，一种或者是两种，那么可以通过对所有虚拟机所需资源的总和以及现有宿主机资源的总和来算出究竟几个宿主机满负荷的时候可以支持这些虚拟机。

剩下的宿主机数目就是我们可以容忍的故障。

当然这个算法不是简单的加和，是需要在不同环节取整的。

具体可以参照Vmware的插槽计算方法。

2.预留资源百分比策略。

这个策略是说集群会按照设定比率来预留一定的CPU和内存资源来满足HA。

超过这个资源的故障也不会切换。

当所有虚拟机启动所占资源已经超过（100-设置值），那么集群不允许再有虚拟机来启动占用资源。

如果说集群内的宿主机规格五花八门，那就只有这么去估算预留资源比例的方法来执行HA了。

3.指定主机故障切换。

那就是按照指定策略来执行主机HA切换。

以上三种策略，严格来讲没有最优或者最好。

完全需要按照自己的需求来设定。

但是对于第一种策略来讲，设置的数目越多，那么意味着HA的活跃度越高。

如果HA的活跃度超越集群的资源限制，那么这种HA会影响到其他正常运行的虚拟机，而且有可能触发故障的泛滥或者连锁影响。

所以不建议设置太高。

对于第二种策略来讲，如果设置的太高，那么会很影响集群的资源利用率。

第三种策略除非是特殊场合使用。

光靠以上策略来完成集群的HA功能，想保障自己的业务系统连续性，我认为远远不够。

应用系统毕竟有重要及非重要之分，有重量与非重量之分。

有的可能已经具备了负载均衡架构，有的可能还是单节点运行。

所以我们需要根据这些情况在接下来的“虚拟机选项”当中针对不同的虚拟机设置不同的HA优先级。

根据负载均衡的位置，设置同样应用系统的不同应用节点的互斥HA规则等。

总之，这个策略不是单一某个策略就能最适合我们的应用环境。

需要根据我们的环境特点以及每一项HA策略的功能去合理组合优化。

希望对大家能有帮助。

第二，就VMwareHA本身的故障诊断切入点问题。

关于故障的排查，不同类型的故障会有不同的切入点。

故障不明确很难找到准确的切入点。

一般是从报警日志中去找切入点。

举个例子，比如说发现一个虚拟机HA失败，除了从日志中寻找线索。

还可以考虑去检查以下几个方面：

1.存储是否已经在源和目标宿主机上共享并没有问题？

2.目标宿主机上在故障时刻的资源剩余是否足够支撑虚拟机的启动？

3.从VC上查看集群的HA状态是否正常，虚拟机的Vmtools是否异常？

4.是否是个例？

那么虚拟机本身是否有文件系统损坏之类的问题？

等等.....

第三，就虚拟化机构当中的众多细节。

绝对的稳定，感觉没有。

但是有些点，可以考虑:

1.物理网卡、宿主机、接入交换机及汇聚交换机这几个层面保证冗余设计，目标就是保证任何一个物理对象故障时都不会影响到网络。

例如：

双网口网卡双份、跨机柜实现交换机双冗余，汇聚及核心交换机实现物理上的冗余以及虚拟化技术。

2.根据Vmware的最佳建议实现宿主机侧的网口绑定以及交换机侧的辅助配合。

一般情况下，宿主机上实现基于端口路由方式绑定，而交换机侧不需要做任何绑定。

vmware侧的管理网络和业务网络在物理网卡上的分布要隔离。

3.业务网段内的逻辑隔离靠Vlan隔离。

当然跨功能区的隔离可以靠虚拟化环境之外的防火墙策略来控制。

4.从物理网络以及虚拟网络的整体架构尽量实现扁平化，避免纵向隔离太多，经过的安全设备太多。

---------------------

2Vmware的存储高可用架构相关

VMware虚拟多台主机后，如果要为这些主机搭建共享存储，如何保证高可用，方法是什么？

如何合理规划VMware架构以应对未来企业IT架构平台的扩容问题？

好马如何配好鞍——VMware如何根据业务需求搭配存储解决方案？

一套VMware环境能不能采用SAN存储和NAS存储并用？

如果可以，配置时有何需要注意的事项？

问题解答及知识点：

假设想利用物理节点本地硬盘来实现NAS共享，那么我觉得有以下两种实现方式：

1.利用开源NAS软件实现传统高可用NAS集群。

你可以选择虚拟化环境当中两台宿主机上的两个虚拟机，然后通过FreeNas或者是openfiler之类的NAS软件实现传统NAS的HA集群，数据可以以两份本地盘数据互为主备。

2.利用Ceph\\Vsan之类的软件来实现软件定义存储。

然后就这些条件做的话，可能性能会有些问题。

软件定义存储的实现还是要依靠SSD来支撑它的整体性能。

个人觉得还是看你的应用用途，如果是开发测试或者是实验环境，那么可以降低性能的要求，也不用那么复杂。

如果是生产环境还是要考虑一个稳固的架构。

****

个人认为虚拟化本身由两个很好的特点就是其扩展的灵活性和资源利用的动态性。

对于第一种情况，假设期初的发展仅仅是尝试性的应用。

规模小，功能少等等。

随着技术的发展和成熟，想要横向实现扩展，纵向实现升级。

对于计算资源的扩展，很容易，兼容性没问题可以直接扩入集群。

然后根据后来的资源规模配置等调整集群参数及策略。

对于升级来讲，可以借助Vmotion实现隔离一台升级一台，逐步完成。

对于第二种情况，存储资源扩容。

扩容导致控制器无法工作的故障应该说是个例。

但是针对这种个例其实如果扩容之前能把备用方案考虑周全，那么业务瘫痪的几率或者说是长时间中断的几率就会小很多。

比如说找一个临时备份存储，做一个克隆，以备故障场合下的应急。

再不行，本地磁盘都是加了Raid保护的，做一个克隆也可以。

总而言之，任何先进技术的利用都离不开对管理方案的深思熟虑。

对于存储架构来讲，多数环境还是传统SAN存储方式。

可能有个别会通过VPLEX、SVC、MCC等做个存储的虚拟化再划给虚拟化环境等。

也有一些采用了VSAN商业化存储软件化产品或者是其他的软件定义存储产品。

超融合产品里面就会有软件定义存储的部分，尽管实现的方式各有差异。

对于存储的配置来讲，比如说划分多大的LUN、每个虚拟机的规格是多大、LUN上承载的虚拟机有多少、存储的路径切换以及ISOC控制策略如何设置、存储LUN要不要做成存储集群的模式、要不要开启存储资源调度参数等会有一系列可以优化或者仔细规划的地方。

这个需要根据自己的环境特点，搞清楚每一项设置的原理和意义来具体规划。

一般为了平衡性能和成本问题会采取NAS和SAN混搭的用法。

所以第一个问题就是在VC上必须能清楚Datastore对应存储的类型，不要出现性能需求与实际分配底层存储类型不匹配的问题。

再有就是规划好各自的用途，规划好他们的共享问题，是不是两种存储类型都需要所有的宿主机共享？

如果出现非全集群共享的情况，将来的扩展和迁移管理会比较麻烦。

再有所有宿主机的网络配置和HBA配置尽量不要出现差异很大的情况，要四个口都四个口，要万兆都万兆。

3虚拟机备份恢复相关

VMware虚拟机上恢复出来的ORACLE数据库的数据不一致，能否分析一下是什么原因？

VMware虚拟化平台中，VM虚拟机的数据安全、备份恢复等有什么比较好的方案？

开启ISCSI存储接口后，每次宿主机重启都无法启动成功，求原因分析解决办法？

对于虚拟化的备份恢复软件来讲，个人认为最方便的就是Vsphere自己的VDP软件模块。

当然也可以用NBU之类的被人软件做统一备份，Vmware都提供接口。

对于数据库之类应用的备份，利用虚拟机整机备份的方式来做是远远不够的。

NBU做备份的时候是把虚拟机按照文件的方式进行备份，在某一个时刻切一个快照，然后不管应用是什么状态，只管按照那个时刻的文件状态备份。

但是对于数据库来讲，最重要的是事务，在某一个时刻的数据状态有可能处于事务过程当中，单凭文件层面的快照无法保证数据库的事务ACID特点，因此当你把机器恢复的时候，就有可能会有事务不一致的问题。

数据库也就无法正常使用了。

所以对于有数据库的机器，绝对不能单靠虚拟机备份方式来做数据备份。

一定要从数据库RMAN层来做备份。

4关于虚拟机化实施过程中的资源比例问题