虚拟机日常维护手册.docx

上传人:b****2 文档编号:1893611 上传时间:2023-05-02 格式:DOCX 页数:19 大小:270.15KB
下载 相关 举报
虚拟机日常维护手册.docx_第1页
第1页 / 共19页
虚拟机日常维护手册.docx_第2页
第2页 / 共19页
虚拟机日常维护手册.docx_第3页
第3页 / 共19页
虚拟机日常维护手册.docx_第4页
第4页 / 共19页
虚拟机日常维护手册.docx_第5页
第5页 / 共19页
虚拟机日常维护手册.docx_第6页
第6页 / 共19页
虚拟机日常维护手册.docx_第7页
第7页 / 共19页
虚拟机日常维护手册.docx_第8页
第8页 / 共19页
虚拟机日常维护手册.docx_第9页
第9页 / 共19页
虚拟机日常维护手册.docx_第10页
第10页 / 共19页
虚拟机日常维护手册.docx_第11页
第11页 / 共19页
虚拟机日常维护手册.docx_第12页
第12页 / 共19页
虚拟机日常维护手册.docx_第13页
第13页 / 共19页
虚拟机日常维护手册.docx_第14页
第14页 / 共19页
虚拟机日常维护手册.docx_第15页
第15页 / 共19页
虚拟机日常维护手册.docx_第16页
第16页 / 共19页
虚拟机日常维护手册.docx_第17页
第17页 / 共19页
虚拟机日常维护手册.docx_第18页
第18页 / 共19页
虚拟机日常维护手册.docx_第19页
第19页 / 共19页
亲,该文档总共19页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

虚拟机日常维护手册.docx

《虚拟机日常维护手册.docx》由会员分享,可在线阅读,更多相关《虚拟机日常维护手册.docx(19页珍藏版)》请在冰点文库上搜索。

虚拟机日常维护手册.docx

虚拟机日常维护手册

 

虚拟机日常维护手册(总15页)

虚拟机日常维护手册

1目的

为提高处理虚拟化服务器故障的能力,形成科学、有效、反应迅速的日常管理流程和应急处理机制,确保虚拟化平台的安全和稳定运行,最大限度地减小服务器故障对生产的影响,降低业务中断风险,特制定本手册。

2故障处理规范

硬件维护

平台服务器出现硬件告警需要停机维护,服务器责任人应立即通知相关人员,将业务虚机迁移到集群中其他服务器主机上,再将故障服务器切换至维护模式并从HA集群中移除,负责陪同硬件厂家现场更换至成功恢复。

虚拟化平台故障

发生平台故障后,相关人员应及时查找、确定故障原因,进行先期处置。

若故障在短时间内无法修复,相关人员应将业务迁移到备用平台环境中,保持业务系统的正常运行;将故障服务器脱离网络,进行故障排除工作,并及时联系相关人员或厂商协助解决。

虚拟机软件系统故障

(1)日常做好虚拟机的定时备份和快照,系统崩溃后,应能够及时恢复虚拟机。

(2)发生虚拟机系统故障后,相关人员应及时通知业务人员检查出现故障的原因并尽快排除。

(3)如遇虚拟机系统需要启用备份系统进行恢复时,应在恢复后和业务管理员仔细检查业务是否恢复并做好恢复记录。

虚拟化平台日常告警故障排除

当虚拟化平台出现告警信息,通过以下步骤排除:

(1)确定故障原因。

查看已触发的警报内容,确定故障前操作是否是引发该故障的原因,对合规操作引起的告警,进行消除。

(2)对提示硬件产生的告警,应查看硬件状态信息,对确认是硬件的问题按硬件维护预案处理。

(3)对提示因资源不足或性能引发的告警,因查看近期性能图表,找出原因,消除故障提示。

(4)对于无法判断的故障,可导出系统日志发给厂家分析处理

3虚拟化平台故障预防

虚拟机实时状态备份

在对虚拟机进行调整配制前,做快照,以防配置虚拟机后出现故障,如无问题,可删除虚拟机快照,另外也可利用快照最为一种备份的方式,定期做虚拟机快照,当出现问题时,可恢复到最近的快照状态。

6虚拟化平台故障恢复

虚拟化平台系统出现故障,先对问题进行定位,按前述预案处理,若故障依然存在,通过以下步骤恢复:

(1)用快照进行虚拟机恢复。

如果虚拟机中包括数据库和实时状态信息,要在恢复后进行必要的数据库文件恢复,并还原系统实时状态。

(2)用NBU从备份系统中进行系统还原,还原后进行必要的状态信息检查

(3)虚拟化操作系统恢复,通过重新安装虚拟化操作系统—vsphere还原底层平台,并重新部署到群集系统中。

摘要:

有时,VMware管理员如走过场一样执行日常维护任务。

他们做X、检查Y然后把把Z的脉搏。

但是很重要的一点是要弄明白这么做的目的。

维护工作不仅仅是要维持系统在线,它同样保证您可以从现有投资中获得最大收益。

虽然ESX、vSphere、vCenter和Workstation都是成熟和稳定的虚拟化技术,但是它们依然需要进行日常维护。

花费一些时间去了解您的架构,然后制定VMware维护计划以满足您的SLA(servicelevelagreement)级别并尽量减少工作压力。

下面的纲要中包含了一些最佳实践,但是每个虚拟化架构各有不同,您需要选择最适合的方式。

VMware维护工作根据频率可以大致分解为:

每天、每周和每月。

VMware日常维护工作

我每天要进行的维护工作如下:

◇查看报警邮件。

邮箱监控是一种持续的、被动的、而且一旦正确设置后不需花费很多精力的监控方式。

当您逐渐熟悉系统架构后,还可以区分出警报的不同类型,识别哪些是紧急的需要立即处理,哪些是需要逐步去改变的。

假设某个特定的数据库在每天的固定时间发送CPU占用率过高的警报,那么最好调节一下报警设置的条件和频率。

不要忘了《狼来了》的故事,避免因为过多无关紧要的警报而忽略了那些关键问题。

◇巡视服务器所在的房间。

虽然我也设置了警报,但通过对主机所在的房间进行一次快速的巡视我可以马上判断出发生了什么,这非常有用,尤其是忽略了某个警报的时候可以补救。

所有的风扇都在运行吗是否出现内存差错SAN系统中的磁盘驱动器正常吗通过观察硬件上的指示灯我可以获得基本的状态信息。

我还会快速检查一下不间断电源的供电电压,以及现在的运行时间。

知道了这些,一旦发生灾难,我可以知道有多少时间可用来关闭设备。

除了这些快速观察外,我还经常使用HP公司在宿主机上集成的Lights-Out端口来检测硬件状态和温度,尤其在没有物理登陆宿主机或SAN的时候,这么做非常有必要。

◇环视一圈vCenter/VirtualCenter。

我会执行所有还未完成的任务,瞥一眼ESX主机的性能然后感受一下各个组件是否正常。

当您对系统每天的性能表现足够熟悉的时候,就很容易看出问题。

相信我,无论系统看起来多么协调,在某些时候都会出现问题。

这个过程如同您很熟悉自己在静止时的心跳,同时还需要通过跑步机或骑自行车来定期检验一下。

VMware每周维护工作

每周我会执行如下动作:

◇备份vCenter/VirtualCenter数据库。

我的现有系统变化不太频繁,因此一周执行一次数据库清理和管理服务器的全备份就可以了。

如果您的系统处于不断地动态变化中,可以频率高一些。

依然要强调那个老问题:

如果您希望将来可以重建,拥有数据库的备份很重要。

VMware每月维护工作

每月我们进行如下的管理行为:

◇清理存储。

如果存在过期的快照,最好尽快清理掉。

如果无法确定是否存在,可以通过VMwareSiteSurvey查看。

◇检查服务协议。

您是否已经升级了售后服务到了做新的预算来购买所需支持服务的时候了吗

◇预想将来要做的升级。

目前为止,所有的工作都在围绕保持系统正常工作上。

让我们向后一步,闭上眼睛不妨从相反的角度来考虑:

您希望系统如何工作怎样可以改善业务然后找出一条正确的路来实现。

这听起来像在做白日梦,不过或许这会成为您一天中最高效的一段时间。

31、为主机应用HostProfiles提示compliance错误

故障状态:

为主机应用HostProfiles失败,提示如下错误:

stateabsentfromhost:

device''stateneedstobesetto'on'

statedoesn'tmatchspecification:

device''needstobereset

stateabsentfromhost:

device''PathSelectionPolicyneedstobesetto'VMW_PSP_FIXED'

statedoesn'tmatchspecification:

device''PathSelectionPolicyneedstobesettodefaultforclaimingSATP

故障分析:

这是由于PSA组件导致的;

解决方案:

1、右击HostProfiles后点击Enable/DisableProfiles配置选项;

2、展开“StorageConfiguration”选项,展开“PluggableStorageArchitecture”这个uxanxiang;

3、去掉“PSADeviceConfiguration”;

4、展开“NativeMuti-Pathing(NMP)”这个选项后,接着展开“PSPandSATPconfigurationforNMPdevi”选项;

5、去掉“PSPconfigurationfor”这个选项后点击OK即可。

 

33、分析、解决IOPS导致的虚拟机/存储性能下降和虚拟机磁盘延时较大的问题

故障状态:

1、虚拟机性能较低;

2、在执行备份时磁盘延时很厉害;

3、虚拟磁盘vmdk延时较大;

故障分析:

这种问题基本都是由于虚拟机没有足够的IOPerSecond(IOPS),或者IOPS低于30;

解决方案:

在解决问题前,首先要解决以下两个问题:

问题1:

什么是IOPS

IOPS全称为Input/OutputPerSecond,它是衡量一个磁盘(虚拟磁盘和物理磁盘)、存储的基本也是十分重要的标准。

不同的磁盘、存储有着不同的IOPS。

IOPS的高低直接会影响着系统的性能。

当前,VMware虚拟化环境中最大的瓶颈也就在于这个IOPS。

针对数据密集型业务的数据库业务和流媒体业务,由于它们的IOPS很大,所以在虚拟化环境中部署它们一定要充分考量它们的负载,也就是IOPS大小,结合实际的存储性能来查看是否符合业务标准。

问题2:

如何计算IOPS

如何计算每台虚拟机的IOPS

要想计算每个虚拟机的总的IOPS数量,首先就要确认磁盘类型以及它们的IOPS是多少。

处于RAID阵列里面的每个盘的IO有利于增长整体存储的可用IOPS。

而位于这个存储上面的单台虚拟机的IOPS,则可以通过将这个存储的总IOPS除掉虚拟机数量即可基本得到单台虚拟机的IOPS。

现实案例:

假定有6颗10000RPM的磁盘,那么它们的总的可用IOPS大约为150x6=900。

如果LUN上面运行的虚拟机数量为50个,则单台虚拟机的IOPS为900/50=18IOPS。

如果以这个为标准,则意味着虚拟机的性能相对底下。

如果想要满足虚拟机的基本IOPS需求,那么应该为900/30=30,也就是说同一个Volume里IOPS为30(最低要求)虚拟机需要数量控制在30台以下。

 

备注:

备份存储会消耗更多的IOPS,同时也会给Volume带来更多额外的符合。

如果是这样,则需要用额外手段解决备份时的额外资源消耗(可以通过I/Ometer软件来测试IOPS)

 

 

34、丢失或锁定文档导致虚拟机无法PowerOn

故障状态:

1、虚拟机无法开启;

2、尝试开启虚拟机时,看到类似如下错误信息:

•UnabletoopenSwapFile;

•Unabletoaccessafilesinceitislocked;

•UnabletoaccessVirtualmachineconfiguration;

3、在/var/log/vmkernel文件里可以看到类似如下信息:

     WARNING:

World:

VMxxxx:

xxx:

Failedtoopenswapfileockwasnotfree

     WARNING:

World:

VMxxxx:

xxx:

Failedtoinitializeswapfile

4、当尝试开启虚拟机的console控制台时,可能会收到如下错误信息:

      Errorconnectingto.vmxbecausetheVMXisnotstarted

5、在开启虚拟机时,卡在95%位置无响应;

6、从模板部署一台新的VM之后无法开启虚拟机;

7、虚拟机在vCenterServer和ESXi/ESX主机之间报告控制台电源状态冲突;

故障分析:

导致这个问题的因素可能很多,但是众多问题中,都穿插或包含着文件损坏或文件被锁定等问题的可能。

虚拟机常用的文件包括:

•*.vswp

•*

•*

•*.vmx

•*.log

解决方案:

首先需要确认哪些文件处于锁定状态:

1、利用vSphereClient登录ESXi/ESX主机、vCenterServer主机;

2、在Datastore里找到想要开启但是无法开启的虚拟机所在位置;

3、尝试开启虚拟机,如果无法开启且console显示错误,先查阅日志文件的相关信息来确认问题;

4、利用SSH或COS选用root权限登录到ESXi/ESX主机之后执行下面的命令查看虚拟机的完整路径:

      #vmware-cmd-l

      系统将输出类似如下信息来显示注册到ESXi/ESX主机的虚拟机:

      /vmfs/volumes//<虚拟机目录>/<虚拟机名>.vmx

5、执行下列命令切入到这个虚拟机所在的目录:

      #cd/vmfs/voluems//<虚拟机目录>

6、然后查阅日志,在文件的尾部查看什么原因导致这个问题后再针对性的分析。

 

准确定位并删除掉锁定文件

由于虚拟机可以在主机之间移动,如果虚拟机注册到的主机保持对文件的锁定状态,那么,这个锁定文件可以有效保障ESXi/ESX主机对虚拟机文件的控制权和有效保护虚拟系统。

主机由ServiceConsole接口的MAC来确定。

lock由VMkernel或ServiceConsole负责维护;

 

备注:

ESXi服务器没有ServiceConsole所以,lock由VMkernel单独负责维护;

首先要确定VMkernel可能锁定的文件:

1、执行下面的命令来报告锁定目录所在的MAC地址:

      #vmkfstools-D/vmfs/volumes//<虚拟机目录>/<锁定状态文件>

2、由于负责锁定.vmdk文件的主机会将MAC地址写入到vmkernel日志里面,那么可以用下面的命令查阅:

      #tail/var/log/vmkernel

 

 

35、StoragevMotion失败:

lookingforlinesstaringwith"CBTMotion"

故障状态:

1、执行StoragevMotion失败;

2、系统提示如下错误信息:

generalsystemerroroccurred:

StorageVMotionfailedtocopyoneormoreoftheVM'sdisks.PleaseconsulttheVM'slogformoredetails,lookingforlinesstartingwith"CBTMotion-".

复制代码3、/var/log/vmware/文件里有类似如下信息:

witherror7:

StorageVMotionfailedtocopyoneormoreoftheVM'sdisks.  PleaseconsulttheVM'slogformoredetails,lookingforlinesstartingwith"CBTMotion".

复制代码故障分析

可能由于虚拟机的硬件版本号过老导致;

解决方案:

关掉虚拟机后右击uxniji选择UpgradeVirtualMachineHardware即可。

 

 

36、添加LUN时提示

故障状态:

系统能够扫描到DevicesLUN,但是在添加过程中却提示如下错误信息:

 ,如图所示:

 

故障分析:

这样的问题一般都是由于LUN的尺寸过大导致,一般来说,VMwareESXi/ESXServer标准支持最大的LUN尺寸为2TB-512Byte,但是由于国内很多技术人员对这个-512Byte并不太在意,所以习惯型的讲成2TB,这就导致很多用户在使用时,直接分配了2TB的空间,这就可能导致了上述问题;

解决方案:

针对这样的问题,建议如下:

1、如果已经分好了2TB的LUN,建议调整为左右后再尝试添加;

2、新LUN规划用户则请严格参照官方文档的参数设计,建议是左右为一个LUN生成Datastore

 

 

37、vCenterConverter推送Agent出错:

ConverterAgentinstaller/uninstallerFailed

故障状态:

1、利用vCenterConverter推送Agent到WindowsServer2003服务器上时,失败;

2、系统提示类是如下错误信息:

Agentinstaller/uninstallerfailedon'xxxxxxxxx'.

 

3、VMwarevCenterConverter的日志文件里面有类似如下错误提示:

01.[#6][2011-01-2110:

50:

04080info'App'][agentManager,83][AgentManager]InstallAgenton

02.[#6][2011-01-2110:

51:

04080error'App'][agentManager,95][AgentManager]InstallAgentfailed:

[2011-01-2111:

18:

03976info'App']ReusingexistingVIMconnectionto

04.[#7][2011-01-2111:

18:

03976error'App']FounddanglingSSLerror:

[0]error:

00000001:

lib(0):

func(0):

reason

(1)

05.[#7][2011-01-2111:

19:

02756info'App'][agentManager,83][AgentManager]InstallAgenton

06.[#7][2011-01-2111:

19:

02756error'App'][agentManager,95][AgentManager]InstallAgentfailed:

 

7.[#7][2011-01-2111:

19:

03976info'App'][diagnosticManager,357]Generatinglogbundle.

故障分析:

以下几种情况可能导致这样的问题:

1、445端口没能打开;

2、曾经手动安装过Agent后卸载;

3、Windows服务管理其中的server服务没有启动导致的IPC$连接失败;

4、防火墙阻绝;

 

解决方案

1、确认445端口或NetBIOS协议能正常使用;

2、建议在Converter时关闭防火墙;

3、如果依然有问题,尝试用ConverterStandardalone版本迁移或采用ConverterCD进行冷克隆。

 

 

38、解决在vSphere里开启HA时,提示:

DatastoreHeartbeating不足的问题

故障状态:

为ESXi+vCenter配置HA时,提示如下信息:

故障分析:

这是由于vSphere里的HA部分已经重写,并且新增了DatastoreHeartbeating用于网络Partition心跳检测支持;

解决方案:

有2个选择,一个是加多存储用于心跳检测,这也是正确的选择,就不多讲,另一个就是忽略掉这个问题,方法如下:

1、vSphereClient登录到vCenterServer后,右击HACluster,点击Edit,然后找到高级选项设定:

 

 

2、再如上图所示的内容中,添加下参数:

 

备注:

缺省情况下,这个参数的值是false的。

 

 

 

39、通过vSphereClient登陆ESXi主机提示“正在更新”的问题

故障状态:

通过vSphereClient登陆VCenter正常,登陆ESXi主机提示如下图:

 

故障分析:

需要通过‘来更新Client说明客户端存在问题,由于登陆VCenter不存在任何问题,所以基本确定版本的问题。

查看ESXi版本和vSphereClient,发现Client的版本低于ESXi版本。

解决方案:

由于Client所在网络无法上Internet,所以无法更新Client客户端,可以通过安装高版本的Client来解决此问题。

 

 

40、红旗32位Linux进入系统时提示”udevu”无法继续进入系统的问题

故障状态:

进入系统后,出现下图的界面,之后无法向下运行,必须按Ctrl+C才能继续向下运行

 

故障分析:

由于系统安装时候是完整的,光盘镜像包是完整的,安装的时候不存在任何问题。

考虑到物理机上不存在这种问题,怀疑虚拟机虚拟驱动的问题,安装新的VMware-tools问题依旧。

虚拟机管理问题

早于  版本的 Linux 内核不报告处于关闭电源状态的每插槽内核数为 2

从 ESXi 开始,多核虚拟 CPU 支持允许处于关闭电源状态的每插槽内核数为 2。

早于  版本的 Linux 内核仅正确报告处于打开电源状态的每插槽内核数为 2。

例如,当您在 .vmx 文件中设置numvcpus=6和=3时,一些 Linux 客户机操作系统可能无法报告任何物理标识信息。

Linux 内核  及更高版本会正确报告 CPU 和内核拓扑。

解决办法:

将内存热添加到使用 Linux64 位或 Windows7、32 位客户机操作系统的虚拟机时,无法将现有虚拟内存增加到 3GB 以上

下列情况适用于将内存热添加到使用 Linux64 位或 Windows732 位客户机操作系统的虚拟机。

如果已打开电源的虚拟机的内存少于 3GB,则内存热添加量不能超过 3GB。

如果虚拟机内存为 1GB,则可以添加 2GB。

如果虚拟机内存为 2GB,则可以添加 1GB。

如果虚拟机的内存为 3444MB,则可以添加 128MB。

如果已打开电源的虚拟机的内存正好为 3GB,则无法热添加任何内存。

如果已打开电源的虚拟机的内存超过 3GB,则可以将虚拟机内存增加到虚拟机打开电源时初始内存大小的 16 倍或增至硬件版本限制(以两者中较小者为准)。

硬件版本 7 的限制是 255GB,硬件版本 8 的限制是 1011GB。

如果在虚拟机电源打开时,内存从小于或等于 3GB 增长到大于 3GB,则 Linux64 位和 32 位 Windows7 客户机操作系统会冻结。

此 vSphere 限制可确保您不会在客户机操作系统中触发该错误。

解决办法:

无。

在硬件版本 7 虚拟机上进行 CPU 热添加时出错

硬件版本 8 虚拟机的多核虚拟 CPU 功能支持虚拟 CPU 热添加。

 

对于每个插槽的内核数大于 1 的硬件版本 7 虚拟机,当您在 [虚拟机属性] 对话框中启用 CPU 热添加并尝试热添加虚拟 CPU时,操作失败并显示以下错误消息:

该虚拟机不支持CPU热插拔(CPUhotplugnotsupportedforthisvirtualmachine)。

解决办法:

要在硬件版本 7 虚拟机上使用 CPU 热添加功能,请关闭虚拟机电源并将每个插槽的内核数设置为 1。

 

为达到最佳效果,请使用硬件版本 8 虚拟机。

同时创建大量虚拟机会导致文件操作失败

同时创建大量驻留在同一目录下的虚拟机时,存储系统变得不堪重负,导致一些文件操作失败。

会显示错误消息并且创建虚拟机操作失败。

解决办法:

以更小的批量(例如 64 个)创建其他虚拟机,或尝试在不同的数据存储中或同一数据存储的不同目录中创建虚拟机。

在通过 vMotion 进行迁移过程中,从 ESXi 主机直通到虚拟机的 USB 设备可能断开连接

如果 USB 设备从 ESXi 主机直通到虚拟机并且该设备配置为在通过 vMotion 进行迁移过

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 人文社科

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2