VCS双机软件使用与维护.docx

上传人:b****2 文档编号:16884871 上传时间:2023-07-19 格式:DOCX 页数:28 大小:1.62MB
下载 相关 举报
VCS双机软件使用与维护.docx_第1页
第1页 / 共28页
VCS双机软件使用与维护.docx_第2页
第2页 / 共28页
VCS双机软件使用与维护.docx_第3页
第3页 / 共28页
VCS双机软件使用与维护.docx_第4页
第4页 / 共28页
VCS双机软件使用与维护.docx_第5页
第5页 / 共28页
VCS双机软件使用与维护.docx_第6页
第6页 / 共28页
VCS双机软件使用与维护.docx_第7页
第7页 / 共28页
VCS双机软件使用与维护.docx_第8页
第8页 / 共28页
VCS双机软件使用与维护.docx_第9页
第9页 / 共28页
VCS双机软件使用与维护.docx_第10页
第10页 / 共28页
VCS双机软件使用与维护.docx_第11页
第11页 / 共28页
VCS双机软件使用与维护.docx_第12页
第12页 / 共28页
VCS双机软件使用与维护.docx_第13页
第13页 / 共28页
VCS双机软件使用与维护.docx_第14页
第14页 / 共28页
VCS双机软件使用与维护.docx_第15页
第15页 / 共28页
VCS双机软件使用与维护.docx_第16页
第16页 / 共28页
VCS双机软件使用与维护.docx_第17页
第17页 / 共28页
VCS双机软件使用与维护.docx_第18页
第18页 / 共28页
VCS双机软件使用与维护.docx_第19页
第19页 / 共28页
VCS双机软件使用与维护.docx_第20页
第20页 / 共28页
亲,该文档总共28页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

VCS双机软件使用与维护.docx

《VCS双机软件使用与维护.docx》由会员分享,可在线阅读,更多相关《VCS双机软件使用与维护.docx(28页珍藏版)》请在冰点文库上搜索。

VCS双机软件使用与维护.docx

VCS双机软件使用与维护

VCS双机软件使用与维护

VeritasClusterServer

 

第1章原理篇

SymantecClusterServer(VeritasClusterServer)是业界领先的开放式系统集群解决方案,是消除计划内和计划外停机时间,简化服务器合并,并有效管理多平台环境内广泛应用的理想选择。

1.1VCS组成部分

本节描述了VCS配置中的每个主要部分。

了解这些组成部分对理解VCS的原理来说非常重要。

这些部分包括:

ØClusters(集群)

ØResourcesandresourcetypes(资源和资源类型)

ØAgents(代理)

ØServiceGroups(服务组)

ØResourceDependencies(资源的依赖关系)

ØHeartbeat(心跳)

1.1.1Clusters(集群)

一个VCScluster是由共享存储系统的多个主机系统组成的。

VCS监控和管理cluster环境中的应用程序,并且可以针对硬件或软件的错误进行重启或切换。

一个cluster被定义成拥有同样的cluster-ID和通过心跳网络连接的所有系统的总称。

Clusters可以由1到64个主机系统或“nodes”构成。

在cluster中的所有系统都了解其它系统的所有资源的状态。

应用程序被配置成运行在cluster环境中的某个系统上。

存储设备为cluster的应用程序存放共享数据。

在一个VCScluster环境中,所有的系统必须运行同样的操作系统体系。

例如,Solariscluster环境只能有Solaris系统构成,HP/UX,Linux,AIX和NT/2000的cluster环境也一样。

但多种cluster都可以通过一个VOM或ClusterManager(ClusterJava图形界面)来集中管理。

VOM允许通过web管理所有的VCScluster,ClusterManager允许管理员通过一个图形界面来管理Cluster。

通用的图形界面和命令行接口使管理员管理任何系统的cluster时都得心应手。

1.1.2ResourcesandResourceTypes(资源和资源类型)

资源是VCS控制下的硬件或软件的实体,如磁盘,网卡(NICs),IP地址,应用程序,和数据库。

控制资源指的是启动,停止和监控它的状态。

资源根据类型分类,许多资源可以是同一种类型;例如,两个磁盘资源都是磁盘类型。

VCS如何启动和停止资源主要是依照资源的类型。

例如,mounting启动一个文件系统资源,IP资源通过配置IP地址启动。

监控一个资源即测试出该资源是启动的还是停止的。

VCS如何监控一个资源也是依赖与资源类型。

例如,文件系统资源如果是mounted就表明在线,IP资源如果配置过就是在线的。

每个资源通过cluster中一个唯一的名字来标识。

VCS包括许多预先定于好的资源类型,对每个资源类型,VCS有一个对应的代理。

代理对资源类型提供了管理的方法。

1.1.3Agents(代理)

每种cluster支持的资源类型都和代理相关。

代理是用来控制一种资源类型的程序,负责启动,停止和监控该中类型的资源。

VCS代理是“multithreaded”。

这意味着一个VCS代理监控一台机器上的相同资源类型的所有资源;如磁盘代理管理所有的磁盘资源。

VCS不论资源是否在线都进行监控。

所以当cluster被启动时,VCS启动所有配置资源的代理。

如果cluster上没有一种资源类型的资源,代理就不会在任何一个系统上启动。

例如在系统上没有配置过Oracle资源,Oracle代理就不会启动。

VCS针对主流的应用程序提供了agent,如果用户的程序没有相应的agent,VCS提供支持用户开放agent或使用application类型agent,由用户提供start,stop,monitor和clean脚本。

1.1.4ServiceGroups(服务组)

一个服务组是一组可以协同工作对外提供服务的资源的集合。

例如,web应用程序的服务组包括:

Øweb主页存放的diskGroups

Ødiskgroup上建立的卷,

Ø使用卷的文件系统,

Ø数据库,

Ø对外提供服务的网卡(NIC),

Ø绑定在网卡上的一个或多个IP地址,

Ø应用程序。

VCS在服务组的级别对资源进行各种管理工作如启动,停止,重起和监控。

服务组的操作影响内部所有资源的操作。

例如,当一个服务组启动,这个服务组内的所有资源也被启动。

当VCS发生切换,资源不会单独切换,整个服务组是切换的基本单位。

如果系统上还有其他服务组,一个服务组的切换不会影响其它服务组的继续正常工作。

1.1.5资源的依赖关系

服务组定义中最重要的部分就是资源依赖关系的概念。

资源依赖关系决定了在一个服务组启动和停止时启动和停止资源的一定顺序。

例如,VxVMDiskGroup必须在diskgroup中的卷被启动前被import进来,卷必须在文件系统被mount前启动。

同样,文件系统必须在卷被停止前umount,卷必须在diskgroup被deport前停止。

可以根据资源的依赖关系画出图来。

在VCS的术语中,资源是Parents或Children。

Parent资源出现在连接它们的child资源的上方。

child资源必须在parent资源之前启动,parent资源必须在childresources停止前停止。

资源必须依照它们的顺序。

依赖图描述出整个依赖的关系。

在上图中,上层(parent)的资源需要底层(child)的资源。

所以卷需要diskgroup启动,文件系统需要卷被启动。

应用程序需要两个独立的资源才能正常工作—一个数据库和用于通信的IP地址。

1.1.6资源组的依赖关系

类似于资源直接的依赖关系,也可以定义对外提供服务的资源组之间的关系。

例如,需要先启动数据库再启动web应用。

 

1.2VCS基本原理

VCS的系统状态在各台系统间自动进行复制。

这需要两种基本的信息:

所有的系统都需要知道cluster中的所有成员和各成员上的资源状态。

这需要cluster的所有系统中经常进行信息沟通。

下图描述了VCS通信的基本结构。

在每个cluster系统上,代理负责监控资源状态.代理将资源的状态通知HighAvailabilityDaemon(HAD).HAD通过GroupMembershipServices/AtomicBroadcast(GAB)协议将资源的信息传播出去.GAB使用底层的LowLatencyTransport(LLT)在各个系统间进行可靠的通信.

说明:

单节点VCS不需要GAB和LLT

1.2.1HAD

HighAvailabilityDaemon,“HAD”是每个系统上主要的VCS守护进程.HAD收集资源运行的信息并将它传播到cluster中的所有系统。

它也管理每种运行的agent,每个agent管理一种资源。

1.2.2GroupMembershipServices/AtomicBroadcast(GAB)

GroupMembershipServices/AtomicBroadcast协议简称GAB负责Cluster成员管理和Cluster状态通信。

成员管理是指监控集群中的成员状态,并响应成员状态变化。

cluster状态通信是每个节点上资源的状态等。

1.2.3LowLatencyTransport(LLT)

LLT提供快速,内核到内核的通信,并监控网络连接。

使用LLT而不用IP减少了延迟和IP栈的高负荷,确保系统状态改变以最快的速度反应到其它机器。

可以配置两种类型的LLT,高频(专有)LLT和低频LLT,必要配置高频心跳,高频心跳使用专用网络。

低频心跳,当所有高频心跳损坏有低频心跳接替,低频心跳可使用业务或管理网络。

LLT有主要功能:

Ø心跳。

LLT负责在私网上发送和接收心跳信号,监控成员状态。

ØLLT链路管理。

LLT会在所有高频心跳网卡上传输心跳,并管理网卡的损坏。

第2章运维篇

2.1VCS运维规范

2.1.1操作系统维护规范

1、VCS集群中的各节点必须是相同的操作系统类型;

2、VCS集群中的各节点要保证相同的操作系统版本;如果要对操作系统升级或打补丁需要集群中的所有节点都要升级和打补丁,升级的方式可以选择滚动升级减少对业务影响;

3、对操作系统的变更(修改配置文件,修改参数等),需要同步到所有集群节点上;如修改/etc/hosts解析,保证在集群切换时应用能正常运行;

4、操作系统的用户和组要保证一致,即相同的用户名和组名,相同的uid和gid;

5、VCS集群中的各节点推荐配置NTP时钟同步,保证各节点时间相同;

6、VCS对操作系统版本有兼容要求,安装和升级操作系统或VCS时需要先查看兼容列表;

2.1.2应用软件维护规范

1、VCS对主流应用软件提供agent支持,如果要使用这些agent,需要先确认应用软件版本和VCS版本兼容;

2、对于没有agent的应用软件,可以使用通用application类型agent,由用户提供start,stop,monitor和clean脚本,关于这些脚本的要求和规范参考2.1.6;

3、加入VCS管理的应用要能保证在切换到集群另一个节后应用保证一致状态,为此所有应用程序运行中会变化的数据都应放在共享存储上,如数据库的数据文件等;

4、对于不会运行中变化的数据,如程序二进制文件,部分配置文件等,可以放在各节点的本地,但用户要保证在变更时保持一致;如果要修改本地的程序文件,对应用打补丁升级等,需要在所有节点上保持同步;

5、应用软件加入VCS管理后,应该由VCS来负责应用的启动和停止;VCS会调用agent的启动或start脚本来启动应用程序,当应用出问题时,切换应用到备用服务器上;

6、避免直接在VCS之外停止应用程序,应使用VCS命令停止和启动应用,具体方法参见操作篇如何启动和停止资源;

7、如果需要临时对应用进行维护(如升级,打补丁,故障处理等),而此时不想VCS对应用进行管理,可以临时冻结该应用所在资源组,维护完成后应及时解冻资源组以让应用高可用,具体方法见操作篇冻结和解冻资源组;

2.1.3LVM维护规范

1、保证磁盘在主备节点上都能识别到;

2、新创建的vg要在主备节点上都import;

3、vg的majornumber在主备节点上要相同;

4、加入vcs管理的vg应设置auto_on属性为no,即避免vg自动激活;

5、当增加VG时,需要新建一个LVMVG类型的资源;

6、当扩容vg,删除磁盘或更换磁盘是要对相应vg资源执行updatepv操作,方法见操作篇updatepv;

7、当在主节点将vg增加、扩容、删除一个lv时,需要在备机进行importvg操作,具体方法见操作篇vg增加、扩容、删除lv;

8、vg资源的SyncODM要设置为1;

9、如果生产系统VG为两个阵列镜像,而容灾端只有一份镜像,importvg和varyvg需要强制才能成功,所以vg资源的ImportvgOpt设置为f,VaryonvgOpt设置为f;

10、加入vcs管理的文件系统,不要设置系统启动时自动mount;

11、增加一个受vcs管理的文件系统,首先判断新增加的文件系统所属的卷是否是新建的lv,如果是则先进行操作篇vg增加、删除lv,然后再需要新建一个mount资源;

12、如果在重新导入VG导致majornumber变化,需要及时更新VCS配置;

2.1.4VCS脚本维护规范

1、如果应用存在支持的agent,推荐使用agent来管理应用资源;

2、application资源类型需要提供应用程序的start,stop,monitor和clean脚本;

3、monitor脚本返回值110表示正常,返回值100表示资源出错;

4、由于monitor脚本执行频率很高,默认60s,脚本不能消耗很多系统资源也不能执行太长时间;

5、为保障在异常情况下能进行应用切换,需要提供clean脚本来强制关闭应用;

 

2.2VCS日常巡检和定期切换测试

2.2.1日常巡检

1、VCS集群应配置告警监控;

2、除告警外,应定期对集群进行巡检;

3、日常的巡检可以通过VOM集中查看,也可以到每个主机上查看集群状态;

2.2.2定期切换测试

1、为保证业务的高可用性,保障故障时系统能正常切换,建议对资源组和主机进行定期切换测试,以检查可能存在的问题;

2、切换测试可以针对主机也可以针对资源组进行;

3、测试前应考虑可能存在的故障点,模拟切换场景;

4、切换测试中发现的问题要及时整改;

 

2.3VCS运维注意事项

1、有三种VCS管理方法:

a)命令行

b)ClusterManager图像界面管理

c)VOMweb界面集中管理

2、纳入VCS管理的资源的启动和停止,应该使用VCS来完成启动或停止。

如果不使用VCS而是直接对资源进行启动或停止(如手动umount文件系统)会导致VCS状态异常。

3、对VCS的管理要按特定的顺序:

a)启动或停止资源要按照资源间的依赖关系,按顺序启动或停止资源

b)启动或停止资源组要按照资源组间的依赖关系,按顺序启动或停止资源组

4、当需要打开VCS配置文件main.cf进行资源配置修改时,修改后要记得保存配置。

特别是在图像界面操作时。

第3章操作篇

3.1命令行管理VCS

3.1.1如何重启主机

VCS环境下要使用shutdown–Fr命令来重启主机,不能使用reboot命令。

shutdown–Fr命令会执行/etc/rc.d下的K脚本,会正常地停止cluster软件,而reboot不会。

3.1.2启动VCS

正常情况下,VCS会随系统自动启动。

如果出于某些原因VCS没有启动,可以通过以下方法启动:

#hastart

注:

该命令只会启动本机上的had进程;执行该命令前需先确认llt和gab已启动正常。

3.1.3停止VCS

正常情况下,正常的关闭系统会先停止VCS。

停止VCS前,应先停止VCS管理的资源组。

可以选择停止本机的VCShad进程

#hastop-local

或者,停止整个集群

#hastop–all

3.1.4如何查看licensekey

#vxlicrep

3.1.5如何添加licensekey

#vxlicinst

可以在线添加,立刻生效

3.1.6检查cluster状态

jxysdb1:

/#hastatus-sum#查看总体的cluster状态

--SYSTEMSTATE

--SystemStateFrozen

Ajxysdb1RUNNING0

Ajxysdb2RUNNING0

Bysdb_sgjxysdb1YNONLINE

Bysdb_sgjxysdb2YNONLINE

Jxysdb1:

/#hastatus#用于查看动态的cluster信息

attemptingtoconnect....connected

groupresourcesystemmessage

---------------------------------------------------------------------------

jxysdb1RUNNING

jxysdb2RUNNING

-------------------------------------------------------------------------

ysdb_sgjxysdb1ONLINE

ysdb_sgjxysdb2ONLINE

3.1.7启动服务组

#hagrp-online-sys

执行后通过hastatus查看状态,参考2.1.4

3.1.8停止服务组

#hagrp-offline-sys

执行后通过hastatus查看状态,参考2.1.4

3.1.9切换服务组

这个操作相当于在一边停止服务组,在另一边启动服务组

#hagrp–switch-to

执行后通过hastatus查看状态,参考2.1.4

3.1.10停止某个资源

#hares–offline-sys

执行后通过hastatus查看状态,参考2.1.4

3.1.11启动某个资源

#hares–online-sys

执行后通过hastatus查看状态,参考2.1.4

3.1.12冻结资源组

当维护资源时,可以临时禁止VCS对资源组的监控

#hagrp-freeze[-persistent]

-persistent表示永久冻结,即VCS重启后依然冻结。

3.1.13解除冻结资源组

#hagrp-unfreeze[-persistent]

-persistent表示永久冻结,即VCS重启后依然冻结。

3.1.14管理VCS配置文件

VCS集群的配置信息(集群,资源,资源组信息)保存在/etc/VRTSvcs/conf/config/main.cf中。

该文件文件可读,但不要手动修改。

对VCS配置的修改都需要先打开该配置,命令如下:

#haconf-makerw

修改后,需要保存并关闭该配置

#haconf-dump–makero

3.1.15LVMVG资源updatepv

当对LVMVG类型的资源对应vg进行添加pv,删除pv,更换硬盘是应执行updatepv,保障备机切换时的一致;

#hares–actionupdatepv–sys

为当前变更的主机;

3.1.16Vg增加、删除lv

在主节点添加、扩容或删除lv操作后,进行如下操作将信息同步至另一个节点:

在主节点释放vg锁

#varyonvg-b-uVGHATEST2PRD01

在备节点导入但不激活此vg

#importvg-V59-yVGHATEST2PRD01-nhdiskpower11

在主节点重新激活(锁定)此vg

#varyonvgVGHATEST2PRD01

 

3.2图形界面管理VCS

2种方法启动cluster的操作界面:

1、服务器上xwindows下可以使用hagui

2、windows下可以使用安装的javaclusterManager

两个界面一样。

3.2.1添加集群

点击File->AddCluster,输入集群中任意节点的ip地址(VCS必须已经启动才能连接)

3.2.2连接集群

选择要连接的cluster主机,点击“clickheretologin”,默认用户密码为admin/password

3.2.3查看资源和资源组状态

登录后左边导航栏,选择资源组,右边选择status,可查看该资源组和资源的状态

点击Resource,可以查看资源的依赖关系和状态

可看到整个cluster的状态,可以看到哪个服务组在哪台主机上启动

蓝色表明资源在线,灰色表示资源停止

3.2.4打开,关闭和保存VCS配置

1、任何对VCS配置的修改需要先打开配置文件,选择File>openconfiguration。

2、修改后应记得保存,选择File>saveconfiguration

3、保存后,可以关闭配置,防止意外改动,选择File>closeconfiguration

3.2.5添加资源组

1、任何对VCS配置的修改需要先打开配置文件,选择File>openconfiguration。

2、选择Edit>Add>ServiceGroup

3、在弹出的窗口中输入资源组名称,选择添加资源组所在主机,主节点选择Startup

3.2.6添加资源

在导航栏选择相应资源组,选择Edit>Add>Resource,在弹出的窗口中输入资源名称和资源属性,注意:

1)黑体属性为必需填写的;

2)对于资源问题后会触发资源组切换的资源,启用Critical;

3)选择Enable,VCSagent即开始监控资源;

1、添加VG资源

先获取vg名称和MajorNumber(可通过ls-l/dev/查看)

2、添加文件系统资源

3、添加网卡资源

4、添加IP资源

5、添加Application资源

添加前需要在主备节点上准备好start,stop,monitor和clean脚本,并已经过脚本正确性

3.2.7定义资源依赖关系

选择左边导航栏资源组,右边选择Resource,然后选择Link

选择资源后,再选择需要依赖的资源,即建立资源的依赖关系,如文件系统依赖于vg,则文件系统为parent,vg为clild。

3.2.8管理资源组

在服务组上点击右键可以进行online(启动),offline(停止),switch(切换),clearfault(清除错误),freeze(冻结),unfreeze(解冻),flush(hang在启动或停止时清除状态)等

3.2.9管理资源

选择资源上点击右键可以online(启动),offline(停止),clearfault(清除错误),enabled(启用),critical(重要资源,出错后会进行切换),delete(删除)。

如果一个资源出错就会有红X,可以选择clearfault清除错误

如果问题已经修复,资源就会变正常

第4章常见VCS问题处理

4.1VCS日志

VCS日志存放在:

/var/VRTSvcs/log

这些日志显示VCSengine和agent的日志。

首先查看HAD日志engine_A.log。

例子:

-rw-rw-rw-1rootother22122Aug2908:

03Application_A.log

-rw-rw-rw-1rootroot9559Aug1513:

02DiskGroup_A.log

-rw-rw-rw-1rootother296Jul1717:

55DiskGroup_ipm_A.log

-rw-rw-rw-1rootroot746Aug1716:

27FileOnOff_A.log

-rw-rw-rw-1rootroot609Jun1918:

55IP_A.log

-rw-rw-rw-1rootroot1130Jul2114:

33Mount_A.log

-rw-rw-rw-1rootother5218May1413:

16NFS_A.log

-rw-rw-rw-1rootroot

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 临时分类 > 批量上传

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2