netapp设备用户日常维护手册.docx
《netapp设备用户日常维护手册.docx》由会员分享,可在线阅读,更多相关《netapp设备用户日常维护手册.docx(17页珍藏版)》请在冰点文库上搜索。
netapp设备用户日常维护手册
Companynumber:
【0089WT-8898YT-W8CCB-BUUT-202108】
netapp设备用户日常维护手册
GTIPROFESSIONALSERVICES
NETAPP存储日常维护手册
用户名称:
目标_____________________________________________________3
设备硬件说明_____________________________________________4
指示灯说明______________________________________________6
设备管理________________________________________________11
巡检及巡检方法__________________________________________17
设备故障应急预案_______________________________________18
1.0目标
NetApp解决方案能够助客户有效地简化运作,同时最大限度地降低风险,为那些不断经历变化的企业提供更高的性能和可扩展性。
借助于产品、技术和合作伙伴的良好组合,NetApp解决方案有助于解决最为迫切的IT和业务问题,同时最大限度地提高投资回报率。
本指南是为使用NetApp存储系统的维护人员编写的基本管理知识,目标是指导维护人员如何进行每天的健康检查。
详细的存储系统和命令管理参见随机手册。
在线帮助
2.0设备硬件说明
FAS3140硬件视图
前视图
后视图
diskshelf–DS14mk4视图
前视图
后视图
3.0指示灯说明
controller指示灯指示灯说明
(Power)(fault)(controllerA)(controllerB)
FaultLED故障灯无故出现为橘色时请查看系统日志信息,联系服务技术支持GTI
DISKSHELF指示灯说明
ESH4模块指示灯说明
电源指示灯说明(指示描述信息见ESH4模块卡片)
disk指示灯说明
4.0设备管理
Filerview图形管理接口
Filerview是NetApp提供的图形管理接口,可以方便地实现对NetApp的存储设备的管理。
启动浏览器访问IP地址\na_admin。
你需要:
使用MicrosoftIE或NetscapeNavigator(version4以上)
如果有错误,可能和你的DNS有关,你可以用:
filer/na_admin,然后点击Filerview进入管理界面,通过filerview你可以完成几乎所有的管理任务
点击FILERVIEW图标进入FILERVIEW管理界面,输入用户名和密码
可以完成存储设备、卷、设备、网络、安全、LUN、NDMP、SNMP、SnapMirror等配置。
以下为常用菜单功能说明:
分类
操作
实施路径
备注
基本管理
显示序列号和版本信息
Filer->ShowStatus
检查软件许可
Filer->ManageLicence
系统状态报告
Filer->Report
检查日志信息
Filer->SyslogMessages
命令行接口
Filer->UseCommandLine
配置自动邮件通知:
发
件人、邮件服务器等
Filer->Configure
Autosupport
设置日期和时间
Filer->SetData/Time
设置时区
Filer->SetTimezone
关机和重启动
Filer->ShutDownand
Reboot
系统实时状态
Filer->ShowSystem
Status
磁盘和空间
管理
磁盘管理
Storage->Disks->Manage
适配器信息
Storage->Adapters-
>Report
建立Aggr
Aggregate->Add
管理Aggr
Aggregate->Manage
建立Vol
Volume->Add
在aggr建立后
管理Vol
Volume->Manage
增加限额管理
Volume->Quota->Add
快照管理
Volume->snapshot>Add
Volume-
>snapshot>configure
开启和关闭块访问协议
LUNs->Enable/Disable
建立LUN
LUNs->Wizard
增加主机WWN
LUNs->initiatorgroup-
>Add
iSCSI安全模式
LUNs->iSCSI->
initiatorsecurity
iSNS服务
LUNs->iSCSI->iSNS
网络管理
管理网络端口
Network->Manage
Interface
网络基本参数
Network->Configure
增加虚端口:
可以为
Multi或Single
Network->Addvirtual
Interface
管理host文件
Network->ManageHost
Files
管理网络组
Network->ManageNet
Groups
配置DNS和NIS服务
Network->ManageDNS
&NISNameService
协议访问
配置NFS输出向导
NFS->AddExport
NFS基本配置
NFS->Configure
CIFS配置向导
CIFS->Configure->Setup
Wizard
CIFS配置参数
CIFS->Configure->Setup
Wizard
个人主目录
CIFS->Configure->
Homedir
增加共享目录
CIFS->Shares->
Add
管理共享目录
CIFS->Shares->
manage
开启和关闭CIFS服务
CIFS->Shares->
Enable/Disable
测试域控制器连接正常
CIFS->TestDomain
Controller
审计配置
CIFS->Auditing
->Configure
CIFS连接的进程
CIFS->SessionReport
安全管理
安全属性配置
Security->Configure
修改用户口令
Network->C行Password
管理Rsh远程访问授
权
Security->ManageRsh
Access
命令行(CLI)
你可以用CONSOLE口(将PC机的串口与NetApp随机带的console线连在filer的CONSOLE口,打开windows里的hyperterminal或其它仿真终端,波特率设置为default:
9600波特率,8位,无校验,1位停止位)和telnet登入filer的命令行窗口.
输入或者help可以看到全部命令
haltnfssnapvault
aggrhelpnfsstatsnmp
arphostnamenissoftware
ackuphttpstatoptionssource
cfifconfigoroutedstats
cifsifstatpartnerstorage
configigrouppasswdsysconfig
........
命令的详细使用方法可以通过help得到,例如:
>helpvol
displayorchangecharacteristicsofvolumes
Thefollowingcommandsareavailable;formoreinformation
type"helpvol"
adddestroyonlinesize
clonelangoptionssplit
containermedia_scrubrenamestatus
copymirrorrestrictverify
createofflinescrub
巡检及巡检方法
目测
现场首先进行指示灯和LCD面板检查,判断是否有异常情况发生。
硬件状态检查
>sysconfig–r检查磁盘情况
正常情况:
发现所有磁盘,每个机头都有一个或多个sparedisk。
非正常情况:
任何一个机头没有一个sparedisk,或有faileddisk
>sysconfig–v检查所有硬件
以上显示结果应该没有failed,error,warning等字样.
检查网络是否正常
使用ping存储设备IP地址,输入:
>pingFILERNAME\IP
正常情况:
有相应,无丢包。
非正常情况:
ping不通或者丢包严重。
>ifconfig–a主要网口状态应为up
>vifstatusVIF所有端口是否正常
检查Cluster状态是否正常
>cfstatus
正常情况:
2个节点状态应该为enable
非正常情况:
任何一个机头显示非如上所示,就属于非正常情况
检查卷容量是否正常
使用df检查空间使用状况。
正常情况:
capacity低于或等于90%。
非正常情况:
capacity高于90%。
性能检查
>sysstat–x1CPU利用率应该在80%以下
日志文件检查
>rdfile/etc/messages
仔细检查是否有failed,error,warning等字样.
如有,则记录下来
收集autosupport信息
Options触发最新autosupport信息’
如获得更多可信息请访问
附件:
存储设备紧急情况应急预案
存储问题定位于排查
(Power)(fault)(controllerA)(controllerB)
FaultLED故障灯无故出现为橘色时请查看系统日志信息,联系服务技术支持GTI
FilerVIew检测
打开IE窗口输入filer/na_admin,然后点击Filerview进入管理界面
其中:
Filer显示设备名
Model显示设备型号
SystemID设备的ID号码(不是SN)
Version显示设备使用系统的版本
Volumes显示设备的卷信息,如有问题会有报错
Aggregates显示设备AGGR信息,如有问题会有报错
Disks显示设备磁盘使用情况,如有磁盘损坏,会有报错
Status绿色代表正常橙色代表有错误发生红色系统有紧急事件,或可导致紧急事件的隐患,并能显示相应的报错部件的信息
错误定位步骤
首先通过设备的物理状态,和网页显示情况可以初步诊断是否是由硬件问题引起
例如:
若磁盘随坏会有如下症状
1:
存储系统的面板上会有橙色的灯亮起
2:
仔细查看磁盘的扩展柜能发现损坏的磁盘上会有橙色的灯亮起
3:
从WEB的管理界面上看见橙色的灯亮起,并在DISK的后面显示是具体那块磁盘出现问题
6.3信息收集
通过WEB界面来抓取messages
进入WEB管理界面,选择Filer点击syslogmessages即可看见系统的log信息,有助于我们错误的排查和诊断
在系统命令行中执行:
>rdfile/etc/messages查看messages信息
例如:
>aggrstatus–r查看raid组信息,会看到failed的disk
例如:
Brokendisks
RAIDDiskDeviceHASHELFBAYCHANPoolTypeRPMUsed(MB/blks)Phys(MB/blks)
-------------------------------------------------------------------------
failed
Options触发最新autosupport信息
并使用log记录的功能手动记录设备的全部信息。
6.4信息提交
6.4.1autosupport设置
通过对autosupport的功能进行设置能对系统的安全进行全面的保护
需要设置mailhost和发邮件报告发送和接收人以及发送方式
1:
每周会产生设备的周报(weeklyreport),统计设备运行状态
2:
在设备运行情况发生问题是,例如硬件损坏,或软件告警等消息时会及时出发autosupport给收件人
3:
若有备件损坏时,会第一时间发送给收件人和netapp技术中心,会自动生成备件,并主动与用户联系,第一时间发送出备件。
6.4.2GTI技术支持
我们建议在设备的autosupport的接受人里面添加GTI的存储技术团队邮件,当问题发生时,我们会第一时间得到消息,会主动与您联系,第一时间为您排查和解决问题
6.4.3NETAPP800技术支持中心
NETAPP的全球技术支持中心电话
每天早8点至晚8点,由大连的中文技术支持,其余时间由国外技术支持,24*7小时保障您的安全。
示例磁盘更换步骤
1、关于磁盘所有权的概念介绍
Ø磁盘所有权:
在存储系统中每个磁盘必须被分派到一个控制器系统中,每个磁盘也要分派到一个池中(让单机或集群中一个机头所识别到磁盘)
Ø基于硬件的所有权:
磁盘所有权是机头HBA卡和shelfHBA卡的连接位置决定的,插入新盘时系统会自动识别磁盘,使其成为一个热备盘加入到POOL0中(在SYNCMIRROR没有开启时候)。
Ø基于软件的所有权:
磁盘所有权是管理员决定的(可以利用命令管理),HBA卡插槽位置将不影响磁盘所有权。
当添加磁盘时候需要分派所有权,否则系统不能马上识别新盘
Netappfiler系列对磁盘所有权的支持如下:
存储系列
硬所有权
软所有权
FAS2050
支持
FAS3020FAS3050
支持
支持
FAS3140
支持
FAS3070
支持
FAS6000
支持
ShelfID
可以在后面改变
2、磁盘ID,BAY,shelfID概念
Drivebay0-13
以DSMK2AT-FC/-FCX为例子:
ShelfID为1的shelf第一个BAY(0)的磁盘ID为16,如果连接到控制器的0a口,则磁盘ID为.其他磁盘以此类推
定位计算公式=shelfID×16+BAY=磁盘ID
一、更换原因:
磁盘更换原因会有很多种可能,以下列出了一些常见的问题和错误的messages:
1.磁盘failed,被放进Brokenpool中
>aggrstatus–f
Brokendisks
RAIDDiskDeviceHASHELFBAYCHANPoolTypeRPMUsed(MB/blks)Phys(MB/blks)
-------------------------------------------------------------------------
failed
>rdfile/etc/messages
>
bypass错误,messages中没有错误信息
>sysconfig–a
Shelf1:
ESH2Firmwarerev.ESHA:
14ESHB:
14
DiskinShelf:
1Bay5isbypassed
物理上,failed磁盘前面的LED2指示灯为常亮橘灯状态
三、更换造作之前确定磁盘的位置的方法
1.首先在系统中确认,利用命令
>sysconfig–r或者aggrstatus–r(查看raid组中所有磁盘的状态,其中会包括failed磁盘的磁盘ID)以此来定位磁盘的位置
如:
RAIDDiskDeviceHASHELFBAYCHANPoolTypeRPMUsed(MB/blks)Phys(MB/blks)
-------------------------------------------------------------------------
fialed
2.物理上查看
0a为路径ID:
为连接机头0a口的LOOP的shelf
定位出shelf1第2个磁盘failed
四、操作步骤:
1确认failed磁盘,热备磁盘,以及当前没有RAID重建操作
>aggrstatus–r
>rdfile/etc/messages
确认磁盘的failed在Broken池中
2根据查找出的磁盘ID,进行磁盘位置的定位
3拔出定位的损坏磁盘之后步骤随时查看CLI即时弹出的messages信息
4之后插入新的RMA磁盘
5如果是hardwareownership则磁盘插入会立即成为热备磁盘
如果是softwareownership
则磁盘插入需要指派,看options选项options
设置为开启的,磁盘会自动被本地的连接的机头加入到热备磁盘中
设置为关闭需要手工指派:
>diskshow–n(查看插入的没有所有权指派的磁盘)
>diskassign磁盘ID(加入到本地的机头)
6验证磁盘状态
>aggrstatus–r(确认磁盘已经指派到热备磁盘池中,Broken池为空,RAID组状态正常)
7如果是多路连接可以通过一下命令验证是否多路看到更换磁盘
>sysconfig–a|-v
8整个过程需要记录LOG信息
五、操作过程中的以外处理:
在更换磁盘过程中可能会有一些意外情况,情按下步骤操作
1如果插入新的磁盘提示报错,不能识别或者识别错误的信息
执行>aggrstatus–r(保证RAID组状态正常,并查看插入出错的磁盘当前的状态)
如果当前RAID组状态正常,取下磁盘
2联系GTI存储的支持工程师,进行进行进一步支持