netapp设备用户日常维护手册.docx

资源描述

netapp设备用户日常维护手册.docx

《netapp设备用户日常维护手册.docx》由会员分享，可在线阅读，更多相关《netapp设备用户日常维护手册.docx（17页珍藏版）》请在冰点文库上搜索。

netapp设备用户日常维护手册.docx

netapp设备用户日常维护手册

Companynumber：

【0089WT-8898YT-W8CCB-BUUT-202108】

netapp设备用户日常维护手册

GTIPROFESSIONALSERVICES

NETAPP存储日常维护手册

用户名称:

目标_____________________________________________________3

设备硬件说明_____________________________________________4

指示灯说明______________________________________________6

设备管理________________________________________________11

巡检及巡检方法__________________________________________17

设备故障应急预案_______________________________________18

1.0目标

NetApp解决方案能够助客户有效地简化运作，同时最大限度地降低风险，为那些不断经历变化的企业提供更高的性能和可扩展性。

借助于产品、技术和合作伙伴的良好组合，NetApp解决方案有助于解决最为迫切的IT和业务问题，同时最大限度地提高投资回报率。

本指南是为使用NetApp存储系统的维护人员编写的基本管理知识，目标是指导维护人员如何进行每天的健康检查。

详细的存储系统和命令管理参见随机手册。

在线帮助

2.0设备硬件说明

FAS3140硬件视图

前视图

后视图

diskshelf–DS14mk4视图

前视图

后视图

3.0指示灯说明

controller指示灯指示灯说明

（Power）（fault）（controllerA）（controllerB）

FaultLED故障灯无故出现为橘色时请查看系统日志信息,联系服务技术支持GTI

DISKSHELF指示灯说明

ESH4模块指示灯说明

电源指示灯说明（指示描述信息见ESH4模块卡片）

disk指示灯说明

4.0设备管理

Filerview图形管理接口

Filerview是NetApp提供的图形管理接口，可以方便地实现对NetApp的存储设备的管理。

启动浏览器访问IP地址\na_admin。

你需要:

使用MicrosoftIE或NetscapeNavigator（version4以上）

如果有错误,可能和你的DNS有关,你可以用:

filer/na_admin,然后点击Filerview进入管理界面,通过filerview你可以完成几乎所有的管理任务

点击FILERVIEW图标进入FILERVIEW管理界面，输入用户名和密码

可以完成存储设备、卷、设备、网络、安全、LUN、NDMP、SNMP、SnapMirror等配置。

以下为常用菜单功能说明：

分类

操作

实施路径

备注

基本管理

显示序列号和版本信息

Filer->ShowStatus

检查软件许可

Filer->ManageLicence

系统状态报告

Filer->Report

检查日志信息

Filer->SyslogMessages

命令行接口

Filer->UseCommandLine

配置自动邮件通知：

发

件人、邮件服务器等

Filer->Configure

Autosupport

设置日期和时间

Filer->SetData/Time

设置时区

Filer->SetTimezone

关机和重启动

Filer->ShutDownand

Reboot

系统实时状态

Filer->ShowSystem

Status

磁盘和空间

管理

磁盘管理

Storage->Disks->Manage

适配器信息

Storage->Adapters-

>Report

建立Aggr

Aggregate->Add

管理Aggr

Aggregate->Manage

建立Vol

Volume->Add

在aggr建立后

管理Vol

Volume->Manage

增加限额管理

Volume->Quota->Add

快照管理

Volume->snapshot>Add

Volume-

>snapshot>configure

开启和关闭块访问协议

LUNs->Enable/Disable

建立LUN

LUNs->Wizard

增加主机WWN

LUNs->initiatorgroup-

>Add

iSCSI安全模式

LUNs->iSCSI->

initiatorsecurity

iSNS服务

LUNs->iSCSI->iSNS

网络管理

管理网络端口

Network->Manage

Interface

网络基本参数

Network->Configure

增加虚端口：

可以为

Multi或Single

Network->Addvirtual

Interface

管理host文件

Network->ManageHost

Files

管理网络组

Network->ManageNet

Groups

配置DNS和NIS服务

Network->ManageDNS

&NISNameService

协议访问

配置NFS输出向导

NFS->AddExport

NFS基本配置

NFS->Configure

CIFS配置向导

CIFS->Configure->Setup

Wizard

CIFS配置参数

CIFS->Configure->Setup

Wizard

个人主目录

CIFS->Configure->

Homedir

增加共享目录

CIFS->Shares->

Add

管理共享目录

CIFS->Shares->

manage

开启和关闭CIFS服务

CIFS->Shares->

Enable/Disable

测试域控制器连接正常

CIFS->TestDomain

Controller

审计配置

CIFS->Auditing

->Configure

CIFS连接的进程

CIFS->SessionReport

安全管理

安全属性配置

Security->Configure

修改用户口令

Network->C行Password

管理Rsh远程访问授

权

Security->ManageRsh

Access

命令行（CLI）

你可以用CONSOLE口（将PC机的串口与NetApp随机带的console线连在filer的CONSOLE口,打开windows里的hyperterminal或其它仿真终端，波特率设置为default:

9600波特率,8位,无校验,1位停止位）和telnet登入filer的命令行窗口.

输入或者help可以看到全部命令

haltnfssnapvault

aggrhelpnfsstatsnmp

arphostnamenissoftware

ackuphttpstatoptionssource

cfifconfigoroutedstats

cifsifstatpartnerstorage

configigrouppasswdsysconfig

........

命令的详细使用方法可以通过help得到，例如：

>helpvol

displayorchangecharacteristicsofvolumes

Thefollowingcommandsareavailable;formoreinformation

type"helpvol"

adddestroyonlinesize

clonelangoptionssplit

containermedia_scrubrenamestatus

copymirrorrestrictverify

createofflinescrub

巡检及巡检方法

目测

现场首先进行指示灯和LCD面板检查，判断是否有异常情况发生。

硬件状态检查

>sysconfig–r检查磁盘情况

正常情况：

发现所有磁盘，每个机头都有一个或多个sparedisk。

非正常情况：

任何一个机头没有一个sparedisk，或有faileddisk

>sysconfig–v检查所有硬件

以上显示结果应该没有failed,error,warning等字样.

检查网络是否正常

使用ping存储设备IP地址，输入：

>pingFILERNAME\IP

正常情况：

有相应，无丢包。

非正常情况：

ping不通或者丢包严重。

>ifconfig–a主要网口状态应为up

>vifstatusVIF所有端口是否正常

检查Cluster状态是否正常

>cfstatus

正常情况：

2个节点状态应该为enable

非正常情况：

任何一个机头显示非如上所示，就属于非正常情况

检查卷容量是否正常

使用df检查空间使用状况。

正常情况：

capacity低于或等于90%。

非正常情况：

capacity高于90%。

性能检查

>sysstat–x1CPU利用率应该在80%以下

日志文件检查

>rdfile/etc/messages

仔细检查是否有failed,error,warning等字样.

如有,则记录下来

收集autosupport信息

Options触发最新autosupport信息’

如获得更多可信息请访问

附件:

存储设备紧急情况应急预案

存储问题定位于排查

（Power）（fault）（controllerA）（controllerB）

FaultLED故障灯无故出现为橘色时请查看系统日志信息,联系服务技术支持GTI

FilerVIew检测

打开IE窗口输入filer/na_admin,然后点击Filerview进入管理界面

其中：

Filer显示设备名

Model显示设备型号

SystemID设备的ID号码（不是SN）

Version显示设备使用系统的版本

Volumes显示设备的卷信息，如有问题会有报错

Aggregates显示设备AGGR信息，如有问题会有报错

Disks显示设备磁盘使用情况，如有磁盘损坏，会有报错

Status绿色代表正常橙色代表有错误发生红色系统有紧急事件，或可导致紧急事件的隐患，并能显示相应的报错部件的信息

错误定位步骤

首先通过设备的物理状态，和网页显示情况可以初步诊断是否是由硬件问题引起

例如：

若磁盘随坏会有如下症状

1：

存储系统的面板上会有橙色的灯亮起

2：

仔细查看磁盘的扩展柜能发现损坏的磁盘上会有橙色的灯亮起

3：

从WEB的管理界面上看见橙色的灯亮起，并在DISK的后面显示是具体那块磁盘出现问题

6.3信息收集

通过WEB界面来抓取messages

进入WEB管理界面，选择Filer点击syslogmessages即可看见系统的log信息，有助于我们错误的排查和诊断

在系统命令行中执行:

>rdfile/etc/messages查看messages信息

例如:

>aggrstatus–r查看raid组信息,会看到failed的disk

例如:

Brokendisks

RAIDDiskDeviceHASHELFBAYCHANPoolTypeRPMUsed（MB/blks）Phys（MB/blks）

-------------------------------------------------------------------------

failed

Options触发最新autosupport信息

并使用log记录的功能手动记录设备的全部信息。

6.4信息提交

6.4.1autosupport设置

通过对autosupport的功能进行设置能对系统的安全进行全面的保护

需要设置mailhost和发邮件报告发送和接收人以及发送方式

1：

每周会产生设备的周报（weeklyreport），统计设备运行状态

2：

在设备运行情况发生问题是，例如硬件损坏，或软件告警等消息时会及时出发autosupport给收件人

3：

若有备件损坏时，会第一时间发送给收件人和netapp技术中心，会自动生成备件，并主动与用户联系，第一时间发送出备件。

6.4.2GTI技术支持

我们建议在设备的autosupport的接受人里面添加GTI的存储技术团队邮件，当问题发生时，我们会第一时间得到消息，会主动与您联系，第一时间为您排查和解决问题

6.4.3NETAPP800技术支持中心

NETAPP的全球技术支持中心电话

每天早8点至晚8点，由大连的中文技术支持，其余时间由国外技术支持，24*7小时保障您的安全。

示例磁盘更换步骤

1、关于磁盘所有权的概念介绍

Ø磁盘所有权：

在存储系统中每个磁盘必须被分派到一个控制器系统中，每个磁盘也要分派到一个池中（让单机或集群中一个机头所识别到磁盘）

Ø基于硬件的所有权：

磁盘所有权是机头HBA卡和shelfHBA卡的连接位置决定的，插入新盘时系统会自动识别磁盘，使其成为一个热备盘加入到POOL0中（在SYNCMIRROR没有开启时候）。

Ø基于软件的所有权：

磁盘所有权是管理员决定的（可以利用命令管理），HBA卡插槽位置将不影响磁盘所有权。

当添加磁盘时候需要分派所有权，否则系统不能马上识别新盘

Netappfiler系列对磁盘所有权的支持如下：

存储系列

硬所有权

软所有权

FAS2050

支持

FAS3020FAS3050

支持

FAS3140

支持

FAS3070

支持

FAS6000

支持

ShelfID

可以在后面改变

2、磁盘ID，BAY，shelfID概念

Drivebay0－13

以DSMK2AT－FC/-FCX为例子：

ShelfID为1的shelf第一个BAY（0）的磁盘ID为16，如果连接到控制器的0a口，则磁盘ID为.其他磁盘以此类推

定位计算公式＝shelfID×16+BAY=磁盘ID

一、更换原因：

磁盘更换原因会有很多种可能，以下列出了一些常见的问题和错误的messages:

1.磁盘failed，被放进Brokenpool中

>aggrstatus–f

Brokendisks

RAIDDiskDeviceHASHELFBAYCHANPoolTypeRPMUsed（MB/blks）Phys（MB/blks）

-------------------------------------------------------------------------

failed

>rdfile/etc/messages

bypass错误，messages中没有错误信息

>sysconfig–a

Shelf1:

ESH2Firmwarerev.ESHA:

14ESHB:

DiskinShelf:

1Bay5isbypassed

物理上，failed磁盘前面的LED2指示灯为常亮橘灯状态

三、更换造作之前确定磁盘的位置的方法

1.首先在系统中确认，利用命令

>sysconfig–r或者aggrstatus–r（查看raid组中所有磁盘的状态，其中会包括failed磁盘的磁盘ID）以此来定位磁盘的位置

如：

RAIDDiskDeviceHASHELFBAYCHANPoolTypeRPMUsed（MB/blks）Phys（MB/blks）

-------------------------------------------------------------------------

fialed

2.物理上查看

0a为路径ID：

为连接机头0a口的LOOP的shelf

定位出shelf1第2个磁盘failed

四、操作步骤：

1确认failed磁盘,热备磁盘，以及当前没有RAID重建操作

>aggrstatus–r

>rdfile/etc/messages

确认磁盘的failed在Broken池中

2根据查找出的磁盘ID，进行磁盘位置的定位

3拔出定位的损坏磁盘之后步骤随时查看CLI即时弹出的messages信息

4之后插入新的RMA磁盘

5如果是hardwareownership则磁盘插入会立即成为热备磁盘

如果是softwareownership

则磁盘插入需要指派，看options选项options

设置为开启的，磁盘会自动被本地的连接的机头加入到热备磁盘中

设置为关闭需要手工指派:

>diskshow–n（查看插入的没有所有权指派的磁盘）

>diskassign磁盘ID（加入到本地的机头）

6验证磁盘状态

>aggrstatus–r（确认磁盘已经指派到热备磁盘池中,Broken池为空，RAID组状态正常）

7如果是多路连接可以通过一下命令验证是否多路看到更换磁盘

>sysconfig–a|-v

8整个过程需要记录LOG信息

五、操作过程中的以外处理：

在更换磁盘过程中可能会有一些意外情况，情按下步骤操作

1如果插入新的磁盘提示报错，不能识别或者识别错误的信息

执行>aggrstatus–r（保证RAID组状态正常，并查看插入出错的磁盘当前的状态）

如果当前RAID组状态正常，取下磁盘

2联系GTI存储的支持工程师，进行进行进一步支持

展开阅读全文