nagios页面操作文档详解.docx
《nagios页面操作文档详解.docx》由会员分享,可在线阅读,更多相关《nagios页面操作文档详解.docx(22页珍藏版)》请在冰点文库上搜索。
nagios页面操作文档详解
Nagios操作说明指南
目录
第一章.什么是Nagios3
第二章Nagios的WEB操作说明4
前言4
2.1.Nagios登录4
2.2.General选项说明5
2.3.Monitoring5
2.3.1TacticalOverview(总览)6
2.3.2ServiceDetail(服务详细信息)7
2.3.3HostDetail(主机存活状态详细信息)11
2.3.4HostgroupOverview(主机组汇总信息)12
2.3.5HostgroupSummary(主机组摘要信息)12
2.3.6HostgroupGrid(以表格形式显示的主机信息)13
2.3.7ServicegroupOverview(服务分组预览)13
2.3.8ServicegroupSummary(服务分组摘要)13
2.3.9ServicegroupGrip(表格形式显示服务分组)13
2.3.10StatusMap和3-DStatusMap13
2.3.11ServiceProblems15
2.3.12HostProblems15
2.3.13NetworkOutages15
2.3.14ShowHost15
2.3.15ProcessInfo(Nagios进程信息,管理员可见)15
2.3.16PerformanceInfo(执行信息,管理员可见)16
2.3.17SchedulingQueue(队列信息,管理员可见)17
2.4.Reporting18
2.4.1Trends18
2.4.2Avaiability18
2.4.3AlertHistogram19
2.4.4AlertHistory20
2.4.5AlertSummary20
2.4.6EventLog21
3.1.Configuration21
第一章.什么是Nagios
Nagios是一款非常优秀的网络主机管理软件,是一款用于系统和网络监控的应用程序。
它可以在你设定的条件下对主机和服务进行监控,在状态变差和变好的时候给出告警信息。
Nagios更进一步的特征包括:
∙监控网络服务(SMTP、POP3、HTTP、NNTP、PING等);
∙监控主机资源(处理器负荷、磁盘空间、内存占用等);
∙简单地插件设计使得用户可以方便地扩展自己服务的检测方法;
∙并行服务检查机制;
∙具备定义网络分层结构的能力,用"parent"主机定义来表达网络主机间的关系,这种关系可被用来发现和明晰主机宕机或不可达状态;
∙当服务或主机问题产生与解决时将告警发送给联系人(通过EMail、短信、用户定义方式);
∙具备定义事件句柄功能,它可以在主机或服务的事件发生时获取更多问题定位;
∙自动的日志回滚;
∙可以支持并实现对主机的冗余监控;
∙可选的WEB界面用于查看当前的网络状态、通知和故障历史、日志文件等;
第二章Nagios的WEB操作说明
前言
推荐使用Firefox来浏览Naigos的页面,同为开源软件,Firefox与Nagios结合得很不错:
1.Firefox登录Nagios页面后,当监控目标异常时,有声音告警,而且在故障没解决前,始终周期性声音告警,IE没有这个功能。
2.Firefox提供了一个插件nagioschecker,如果安装了这个插件,就不需要时时刻刻登录Nagios了,只要打开Firefox就可以了。
当监控目标出错时,Firefox的插件会自动告警。
见下图
插件安装及设置方法略。
由于帐户权限可能有限,本文中提供的部分功能在部分帐号上无法看到。
2.1.Nagios登录
打开浏览器,输入nagios页面地址,进入Nagios首页,会看到Nagios相关版本和操作选项。
登录页面后,会看到Nagios默认页面的相关信息,左侧显示的是操作按钮选项,右侧是Nagios版本和帮助说明,我们就以Nagios页面中左侧显示的内容为参考,进行本章的划分,如下图所示。
2.2.General选项说明
单击“GeneralHome”会显示默认页面,如上图所示,单击“GeneralDocumentation”显示Nagios版本帮助信息,如下图:
2.3.Monitoring
Monitoring包括的选项如下图左侧所示:
下面针对Monitoring下面的选项的功能做具体的说明。
2.3.1TacticalOverview(总览)
通过上面的介绍,相信对Nagios的登录界面有初步的认识,下面将介绍WEB页面的Monitoring监控选项具体监控操作,需重点掌握。
单击“MonitoringTacticalOverview(基本概况)”,如下图所示:
这个页面上显示了所有主机的状态信息,可以看到停机(down)、不可达(Unreachble)、UP(启动)、等待返回状态(pending)。
同时列出了所有服务的状态信息。
所谓服务并非单纯指狭义上的Windows的系统服务,而是该设备上的进程、资源、系统服务等等的一个统称。
此外,还对主机、服务的各种状态进行了描述。
下图Notification项中可以看到有14个服务是不发布告警信息的,点击红色部分可以看到更详细的主机信息。
这部分监控目标是因为各种原因手工禁止发布告警信息的,并非故障。
∙NetworkOutages:
显示网络中断的统计,如果有中断信息会在下面显示;
∙NetworkHealth:
显示网络健康状况,会列出主机和服务状况,以绿色进度条显示,进度条满格显示代表主机和服务状况正常。
∙Hosts:
down代表宕机;Unreachable代表不可到达;UP代表主机在线,Pending表示该主机刚被纳入监控范围,等待第一次检测结果返回中。
∙Services:
Critical代表紧急告警;Warning代表警告告警;Unknown代表未知告警;Ok代表服务运行正常;Pending代表待定。
∙MonitoringFeatures:
FlapDetection代表抖动检测;Notifications代表告警,上图中看到有14个服务因为各种原因,手工设定不对外发布告警信息;EventHandlers代表事件句柄;ActiveChecks代表主动检测;PassiveChecks代表被动检查;
上面的hosts/services/monitoring等都是超链接,可以直接点击上面的链接跳到你所关心的位置。
2.3.2ServiceDetail(服务详细信息)
单击“MonitoringServiceDetail(服务内容)”,如下图所示:
∙CurrentNetworkStatus:
列出当前网络的状态,上次更新的日期以及登录的用户名称等;
∙HostStatusTotals:
显示主机状态的统计信息,相应的统计信息会在下面列出,具体包括:
UP,DOWN,Unreachable,Pending,AllProblems,AllTypes;可双击相应的选项进入查看。
∙ServiceStatusTotals:
显示服务状态的统计信息,相应的信息会在下面列出;具体包括:
UP,DOWN,Unreachable,Critical,Pending,AllProblems,AllTypes;可双击相应的选项进入查看。
∙ServiceStatusDetailsForAllHosts:
列出所有的主机和服务相关状况的详细信息,包括:
Host,Service,Status,Lastcheck,DurationAttempt,StatusInformation。
如果想查看相关信息,我们可以点击Host或Service列出的主机和服务名称进行查看。
点击上图中Host所列的任意一主机名称如下图所示:
针对图中“HostStateInformation和HostCommands”所列字段信息的说明:
∙HostStatus:
主机存活的状态,UP代表存活,DOWN代表宕机。
∙StatusInformation:
状态信息
∙PerformanceData:
性能数据信息
∙CurrentAttempt:
目前的尝试次数
∙LastCheckTime:
最后检测时间
∙CheckType:
检测类型
∙CheckLatency/Duration:
延时检测/持续检测
∙NextScheduledActiveCheck:
下次计划主动检测时间
∙LastStateChange:
上次状态改变时间
∙Lastnotification:
上次告警时间
∙IsThisHostFlapping:
主机是否抖动,即反复出现故障,或刚从故障中恢复。
∙InScheduledDowntime:
是否计划宕机
∙LastUpdate:
上次更新时间
∙Disableactivechecksofthishost:
不主动检测这台主机
∙Re-schedulethenextcheckofthishost:
下一次计划检测这个主机,选中后可以自定义时间和是否强制检测,提交后执行即生效。
这里默认的检测时间是距当前时间
∙Submitpassivecheckresultforthishost:
为这个主机提交被动检测结果
∙Stopacceptingpassivechecksforthishost:
停止接受被动检测此主机
∙Stopobsessingoverthishost:
停止被困扰的主机
∙Disablenotificationsforthishost:
不显示主机告警通知
∙Sendcustomhostnotification:
发送自定义主机告警
∙Scheduledowntimeforthishost:
为主机提供停机功能,此功能为主机自定义停机时间,维护主机或者割接时常用到此功能,在指定的停机时间内,将不会发出通知;当预定的停机时间到期时,将发出通知些主机。
里面会有起始时间和终止时间,可以选择固定或弹性停机,此功能需重点掌握,比较常用。
∙Disablenotificationsforallservicesonthishost:
本机上的所有服务不启用告警
∙Enablenotificationsforallservicesonthishost:
本机上的所有服务启用告警
∙Scheduleacheckofallservicesonthishost:
计划为本机检测所有的服务,用来排定下次检查所有服务指定的主机,可以强制检查。
∙Disablechecksofallservicesonthishost:
禁用为本机检测所有的服务。
∙Enablechecksofallservicesonthishost:
与上面的相反。
∙Disableeventhandlerforthishost:
用来暂时阻止Nagios主机运行事件处理程序
∙Disableflapdetectionforthishost:
停止本机抖动检测
“ServiceStateInformation和ServiceCommands”的说明同上,只是把Host名称改为Service而已,这里不做特殊说明。
如下图所示:
2.3.3HostDetail(主机存活状态详细信息)
HostDetail显示的是主机详细信息,用ping探测的。
如下图所示:
红色部分是告警的主机,点击Critical可以直接跳到告警主机的详细信息部分。
∙Host:
列出所有的主机名称。
∙Status:
列出所有主机的存活状态。
∙LastCheck:
上次检测时间。
∙Duration:
运行持续时间。
∙StatusInformation:
相关状态信息。
2.3.4HostgroupOverview(主机组汇总信息)
HostgroupOverview为所有的主机按群组显示相关的信息,主机相同的群组显示为一组,如下图所示:
∙Host:
主机名称。
∙Status:
该主机存活状态。
∙Service:
显示服务检测结果。
∙Actions:
下面两个图标
为快捷方式。
2.3.5HostgroupSummary(主机组摘要信息)
HostgroupSummary显示所有的主机群状态摘要,界面显示要比HostgroupOverview简洁。
如下图所示:
∙HostGroup:
列出所有的主机群名称。
∙HostStatusSummary:
主机状态摘要统计。
∙ServiceStatussummary:
服务状态摘要统计。
2.3.6HostgroupGrid(以表格形式显示的主机信息)
HostgroupGrid主机群组以网格的方式显示。
如下图所示:
2.3.7ServicegroupOverview(服务分组预览)
ServicegroupOverview说明同HostgroupOverview,只是将Servicegroup名称变成Hostgroup而已,没有本质区别,具体说明请参考ServicegroupOverview。
我们目前没将服务进行分组,所以关于服务分组的部分全部是空的。
2.3.8ServicegroupSummary(服务分组摘要)
ServicegroupSummary说明同HostgroupSummary。
2.3.9ServicegroupGrip(表格形式显示服务分组)
ServicegroupGrip说明同HostgroupGrip。
2.3.10StatusMap和3-DStatusMap
StatusMap以3D的形势显示的图形,如下图可以看到网络拓扑结构,一半主机与nagios主机同子网,另一半主机需要nagios穿越BJ-254网关访问。
这个图形需要在windows计算机上安装cortbeta才能显示出来。
这个图标看起来实在没法用,可以自定义,让它看起来更清晰。
3-D图形的界面同样看起来很难受,尤其管理员可以看到全部主机的情况下更杂乱无章。
这个东西也不是一无是处,至少firefox插件告警的功能是必须依赖它的。
2.3.11ServiceProblems
ServiceProblems主机上的所有服务告警信息,包括不可到达的所有服务信息,如下图所示:
上图所述的字段前文都有说明,这里不做解释。
2.3.12HostProblems
HostProblems主机存活告警信息,同上。
2.3.13NetworkOutages
NetworkOutages显示网络中断的信息。
2.3.14ShowHost
ShowHost可进行相关主机的搜索。
2.3.15ProcessInfo(Nagios进程信息,管理员可见)
ProcessInfo进程信息中显示进程的状态和进程命令,如下图所示:
∙ShutdowntheNagiosprocess:
关闭Nagios的进程,此命令是用来关闭Nagios进程。
请注意:
一旦Nagios已关机,无法通过网络接口启动!
∙RestarttheNagiosprocess:
重新启动Nagios进程。
∙Disablenotifications:
不显示告警信息。
此命令是用来关闭所有的范围内的主机和服务告警信息。
∙Stopexecutingservicechecks:
停止执行服务检查。
∙Stopacceptingpassiveservicechecks:
停止接受被动服务检查。
∙Stopexecutinghostchecks:
停止执行主机检查。
∙Stopacceptingpassivehostchecks:
停止接受被动主机检查。
∙Disableeventhandlers:
不显示事件句柄。
∙Startobsessingoverservices:
开始执行服务检查。
∙Startobsessingoverhosts:
开始执行主机的检查。
∙Disableflapdetection:
不显示抖动检测。
∙Enableperformancedata。
启用性能数据
2.3.16PerformanceInfo(执行信息,管理员可见)
PerformanceInfo显示计划的性能信息,包括主机的主动检测和被动检测;服务的主动检测和被动检测;检查统计;缓冲区使用状况。
如下图所示:
2.3.17SchedulingQueue(队列信息,管理员可见)
SchedulingQueue显示高度队列信息,也就是相关进程下次检测的时间序列。
如下图所示:
2.4.Reporting
2.4.1Trends
生成报告的趋势,可以按主机或服务来生成,共分为三个步骤:
1.选择主机或服务名称;
2.选择主机或者服务的具体名称;
3.选择报告选项,此选项包括报告的起始和结束时间,初使化状态等;
如下图所示:
单击图形中的区域可进行放大缩小等相关操作。
目前的图形只做出了框图,以不同颜色标识服务或主机的状态,还需要一些工作量才能显示曲线图。
2.4.2Avaiability
Avaiability此功能生成的报告要比Trends可供选择的种类多些,除了Trends可供选择的功能之外,还包括:
对所有主机生成报告对所有服务生成报告对Hostgroups和Servicegroups生成报告,下图是对主机和服务生成的报告:
2.4.3AlertHistogram
AlertHistogram以告警直方图方式显示,其功能类似Trends选项的功能,只是直方图的方式显示相关的信息,如下图所示:
2.4.4AlertHistory
AlertHistory是显示历史告警的信息,可以针对具体告警信息进行过滤,如下图所示:
2.4.5AlertSummary
AlertSummary是显示相关的告警摘要的信息,可以针对主机,服务,主机群和服务群进行查询,也可以进行跨区域的查询,比如:
最近24小时,最近七天,最近一个月等的查询。
Notifications
Notifications选项是查询当天的告警和恢复告警的信息,也可以按向左的前头查询上一天或更早的告警信息。
如下图所示:
2.4.6EventLog
EventLog是按每小时显示Nagios的日志信息,显示有些类似与AlterHistory。
如下图所示:
3.1.Configuration
3.1.1ViewConfig
ViewConfig是显示Nagios视图配置查询,具体功能选项包括:
主机,主机依赖,服务,服务依赖,主机群组,服务群组,联系人群组等,ViewConfig的选项比较多,在此不一一列举,只选择其中的一项做为截图,有兴趣的可以直接选择其它的选项进行查看,顺便提醒一下:
里面有个比较好的功能,可以当通讯录来使用,比较直观,易懂。
如下图所示: