IT运维管理解决方案Word文档格式.docx
《IT运维管理解决方案Word文档格式.docx》由会员分享,可在线阅读,更多相关《IT运维管理解决方案Word文档格式.docx(36页珍藏版)》请在冰点文库上搜索。
操作审计子系统:
操作审计子系统主要功能是统一管理网络设备、服务器、数据库等资源账号并合理授权,为运维人员提供统一的操作入口并记录操作行为,为“人机”运维操作提供安全的港湾,最大限度满足内控要求,防范操作风险。
流程管理子系统:
流程管理子系统的目的是通过规范服务流程和技术服务工作,建立一套标准的运维服务流程,遵循事件管理、问题管理、变更管理、配置管理、发布管理等ITIL最佳实践,实现IT运维服务的流程化、规范化管理。
通过完善知识库建设,实现知识共享,从而提高信息服务效率,提升用户的满意度。
集成展现子系统:
集成展现子系统包括了统一运维门户、报表平台、权限管理等主要模块,目的是保证平台不同角色的运维人员可以通过浏览器访问到跟自身职责对应的功能和视图,是信息的集中呈现窗口和日常工作的平台。
2.4产品概述
BroadviewV6.0是一个综合性的、全方位的运维管理解决方案,不仅能够对IT基础设施进行全面监控管理,同时更能协助企业建立完整的、以业务价值为核心的IT综合管理平台。
它以CMDB为核心,以网络、服务器、应用的监控为基础,操作行为审计为安全准绳,上层整合了完全符合ITIL的服务台,事件管理、问题管理、变更管理、知识库等流程,从而使IT管理从日常的运营监控、统计分析、发现问题、解决问题向流程化管理转型。
平台是IT运维解决方案中的佼佼者,在快速落地上与国内外同类产品相比,具有明显的优势:
高度模块化:
平台采用了分层、模块化的设计技术,模块与模块、层与层之间松散耦合。
它具有三方面优势:
一是模块之间的松散耦合使其具备反应灵活快捷、适应能力强的特点;
二是模块内部实现了优化整合,能够高效率地完成本模块各项功能;
三是企业可以按需购买业务模块构建适合企业自身情况的运维平台,最大化保证投资收益。
零编码配置:
目前市场上几乎所有国外同类产品都是重量级的,使用起来既复杂又难整合,数据难以在各个系统之间交互。
针对这些产品的诸多问题,Broadview在设计之初就引入了灵活性、轻量级的架构设计思想,不求面面俱到,以满足大多数日常运维工作为原则,实现了日常IT运维业务核心业务功能模块,绝大多数情况下“零编码”即可完成客户个性化。
开放性:
系统可以融合第三方网管系统的资源信息、监控信息、告警信息以及机房环境监控信息等,再通过系统提供的分析处理引擎统一处理、可视化工具统一集中展现。
第三方系统只需将要集成的数据依据规范写入信息总线,信息总线再根据数据的类别推送到不同的业务模块进行加工即可。
支持二次开发:
利用系统提供的灵活的开放API接口,用户可扩展开发所需的功能。
一般情况下利用系统提供的图形化工具编写脚本或规则即可,如IT事件关联分析、工单流转规则定义等。
对于复杂的业务,可以利用系统提供的SDK包进行扩充。
支持大规模网络:
针对大规模行政机构、金融单位、企业的区域性、纵向性特征,系统支持提供了贴合实际应用的多级管理方案,从而使得在管理上可以做到分级管理和集中管理的有机统一。
第3章功能特点
3.1集中监控子系统
集中监控子系统主要由网络监控模块、系统与应用监控模块、统一事件平台模块、统一性能管理模块、性能管理数据库PMDB以及监控可视化平台组成;
实现了对用户IT生产环境基础设施的监控,包括:
网络设备、业务服务器、存储设备、数据库系统、中间件系统、安全设备、业务应用系统等。
同时支持与第三方系统(如机房动力环境系统、第三方网管系统)集成,集成方式包括数据集成和界面集成。
逻辑架构如下:
图2.集中监控子系统逻辑架构
3.1.1资源深度监控
系统可监测并管理常见的网络设备、服务器、数据库、中间件、通用服务、虚拟化平台等IT资源,支持SNMP、CLI(Telnet、SSH)、WMI、JMX、CORBA等远程非代理监测和Agent代理监测(即需要在目标设备上安装部署代理程序)两种手段结合,从而实现对IT环境的7x24不间断监测。
图3.全面的资源监控管理
系统提供了强大的监测插件体系,可不断扩展系统的监测范围和内容。
监测插件之间相互独立,互不影响,可保证整个监测体系的稳定运行。
系统也提供了通用监测器编写界面,允许用户通过编写shell或者groovy脚本满足个性化监测指标的需求。
3.1.2分布式部署、集中监控管理
在分布式部署模式下,集中管理服务器把集中化采集指标配置下发采集任务至探针,完成分管区域的数据收集处理,从而有效地减轻了集中管理服务器的负载,尤其适合有物理隔离的大型数据中心或分布在不同地理位置的大型行业客户。
探针自带了存储功能,在网络临时中断或服务端临时关闭的情况下,探针会临时保存监测数据,待网络和服务端恢复后再向服务端传输数据,保证监测数据的完整性。
探针支持在常见的操作系统下如Windows、类Unix下运行,并以服务方式自动启动,当采集探针由于某些原因无法正确运行时,探针会自动重启并迅速执行监测任务,保证监测数据的连续性。
图4.分布式采集示意图
3.1.3统一事件处理
利用实时数据总线和高速事件处理算法,系统每分钟能处理几千条IT事件,事件经过标准化、过滤、归并、关联分析、丰富等过程最后形成准确的告警信息。
当网络发生故障风暴时,系统提供了队列机制保证事件处理高效稳定,满足大型网络的实时告警监视的需要。
对于有一定技术能力的运维技术人员,可利用系统提供的事件规则处理语言,以实现更灵活的事件处理规则及扩展。
通过告警的规则定义的可视化界面,帮助技术人员优化统一事件平台告警处理规则,提高告警的自动化识别和关联分析能力。
图5.事件分析处理原理
3.1.4Web告警控制台
大量的事件经过处理,形成了最终需用户关注的告警,直观的呈现在告警台上,随后可对告警进行生命周期管理。
在告警台上,可对告警进行确认、清除、删除或者派发工单操作,可查看告警资源当前的性能情况,分析故障根源,并利用CMDB关系对故障影响做初步判断,还可查看告警资源历史故障及工单派发、短信通知情况。
独特的告警导航,可即时显示当前告警分类是否有新的未处理告警,帮助运维人员运筹帷幄,掌控全局。
图6.告警控制台
3.1.5监控可视化平台
系统提供了电信级的数据中心可视化利器——灵动可视化平台,它具备实时响应、快速设计、所见即所得的特点,可用来直观展现业务、网络、机房、机房环境等多种视图,方便管理员实时掌握整体运行情况。
此外,还可以利用其独具特色的幻灯片功能,把各类视图投影在网络运营中心大屏上。
图7.机房视图
图8.网络视图
图9.业务视图
图10.地理视图
图11.运营中心大屏显示
3.1.6多样化告警通知
系统对企业IT环境实施全天候的实时监测,一旦发现运行故障或者监测指标超过预定的告警阈值时,系统就会根据预先配置的动作策略内的告警通知方式立即通知运维人员,通知方式包括触发紧急事件工单、声音告警、邮件通知、短信通知等。
3.2资产配置子系统
资产配置子系统(CMDB)是衔接技术与管理的关键数据整合层。
首先把生产环境中的各类硬件、软件、数据库、网络、业务、文档、虚拟资源等分门别类并建立好相应的数据模型,再通过配置采集接口完成CMDB数据的初始化,包括从集中监控子系统进行数据同步、手工录入、第三方数据同步等多种手段结合。
由于来自于各个采集接口的数据存在不一致的情况,还必须在CMDB内部对同一资源进行唯一性识别并建立调和规则。
CMDB初始化完成后,即进入维护阶段,可利用关系可视化工具查看配置项关系,并对日常配置项变更进行控制。
其逻辑架构如下:
图12.CMDB逻辑架构
3.2.1内置CMDB模型
“罗马不是一天建成的”,考虑到实施CMDB项目的复杂性,Broadview提供了构建CMDB的最佳实践模型,模型遵循DMTF的规范指南,契合国内信息化领先的电信资源管理规范、公安部考核资源分类规范、人民银行、人社部资源管理规范、北京市经信委配置管理规范,对国内运维管理有极强的针对性和适应性,在电信、金融、证券、能源、政府、平安城市等领域有广泛的应用。
可帮助用户敏捷快速落地CMDB建设,有效缩短时间周期。
图13.配置模型示意图
3.2.2业务建模、按需扩展
CMDB采用了面向对象的建模思想,提供配置项的类别、属性、关系、字典以及表单的继承和派生,并支持通过建立和应用规则来触发管理动作,扩展管理行为,如某些配置项发生变更时,可根据规则定义是否生成新的配置项版本等。
在本系统中关系也被抽象为配置项类别,允许在内置关系类型基础上按需扩展。
CMDB建模过程相当容易,全面操作都是基于可视化的界面,最大限度的适应不断变化的IT环境和管理要求。
图14.CMDB模型管理
3.2.3数据联邦调和
配置项的调和能力是CMDB能否成功实施的关键因素,系统通过把各类来自发现工具、网管工具、资产工具等不同来源的数据进行合并,建立面向运维流程的“单一参照源”。
通常配置项调和包含了配置项唯一性识别、配置项比对、配置项合并几个关键活动。
图15.CMDB配置项调和
配置项联邦是指CMDB只存储配置项的核心数据,而其他不关键的依然数据存储在外部数据库,只保留CMDB核心数据跟外部数据源的映射关系。
最常见的联邦方式如引用外部链接,例如在本系统中可以通过CMDB的联邦功能链接到对应的拓扑视图。
图16.联邦拓扑展现
3.2.4配置变更控制
系统提供了多样化的CMDB配置变更管理方法,在管理的便捷性和严谨性之间取得了很好的平衡。
系统对配置项的变更审核模式有三种:
一种是走配置变更流程的审核方式,一种是简单审核模式、还有一种是通过设定规则自动审核。
三种方式适合不同的场景。
对于核心业务的配置项信息,可以选择走配置变更流程的审核方式,管理员用户选中变更区中的待审核配置项记录后,系统自动生成配置变更工单,工单审批通过后,系统自动执行审核操作。
对于简单审核模式,就是由具有配置项审核权限的管理员用户选中变更区中的待审核配置项记录后,执行配置审核操作。
系统自动记录下配置审核的操作记录(如审核时间、审核人等)。
该种审核方式比较适用于非核心业务的配置项信息。
对于设定规则自动审核模式,适用于变更频繁但不重要的配置信息,可保证数据准确性和合法性的基础上,大幅减少了人工审核的工作量。
图17.配置项变更审核
3.2.5资产配置可视化浏览器
CMDB的可视化是极其重要的功能,系统提供了集编辑和展现一体的纯web化的CI浏览器,独特的“画布”功能,不仅能够帮助用户全面直观地查看配置项之间的关系,还能通过连线操作、所见即所得维护配置项之间的关系。
“画布”也支持完全的定制化,可通过勾选关系类型、显示层次数、切换布局模式、隐藏等实用功能过滤不必要的CI,方便得到更精简的视图。
图18.CI浏览器界面
3.2.6分区化、独立管理模式支持
CMDB也支持对配置项进行分区化管理,可对CMDB建立不同的管理域,为地域跨度较大、各分支机构有自治管理诉求的企业或组织提供了便捷的解决方案。
使用一个平台即可实现资产配置数据大集中,既满足了上级对下级的管理要求,又不失管理上的灵活性。
图19.CMDB分区管理
3.2.7高性能、大容量系统设计
BroadviewV6.0对CMDB进行了大量的设计优化,在功能的全面性、用户体验以及性能吞吐、容量方面相比竞争者具备明显的优势,目前CMDB可支持40用户并发数情况下管理30万配置项的能力,单条数据查询调用达到毫秒级,绝大部分界面操作从发起到呈现小于3秒。
3.3操作审计子系统
操作审计子系统主要是为数据中心建立全面的IT基础设施内控操作审计体系。
包含了四方面的内容:
第一、变分散管理为集中管理。
根据现有数据中心运维工具种类多、运维人员不集中、区域分散、跨网络等特点,采用操作审计子系统实现对众多运维工具、多类客户端程序的统一安装部署与集中管理。
第二、统一身份认证,解决事前主动防御。
通过多种身份认证方式保证所有运维人员通过一个统一的运维入口进行操作。
第三、操作过程监控,解决事中操作安全问题。
运维操作会话过程中审计员可实时监控非法操作,可设置策略自动阻断或手动强制“切断”结束非法会话。
第四、操作日志审计,解决事后安全取证问题。
图20.操作审计子系统逻辑架构
3.3.1统一身份认证、账号管理
操作审计子系统建立了基于每位自然人对应一个主账号的身份管理体系,“自然人——账号”对应模型能将审计日志与操作人员准确关联。
系统内置了六大类角色,通过用户角色的划分,避免了权限过分集中以及由此引起的安全隐患的集中,也使安全审计的管理更加合规、合理、可行。
角色
功能权限
超级用户
最高权限用户角色,可进行所有系统配置、用户管理、权限授权以及操作审计等
权限管理员
拥有用户管理、授权管理权限,能够添加删除用户,能完成用户/用户组、设备/设备组关联授权。
资产管理员
拥有资产添加编辑权限,包括添加、编辑、删除权限。
审计管理员
拥有审计权限,能够审计所有用户运维操作结果。
密码管理员
拥有账号密码管理权限,只有密码管理员才能管理账号密码。
普通用户
拥有访问被授权管理设备权限和自身信息修改及自身密码修改权限。
操作审计子系统支持资源账号的集中管理和分散管理模式。
对任意资产,可以使用任意一种管理模式,或两种模式的组合,提供了极大的管理灵活性。
无论是账号集中管理还是分散管理模式,当用户登录目标资产时,在系统内部统一采用单点登录方式。
这种方式统一了用户的使用场景,简化了系统复杂度。
3.3.2一键运维
当需要对数据中心的某个设备进行运维操作时,传统的方法是利用远程工具登录到目标设备,输入账号和密码,再使用图形界面或字符命令操作,步骤繁琐需记忆大量设备的账号信息,费时又费力。
而在本系统中,可直接在B/S浏览器中发起对目标设备的操作,不再需要记忆任何账号信息,对设备密码和操作权限得到了有效控制。
图21.一键运维
3.3.3操作日志审计
系统可支持利用关键字定位、关键命令与审计录像关联回放,实现运维操作过程的快速定位、精确跟踪以及过程重现,一目了然了解谁在什么时间使用哪个终端登录过哪台设备,做过什么,结果如何。
有助于审计人员对非法运维操作节点的排查及故障责任的追溯。
图22.操作日志审计
3.4流程管理子系统
流程管理子系统是日常IT运维工作及对外服务接口的平台,它遵循ITIL管理框架,提供可视化的BPM流程引擎,实现流程定义、流程相关角色权限和流程跟踪控制、审计与统计以及流程关联等功能。
系统基于流程引擎内置了ITIL事件、问题、变更、发布、配置等几大流程,并涵盖了巡检作业、运行值班、值班日志等实用功能。
图23.流程管理子系统逻辑架构
3.4.1内置ITIL核心流程
利用内置的服务台、事件、问题、变更、发布、作业、知识库等流程和模块,实现开箱即用,大大缩短了流程建设周期。
流程之间既保持相对独立性又可以相互联动,如工单可自动匹配知识,事件可升级到问题、触发变更,解决方案可一键转化为知识操作等。
用户只需按照自身情况对流程做少许调整,便可实现日常运维工作的流程化、规范化管理,提升服务质量和效率。
图24.自助服务台与值班服务台
图25.内置ITIL流程及相互关系简图
3.4.2BPM流程引擎
在内置标准流程的基础上,系统还提供了BPM流程引擎供用户进行“随需而变”的业务流程设计,满足个性化的业务流程需求。
BPM业务流程引擎符合WFMC国际标准,完全通过Web可视化设计界面,实现流程、表单、数据字典快速建模。
拖拽式的流程设计功能,可实现流程跳转、流程环节的执行人、流程环节的执行优先级等定义,协调组成工作流的四大元素,即人员、资源、事件、状态,推动流程的发生、发展、完成,实现全过程监控。
同时,BPM引擎提供了灵活的触发器设置,可以将流程管理中的各类事件与期望处理的动作自动关联,完成系统中自动协调控制需求。
图26.BPM流程管理界面
3.4.3值班和值班日志管理
根据国内运维习惯,系统提供了日历化值班表、多班次排班、值班日志管理等多项实用业务功能,并与自助服务台、值班服务台进行充分结合。
有效的值班管理可保证服务连续不间断,有助于运维团队人力资源合理配置,做到各项工作权责明晰,有迹可循。
图27.值班日志管理
图28.值班表日历
3.4.4知识库管理
系统为IT运维服务提供了强大的知识支撑体系,可通过关键字、列表等方式进行知识的快速定位。
支持知识分类、创建、审核、修改等操作,不同类别的知识也支持控制阅读权限。
知识库还支持上传Word、Excel、Text等多种格式的文档附件,附件内容也可利用关键字检索。
图29.知识库管理
3.4.5智能表单
日常运维过程中,需要记录大量的过程数据和维护信息,系统提供了智能化的表单录入体验,大部分录入操作通过鼠标即可完成,告别大量的对话框、复杂的数据查询界面。
图30.智能化表单录入体验
3.5集成展现子系统
集成展现子系统是运维管理的人机交互接口,它充分借鉴了Web2.0思想,大量利用数据推送技术,主动向不同角色的运维人员提供友好的、有用的信息,界面简单,操作方便。
只要通过单点登录后,就可以将角色所需的信息或视图呈现到运维人员的浏览器上。
它还集成了全文检索功能,方便查询平台使用过程中产生的各类运维数据。
图31.集成展现示意图
3.5.1统一访问门户
统一访问门户为用户提供了各种小部件构成的集中管理界面。
通过与其他子系统的集成,将监控、资产和管理流程等信息在门户中进行统一展示,使各项IT运维服务工作通过统一管理门户得到有序处理。
门户整合了各子系统单点登陆、权限管理以及访问日志管理等功能。
图32.统一访问门户
3.5.2“三权分立”机制
系统内置了管理员、安全员、审计员三种角色,实现了管理上的“三权分立”。
每个角色负责不同的管理工作,彼此牵制。
如管理员主要负责本域内部门、用户的维护,以及资源和管理域的关联关系的维护;
安全员主要负责角色创建、角色分配等工作;
审计员负责安全相关的工作,主要是与用户权限相关的审计。
图33.三权分立
3.5.3访问权限控制
系统将权限分为操作权限和资源权限两种。
操作权限包括对表单数据的增加、删除、修改、查询、审核等,资源权限包括被管设备或资源分组、监控视图分组、报表分组等。
通过操作权限和资源权限的有机组合及授权,可以实现对用户权限的细颗粒度的控制。
图34.细粒度的权限控制
图35.角色授权
3.5.4报表设计平台
在分层化思想的指引下,系统把日常运维数据与用于统计分析的数据分开存储,运维数据经过抽取、转换、装载后被存入数据仓库,使得各业务模块专注于业务处理,这种机制降低了在大规模网络条件下对监控系统的影响,提升了整个系统的稳定性。
系统内置灵活易用的报表设计器,利用数据仓库作为报表开发的数据源。
它采用了类Excel的操作界面,支持HTML、PDF、EXCEL、WORD、TXT、FLASH各种样式呈现。
只需通过简单的鼠标拖放,便可利用精巧的数据绑定功能,完成各种样式报表的量身定制。
图36.报表设计工具
3.5.5全文搜索
全文检索为运维过程中产生的大量数据提供了集中的查询入口,包括了工单、知识库、配置项等重要数据。
类搜索引擎的界面设计,跟传统搜索引擎完全一样的使用体验,不需要任何学习即可掌握。
图37.全文检索
第4章应用部署与系统环境
4.1.1系统部署方案
Broadview运维管理平台通过监控和运维管理模式的灵活组合,适应不同规模的管理需求。
“集中式监控、集中式运维管理”适用于中小规模数据中心管理或单一管理范围的用户,“分布式监控、集中运维管理”适用于较大规模的企业信息部门,满足各分中心自治管理需求,“分级监控、分级运维的级联管理”适用于大规模、跨地域的企事业,满足层次管理、统一运维体系的管理需求。
图38.集中式监控、集中式运维管理
图39.分布式监控、集中运维管理
图40.分级监控、分级运维的级联管理
4.1.2系统环境要求
监控服务器
服务端
最低配置:
1.CPU2.0GHZ双核以上;
2.4G内存以上;
3.至少200G空闲硬盘空间,RAID5;
4.1000M以太网卡。
建议配置:
1.CPU2.0GHZ四核以上;
2.8G内存以上;
3.至少400G空闲硬盘(含DB),RAID5;
4.至少1000M以太网卡X2;
注:
具体的配置和客户的网络范围和负载有关,以实际容量规划为准。
推荐采用Windows2008StandardServerX86/X64操作系统。
采集探针
1.CPU2.0GHZ;
2.2G内存以上;
3.50G以上空闲硬盘空间;
4.100M以太网卡,建议1000M以上。
5.推荐采用Windows2008StandardServerX86/X64操作系统。
网络环境要求:
1.采集探针所在的服务器必须能主动发起与服务端HTTP-8899(默认情况)端口的访问连接,并能正常传输