linux运维操作规范Word文件下载.docx
《linux运维操作规范Word文件下载.docx》由会员分享,可在线阅读,更多相关《linux运维操作规范Word文件下载.docx(7页珍藏版)》请在冰点文库上搜索。
![linux运维操作规范Word文件下载.docx](https://file1.bingdoc.com/fileroot1/2023-5/7/fb0bf597-cb71-4ac1-b3ee-883921242eeb/fb0bf597-cb71-4ac1-b3ee-883921242eeb1.gif)
发现故障时间.故障具体状况
处理过程总结故障原因及预防方法.
灾备
1、建立灾备方案
2、定期检查灾备服务器状况保证其100%可用性.
3、定期做灾备演习以应付突发情况
日常管理
1、建立管理及使用文档.
2、及时更新相关管理文档.
3、坚持专机专用理念.
4、及时的补丁更新及漏洞封堵措施
篇二:
linux运维手册
中信国际系统巡检表
报告周期:
报告提供:
提交人员:
提交时间:
文档版本页
修改记录
1.填报信息
事件等级划分附录:
2.事件管理
2.1.待处理事件记录
2.2.本日事件记录
3.操作日志
4.巡视、维护内容
4.1.linux操作系统
5.1.1系统信息检查
查看命令及结果:
1.用uname–a来查看操作系统版本
2.用hostname查看主机名
3.主机网络配置:
ifconfig–a
4.用date查看主机日期时间
5.用java–version查看java版本
篇三:
linux系统运维的重要原则和方法详解
linux系统运维的重要原则和方法详解企业linux系统的运维成为目前企业关注的重点。
作为一种优秀的开源网络操作系统,如何充分利用linux的工具并使用相应的方法来提高运维效率是非常重要的工作。
在第一篇文章中,我们介绍了运维相关的4个应用工具的使用和实战,本文作为该专题的第二篇文章,将着重介绍运维过程中的重要原则和方法,包括如何避免产生问题以及如何解决系统问题的内容,以为企业linux的实际运维提供有益参考。
needtoknowi:
系统管理员与系统用户增强沟通作为一个系统管理员的主要职责之一是与系统用户通信。
当为维修系统而停机时,当上线一类新软件以及发布用户如何访问新的系统打印机时,需要发布公告。
甚至可以开始充当一个地方小报的角色,让用户知道新员工、RiF、生日、公司野餐信息等。
不同的通信有不同的侧重点。
例如,在两个月内的公司野餐的信息与将在五分钟内关闭系统的消息的敏感度是不一样的。
为了满足这些不同的需求,linux提供了不同的通信方式。
下面的列表描述和对比了最常用的方法。
这些方法通常会提供给所有用户,除了当天消息通常只为具有root权限的用户保留外。
有如下工具(实用程序)可以增强系统管理员与系统用户的通信和沟通。
write:
使用write实用程序可以与在本地系统上登录的用户进行通信。
例如,可以使用它来要求用户停止运行拖慢系统的程序,该用户可能会回复说:
他将在三分钟内完成。
用户还可以使用write来要求系统管理员挂载磁带或恢复文件。
write发送的消息可能不会出现在图形环境中。
im:
empathyim(internet消息;
live.gnome.org/empathy)实用程序使用googletalk、msn、iRc、aim、Facebook、雅虎、icq以及其它协议,支持文本、语音、视频聊天和文件传输。
使用时,可点击主菜单:
applicationsinternetempathyinternetmessaging。
常见于许多工作场所,im可以用它来联系Redhat支持。
wall:
wall(writeall
)实用程序可以有效地与所有登录用户即时通信。
此实用程序从标准输入获得输入,工作方式很像write,只不过用户不能使用wall来只写回你一个人。
当要关闭系统或在其它危机情况下,可使用wall。
没有登录的用户将无法得到消息。
只有在危机情况下才可以使用root权限的用户身份运行wall;
它会中断任何人在做的任何工作。
wall发送的消息可能不会出现在图形环境中。
email:
电子邮件用于与一个或多个系统和/或远程用户进行不太紧急的通信。
发送邮件后,你必须愿意等待每个用户来阅读它。
电子邮件可用于提醒忘了注销的用户,他们的帐单已逾期,或他们使用了太多的
磁盘空间。
与通过write收到的消息相反,用户可以轻松地永久存储通过电子邮件接收的消息记录,因此他们可以随时跟踪重要的细节。
举例来说,使用电子邮件告知用户一个新的复杂操作过程,以便每个用户都可以保留一份信息副本,以供参考。
当日消息:
用户每次在文本环境中登录时会看到当日消息,而当他们打开终端仿真器窗口时则不会看到。
必要时,可以编辑/etc/motd文件以更改此消息。
当日消息可以提醒用户将要进行的定期保养、新的系统功能或程序的更新信息。
needtoknowii:
运维过程中可能产生的问题即使是经验丰富的系统管理员也会犯错误,当然新的系统管理员犯的错误会更多。
虽然可以通过细心阅读以及遵循软件文档的指示来降低出问题的可能性,但很多事情仍然会出问题。
一个列表不管多长,都不可能是全面的,因为每天都会产生新的问题。
本节将介绍一些常见技能,以避免问题的出现。
第一,执行定期备份:
对一个系统管理员来说,没有什么比永远丢失重要信息更痛苦。
如果本地系统支持多用户,有最近的备份可能是防止公共谴责的唯一保障。
如果是单用户系统,当丢失一块硬盘或误删文件时,有最近的备份也肯定使你快乐。
第二,阅读和遵循指示:
软件开发人员提供了文档。
即使已经安装了软件包,也要再次仔细阅读说明书。
它们可能已有所改变,或者你可能记得不对。
软件更改比书的修订更快速,因此没有任何说明书可以做到万无一失。
所以,需要寻找最新的在线文档进行参考。
/usr/share/doc目录中有许多实用程序、库和软件包的相关信息。
当指示不明确时,需要寻求帮助:
如果指示似乎不明确,尝试找到明确的指示。
最后,在关键文件中删除或误输信息:
一个肯定会给自己带来恶梦的方式是执行命令。
也许没有其它命令会使linux系统无用的如此之快。
唯一的办法是从安装介质启动以恢复已安装的系统,并从最近的备份中恢复丢失的文件。
虽然这个例子描述的是一个极端的情况,许多文件都是系统正常运作的关键。
删除这些文件之一或在其中的文件中误输信息,都几乎可以肯定会造成问题。
例如如果直接编辑/etc/passwd文件,在某个字段中输入错误信息会导致一个或多个用户无法登录。
此外,不要在rm–rf中使用包含通配符的参数,输入命令后要暂停一下并阅读它,然后才按回车键。
仔细检查所做的一切,在对关键文件进行编辑之前一定要为其制作一份副本。
尤其值得注意:
rm与通配符一起使用时要小心。
当必须在rm命令中使用包含通配符的参数(如*)时,指定i选项以使rm在删除每个文件之前进行提示。
或者,可以以相同的参数使用echo命令,以查看哪些文件将被删除。
当使用root权限时,这种检查就显得尤为重要。
方法:
运维过程中的实际问题解决方法系统管理员的责任是保持系统安全和顺利运行。
当用户遇到问题时,通常会找管理员帮助其回到正轨。
本节建议的方法可以保持用户满意度和系统最佳性能。
“十步法”为用户解决无法登录问题当用户无法在系统上登录时,根源可能是用户错误或系统的软硬件故障。
下面的十个步骤可以帮助确定问题所在。
第一步:
检查/var/log中的日志文件。
/var/log/messages文件收集系统错误、来自守护进程的消息以及其它重要信息。
它可能会表明问题的原因或更多症状。
另外,检查系统控制台。
有时系统问题相关的消息不写入/var/log/messages中(例如一个完整的磁盘),而是显示在系统控制台上。
第二步:
确定是否只有一个用户或一个用户的终端/工作站有问题或者是否问题更广。
第三步:
确定该用户没有打开其capslock键。
第四步:
确保该用户的主目录存在,并且在/etc/passwd文件中有对应于该用户的条目。
验证该用户拥有其主目录和启动文件,并且它们是可读的(而且该用户对其主目录有可执行权限的情况下)。
确认在/etc/passwd中的该用户登录shell条目是准确的,并且存在指定的shell。
第五步:
如果用户忘记了自己的密码,则更改该用户的密码。
第六步:
检查该用户的启动文件(.profile、.login、.bashrc等)。
该用户可能已对这些文件之一进行了编辑,并引入了禁止登录的语法错误。
第七步:
检查终端或终端与计算机之间的数据线。
尝试关闭终端或显示器,然后再重新打开。
第八步:
当问题似乎比较广时,检查能否从系统控制台登录。
确保系统未在单用户模式。
如果无法登录,系统可能已崩溃,需要重新启动它,并执行任何必要的恢复步骤。
第九步:
使用df来检查整个文件系统。
如果/tmp文件系统或该用户的主目录已满,登录有时会以意想不到的方式失败。
在某些情况下,可能能够登录到文本环境,但不能登录到图形环境。
用户登录时启动的应用程序无法创建临时文件,或无法更新用户主目录中的文件时,登录过程本身可能会终止。
第十步:
如果用户通过网络连接登录,需要重新启动该用户尝试使用的服务(例如ssh)。
并请确保两个系统上的时钟是同步的。
当使用https、ssh、ldap尤其是kerberos等加密登录方法时,时钟设置的时间不同可能会导致登录失败。
还要请确保dns正常工作。
一些网络服务与名称解析的相关性比较强,包括反向查找(即名称解析问题会导致拖慢通过ssh的连接)。
加快系统运行速度当系统由于不明原因运行缓慢时,也许是用户注销时没有关闭进程。
此问题的表现包括很长的响应时间和很大的系统负荷,如使用w或uptime所示的数据大于1.0。
最好运行top以迅速找到流氓进程。
使用ps–ef可列出所有进程。
在ps–ef输出中要找的内容是大量的time列。
例如,如果Firefox进程的time字段超过100.0,这一进程有可能运行不正常。
然而,如果该用户正在执行大量的java工作,并且已经登录很长时间,这个值就可能是正常的。
检查stime字段以查看该进程启动的时间。
如果该进程的运行时间比用户登录在线的时间还长,最好终止它。
当用户遇到问题,并在没有通知任何人的情况下离开无人值守的终端时,最好终止该用户拥有的所有进程。
如果用户在控制台上运行gui,终止启动桌面环境的进程或窗口管理器本身。
还要继续查找包括gnome-session、startkde或其它以wm结尾的进程名。
通常窗口管理器既是第一个也是最后一个要运行的进程,并在用户注销时退出。
如果终止窗口管理器不起作用,可尝试终止x服务器进程,这个进程通常列为/usr/bin/xorg。
如果上述操作失败,当以该用户身份登录时,通过执行kill–15–1命令或等效的kill–teRm–1命令,可以终止用户拥有的所有进程。
使用–1替换进程id以告诉kill来给该用户拥有的所有进程发送信号。
例如,作为root可以输入以下命令:
#suzach-ckill-teRm-1如果不能终止所有进程(有时teRm无法终止进程),可以使用kill信号(–9)。
下面这行一定会终止zach拥有的所有进程,但不太友好:
#suzach-ckill-kill-1如果不包含suzach–c,这个命令将关闭系统。
掌握和查找打开的文件
lsof(列出打开的文件)实用程序会显示打开的文件名。
其选项仅显示某些进程,只有一个进程的某些文件描述符,或只有某些网络连接(网络连接使用文件描述符,就像普通文件一样,lsof也显示这些)。
使用ps–ef确定了可疑进程后,输入以下命令:
#lsof-s-ppid用可疑进程的进程id替换pid,lsof会显示pid进程打开的文件描述符列表。
–s选项显示所有打开文件的大小,–p选项则允许指定感兴趣的进程pid号(如果组合这些选项,则lsof不会运行)。
文件大小信息用于确定该进程是否打开了一个非常大的文件。
如果是这样,需要联系该进程的所有者,或者在必要情况下终止该进程。
–rn选项表示每n秒重新显示一次lsof的输出。
保留机器日志以备审计机器日志包含如表1所示的信息,可以帮助查找和修复系统问题。
它用于记录日志中每个条目的日期和时间。
避免仅把日志保留在计算机上,当系统关闭时,这将是最有用的。
同时保留详细描述用户问题的电子邮件。
一种策略是把邮件保存到你可以读取的单个文件或文件夹中。
另一种方法是设立邮件别名,以便用户有问题时可以发送邮件到别名。
这个别名就可以将邮件转发给你,还可以在归档文件中存储副本。
表1机器日志的分类以下是/etc/aliases文件中条目的例子,可以设置这种类型的别名:
trouble:
admin,/var/spool/mail/admin.archive发送到trouble别名的电子邮件将被转发到admin用户,并同时存储到/var/spool/mail/admin.archive文件中。