Linux系统及应用故障应急响应手册--688IT编程网

Linux系统及应用容器等故障应急响应手册服务故障描述处理方法

操作系统出现too many

open files错误

主要是系统ulimit参数没有调节，需要修改系统的ulimit参数，注意是root用

户还是普通用户。

1.打开/etc/security/limits.f

2.更具实际情况添加内容如：* soft nofile 10240

操作系统缓存过大影响系

统性能

如果系统的buffer和cache过高影响了系统的性能，需要进行手动释放。

1.如果缓存中有需要的数据，那么可以使用rsync命令把缓存中的数据dump

出来。

2.最后使用echo 3 > /proc/sys/vm/drop_caches 命令即可释放当前的缓存。

（这样直接操作不做处理存在一定的风险，应为放在缓存中的数据会被清除

掉）

操作系统磁盘写满报警如果系统磁盘被写满，那系统本身会出现很多问题，当遇到磁盘快被写满的时候要及时处理。

1.到对应问题节点上，使用 df -h 可以查看对应的磁盘容量情况。

2.到对应快满的目录下使用 du -sh * 命令，可以了解对应每一个文件夹的大小，然后在进一步进行处理，迁移走还是删除。

操作系统df与du查看空

间容量不符合

使用rm删除某个正在写的文件时，会出现df与du命令不符合的情况，需要

进行手动修正。

1.使用命令 lsof | grep deleted 可以到正在删除的文件。

2.通过得到信息对没有清除完整的文件进处理。

操作系统系统的引导记录

信息出现问题不

能正常启动

系统加载引导记录的时候出现问题，导致系统不能正常启动。

1.进入单用户模式进行磁盘修复。

2.如果在系统启动的时候不能进入内核选择，可以通过linux系统光盘进行修

复。

操作系统nfs挂载目录出

现问题

对已经挂载的目录没有进行umount操作就移动或者删除，导致再次挂载的时

候提示报错。

1.对挂载目录进行修改时，先进行umount操作，之后再进行相应的删除修

改。

2.已经出现的问题时，可以修改/etc/fstab和/etc/mtab文件，把错误的路径信

息删除。

Redis 项目运行的时候

突然报出redis

异常错误

到相应的redis节点上查看redis错误信息，然后通过命令查看进程是否存

在。

1.通过ps aux | grep redis 命令查看redis进程

2.如果不存在则需要启动redis：src/f &

Redis redis启动的时

候出现类似

memory错误

主要是redis的配置不当引起的，需要修改redis占用内存大小，然后重新启

动redis。

1.修改配置文件f

2.启动redis：src/f &

zookeeper zk运行中出现

连接异常

首先到相应的ZK节点上，可以通过jps命令判断ZK进程是否存在。

1.登陆服务器是用命令：jps 可以查看存在的进程。

2.通过ZK本身的参数来查看：zkServer.sh status 只要返回的值不是follower

或者 leader就说明ZK存在问题。

3.在通过日志文件来排查具体错误：zookeeper.out 日志文件。

现存在问题包括：防火墙开启，屏蔽了ZK的通信端口；ZK的data目录设置

不正确；myid文件内容输入不正确。对应相应问题进行修改然后重启ZK即可

zookeeper 项目连接数出现

异常

linux安装redis服务现有的ZK设置的最大连接数是300，如果超出这个值就会出现问题。

1.到ZK节点上通过： netstat -antp | grep 2181 |awk '{print $5}' | awk -F ":"

'{print $4}' | wc -l 命令来统计ZK的连接数。

2.修改：zoo.cfg文件将maxClientCnxns=300参数进行重新设定。

3. 使用netstat -antp | grep 2181 |awk '{print $5}' | awk -F ":" '{print $4}' | sort

|uniq –c 命令查看哪个节点连接数过大。

4.对连接数过大没有释放的节点进行错误排查。

kafka 项目运行过程中

连接kafka异常

需要到相应的服务器上进行错误排查。

1.到相应的kafka节点上，通过jps命令可以看到kafka进程是否存在。

2.查看kafka目录中的：nohup.out文件查kafka错误。

3.重启kafka：如果进程存在着需要先kill掉：ps aux | grep kafka | grep 9092

| awk {'print $2'} | xargs {} kill -9 。然后使用：nohup ./kafka-server-

start.sh ../config/server.properties & 命令即可启动kafka

kafka 项目中的消息没

有被消费

到任意一台kafka节点上，通过kafka命令查看项目的消费情况。

1. ./kafka-run-class.sh ls.ConsumerOffsetChecker --zkconnect

IP:port（ZK的ip和port）--topic <；具体的topic> --group '1'；group中的值需

要更新topic来进行修改。这样能够查看topic的生产条数消费条数和未消费

条数。

2.如果未消费条数过多可能是因为项目连接kafka出现异常，需要具体分析原

因或者重启项目。

codis proxy服务挂掉通过dashboard页面可以查看到proxy是否还存在，如果proxy服务挂掉，需要重新启动proxy服务。

1.到相应的节点上关闭proxy进程：ps aux | grep proxy |grep codis | awk {'print $2'} | xargs {} kill 。

（如果使用kill进程，后面接上参数-9 那面需要到ZK上进行手动删除数据，所以停止服务的时候最好直接kill不加参数）

2.到对应的ZK集上删除ZK中存储的proxy信息：./zkCli.sh ；rmr

/zk/codis/db_test2/proxy ；rmr /zk/codis/db_test2/fence 。

3.到proxy各个节点上启动服务：nohup ./bin/codis-proxy --log-level info -c config.ini -L ./log/proxy.log --cpu=2 --addr=172.28.18.81:19000 --http-

addr=172.28.18.81:11000 & 。

4.到dashboard页面上启动proxy服务。

hadoop 出现HDFS 存

储不均衡的情况

如果出现HDFS 节点存储不均衡的情况，可能会导致某一台的机器磁盘使用

量过大或者使用量过低，这时候需要手动使用命令来调整存储容量。

1.使用 hdfs dfsadmin -repor 命令查看各个节点磁盘使用情况。

2.使用start-balancer.sh –t 10% 命令平衡磁盘存储状态。

hadoop namenode节点

出现问题

现在的hadoop基本使用HA版本，可以实现nn节点故障切换，但是这种情

况可能会影响个别项目，这时需要手动切换nn节点保证服务正常。

1.登陆nn1使用hdfs namenode -bootstrapStandby命令同步备namenode的

信息。

2.使用hadoop-daemon.sh start namenode 命令启动主namenode进程。

3.使用hdfs haadmin -transitionToActive nn1命令就可以默认使用主

namenode节点为主服务了。

如果出现使用命令不能切换nn节点的情况，操作过以上步骤后，还需要一些

操作才能切换nn节点

4.在nn2节点手动停止namenode进程：hadoop-daemon.sh stop

namenode ，这是集的主nn1节点就启动了。

5.在nn2节点上使用 hdfs namenode -bootstrapStandby 命令同步主nn1节点

信息。

6.最后启动nn2节点进程hadoop-daemon.sh start namenode 。

hadoop datanode节点

出现问题

通过hadoop自身命令可以查看整个集的节点存活状况，如果出现某台

datanode节点挂掉需要手动启动。

1.使用 hdfs dfsadmin -report 命令查看datanode存活情况。

2.如果出现某台datanode死亡，就到这台机器上使用：hadoop-daemon.sh

start datanode 命令拉起，使datanode重新加入集中。

hadoop yarn进程出现

问题

现在的hadoop版本中已经使用了yarn，如果yarn进程挂掉对整个集是有

很大的影响

1.到hadoop节点上使用jps命令可以看到java进程：ResourceManager和

NodeManager，前者只在主节点上存在，后者在每个节点上都有。

2.yarn相关进程出现死掉需要启动，直接在主节点上执行： start-yarn.sh 即

可

hbase hbase进程出现

问题

hbase主要的问题就是master节点出现问题。

1.登陆hbase节点使用jps命令可以看到java进程：HMaster和

HRegionServer ，前者只在主节点上存在，后者在每个节点上都有。

2.hbase相关进程出现死掉情况需要重启，直接到主节点上执行：start-

hbase.sh

3.hbase也是有多主的设置，为了保证高可用性，正常启动hbase后，再到另

一台机器上使用：hbase-daemon.sh start master 命令就可以，然后用jps就

可以看到HMaster进程。

tomcat 项目运行的时候

出现问题

项目在运行的过程中出现问题时需要到对应的java用户下查看输出日志，然

后在定位错误信息。

/home/logs下。

2.更具错误信息来排查相关错误，是项目本身的BUG还是tomcat的配置问

题。

3. docker容器中，tomcat出现startup了，之后立即就又关闭

报错信息，SERVER: StandardServer.await: create[localhosts:8081]

java.BindException: Cannot assign requested address .....

解决方法 ifconfig查看网络lo是否启动，如果没有执行 ip link set lo up 启动

云存储服务出现问题云存储一共有6个应用，每个节点上都部署这六个应用。

1.到相应节点上使用jps命令可以查看对应的进程：MasterServer 、ComputingServer 、NodeServer 、ChunkServer 、BufferCacheServer和UserEnterServer。如果缺少某个进程或某个进程出现问题，需要到对应的日志文件夹下查看日志

2.启动对应的服务需要登录hadoop账户，然后到对应的项目文件夹下，使用：sh start.sh 命令就可以把服务启动

apache 访问延时过长访问某个项目的时候出现网络延迟，需要查看项目产生的日志，然后定位具体的延时时间。

1.对项目的log日志信息查看，到访问延时的是时间点，然后根据相应的访问情况进行分析。

MySQL应急响应手册

服务故障描述问题原因处理方法

MySQL mysql slave sql

not running 1. 有可能是从库崩

溃后，没有启动

slave导致，可

以通过start

slave 来解决。

2. 主从复制出现错

误，如主从数据

部一致，主键冲

在开发，测试环境中可以采取如下解决办

法。

mysql>stop slave;

mysql>start slave;

生产环境一般不会出现这个问题，生产环境

出现这个问题后，要根据具体的情况，采用

688IT编程网

Linux系统及应用故障应急响应手册

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

688IT编程网

Linux系统及应用故障应急响应手册

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林 重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

随机森林重要性