Linux系统及应用容器等故障应急响应手册服务故障描述处理方法
操作系统出现too many
open files错误
主要是系统ulimit参数没有调节,需要修改系统的ulimit参数,注意是root用
户还是普通用户。
1.打开/etc/security/limits.f
2.更具实际情况添加内容如:*          soft    nofile    10240
操作系统缓存过大影响系
统性能
如果系统的buffer和cache过高影响了系统的性能,需要进行手动释放。
1.如果缓存中有需要的数据,那么可以使用rsync命令把缓存中的数据dump
出来。
2.最后使用echo 3 > /proc/sys/vm/drop_caches 命令即可释放当前的缓存。
(这样直接操作不做处理存在一定的风险,应为放在缓存中的数据会被清除
掉)
操作系统磁盘写满报警如果系统磁盘被写满,那系统本身会出现很多问题,当遇到磁盘快被写满的时候要及时处理。
1.到对应问题节点上,使用 df -h 可以查看对应的磁盘容量情况。
2.到对应快满的目录下使用 du -sh * 命令,可以了解对应每一个文件夹的大小,然后在进一步进行处理,迁移走还是删除。
操作系统df与du查看空
间容量不符合
使用rm删除某个正在写的文件时,会出现df与du命令不符合的情况,需要
进行手动修正。
1.使用命令 lsof | grep deleted 可以到正在删除的文件。
2.通过得到信息对没有清除完整的文件进处理。
操作系统系统的引导记录
信息出现问题不
能正常启动
系统加载引导记录的时候出现问题,导致系统不能正常启动。
1.进入单用户模式进行磁盘修复。
2.如果在系统启动的时候不能进入内核选择,可以通过linux系统光盘进行修
复。
操作系统nfs挂载目录出
现问题
对已经挂载的目录没有进行umount操作就移动或者删除,导致再次挂载的时
候提示报错。
1.对挂载目录进行修改时,先进行umount操作,之后再进行相应的删除修
改。
2.已经出现的问题时,可以修改/etc/fstab和/etc/mtab文件,把错误的路径信
息删除。
Redis 项目运行的时候
突然报出redis
异常错误
到相应的redis节点上查看redis错误信息,然后通过命令查看进程是否存
在。
1.通过ps aux | grep redis 命令查看redis进程
2.如果不存在则需要启动redis:src/f &
Redis redis启动的时
候出现类似
memory错误
主要是redis的配置不当引起的,需要修改redis占用内存大小,然后重新启
动redis。
1.修改配置文件f
2.启动redis:src/f &
zookeeper zk运行中出现
连接异常
首先到相应的ZK节点上,可以通过jps命令判断ZK进程是否存在。
1.登陆服务器是用命令:jps 可以查看存在的进程。
2.通过ZK本身的参数来查看:zkServer.sh status 只要返回的值不是follower
或者 leader就说明ZK存在问题。
3.在通过日志文件来排查具体错误:zookeeper.out 日志文件。
现存在问题包括:防火墙开启,屏蔽了ZK的通信端口;ZK的data目录设置
不正确;myid文件内容输入不正确。对应相应问题进行修改然后重启ZK即可
zookeeper 项目连接数出现
异常
linux安装redis服务现有的ZK设置的最大连接数是300,如果超出这个值就会出现问题。
1.到ZK节点上通过: netstat -antp | grep 2181 |awk '{print $5}' | awk -F ":"
'{print $4}' | wc -l 命令来统计ZK的连接数。
2.修改:zoo.cfg文件将maxClientCnxns=300参数进行重新设定。
3. 使用netstat -antp | grep 2181 |awk '{print $5}' | awk -F ":" '{print $4}' | sort
|uniq –c 命令查看哪个节点连接数过大。
4.对连接数过大没有释放的节点进行错误排查。
kafka 项目运行过程中
连接kafka异常
需要到相应的服务器上进行错误排查。
1.到相应的kafka节点上,通过jps命令可以看到kafka进程是否存在。
2.查看kafka目录中的:nohup.out文件查kafka错误。
3.重启kafka:如果进程存在着需要先kill掉:ps aux | grep kafka | grep 9092
| awk {'print $2'} | xargs {} kill -9 。然后使用:nohup ./kafka-server-
start.sh ../config/server.properties & 命令即可启动kafka
kafka 项目中的消息没
有被消费
到任意一台kafka节点上,通过kafka命令查看项目的消费情况。
1. ./kafka-run-class.sh  ls.ConsumerOffsetChecker --zkconnect
IP:port(ZK的ip和port)--topic <;具体的topic>  --group '1';group中的值需
要更新topic来进行修改。这样能够查看topic的生产条数消费条数和未消费
条数。
2.如果未消费条数过多可能是因为项目连接kafka出现异常,需要具体分析原
因或者重启项目。
codis proxy服务挂掉通过dashboard页面可以查看到proxy是否还存在,如果proxy服务挂掉,需要重新启动proxy服务。
1.到相应的节点上关闭proxy进程:ps aux | grep proxy |grep codis  | awk {'print $2'} | xargs {} kill 。
(如果使用kill进程,后面接上参数-9 那面需要到ZK上进行手动删除数据,所以停止服务的时候最好直接kill不加参数)
2.到对应的ZK集上删除ZK中存储的proxy信息:./zkCli.sh ;rmr
/zk/codis/db_test2/proxy ;rmr /zk/codis/db_test2/fence 。
3.到proxy各个节点上启动服务:nohup ./bin/codis-proxy --log-level info -c config.ini -L ./log/proxy.log  --cpu=2 --addr=172.28.18.81:19000 --http-
addr=172.28.18.81:11000 & 。
4.到dashboard页面上启动proxy服务。
hadoop 出现HDFS 存
储不均衡的情况
如果出现HDFS 节点存储不均衡的情况,可能会导致某一台的机器磁盘使用
量过大或者使用量过低,这时候需要手动使用命令来调整存储容量。
1.使用 hdfs dfsadmin -repor 命令查看各个节点磁盘使用情况。
2.使用start-balancer.sh –t 10% 命令平衡磁盘存储状态。
hadoop namenode节点
出现问题
现在的hadoop基本使用HA版本,可以实现nn节点故障切换,但是这种情
况可能会影响个别项目,这时需要手动切换nn节点保证服务正常。
1.登陆nn1使用hdfs namenode -bootstrapStandby命令同步备namenode的
信息。
2.使用hadoop-daemon.sh start namenode 命令启动主namenode进程。
3.使用hdfs haadmin -transitionToActive nn1命令就可以默认使用主
namenode节点为主服务了。
如果出现使用命令不能切换nn节点的情况,操作过以上步骤后,还需要一些
操作才能切换nn节点
4.在nn2节点手动停止namenode进程:hadoop-daemon.sh stop
namenode ,这是集的主nn1节点就启动了。
5.在nn2节点上使用 hdfs namenode -bootstrapStandby 命令同步主nn1节点
信息。
6.最后启动nn2节点进程hadoop-daemon.sh start namenode 。
hadoop datanode节点
出现问题
通过hadoop自身命令可以查看整个集的节点存活状况,如果出现某台
datanode节点挂掉需要手动启动。
1.使用 hdfs dfsadmin -report 命令查看datanode存活情况。
2.如果出现某台datanode死亡,就到这台机器上使用:hadoop-daemon.sh
start datanode 命令拉起,使datanode重新加入集中。
hadoop yarn进程出现
问题
现在的hadoop版本中已经使用了yarn,如果yarn进程挂掉对整个集是有
很大的影响
1.到hadoop节点上使用jps命令可以看到java进程:ResourceManager和
NodeManager,前者只在主节点上存在,后者在每个节点上都有。
2.yarn相关进程出现死掉需要启动,直接在主节点上执行: start-yarn.sh 即
hbase hbase进程出现
问题
hbase主要的问题就是master节点出现问题。
1.登陆hbase节点使用jps命令可以看到java进程:HMaster和
HRegionServer ,前者只在主节点上存在,后者在每个节点上都有。
2.hbase相关进程出现死掉情况需要重启,直接到主节点上执行:start-
hbase.sh
3.hbase也是有多主的设置,为了保证高可用性,正常启动hbase后,再到另
一台机器上使用:hbase-daemon.sh start master 命令就可以,然后用jps就
可以看到HMaster进程。
tomcat 项目运行的时候
出现问题
项目在运行的过程中出现问题时需要到对应的java用户下查看输出日志,然
后在定位错误信息。
/home/logs下。
2.更具错误信息来排查相关错误,是项目本身的BUG还是tomcat的配置问
题。
3. docker容器中,tomcat出现startup了,之后立即就又关闭
报错信息,SERVER: StandardServer.await: create[localhosts:8081]
java.BindException: Cannot assign requested address .....
解决方法 ifconfig查看网络lo是否启动,如果没有执行 ip link set lo up 启动
lo
云存储服务出现问题云存储一共有6个应用,每个节点上都部署这六个应用。
1.到相应节点上使用jps命令可以查看对应的进程:MasterServer 、ComputingServer 、NodeServer 、ChunkServer 、BufferCacheServer和UserEnterServer。如果缺少某个进程或某个进程出现问题,需要到对应的日志文件夹下查看日志
2.启动对应的服务需要登录hadoop账户,然后到对应的项目文件夹下,使用:sh start.sh 命令就可以把服务启动
apache 访问延时过长访问某个项目的时候出现网络延迟,需要查看项目产生的日志,然后定位具体的延时时间。
1.对项目的log日志信息查看,到访问延时的是时间点,然后根据相应的访问情况进行分析。
MySQL应急响应手册
服务故障描述问题原因处理方法
MySQL mysql slave sql
not running 1. 有可能是从库崩
溃后,没有启动
slave导致,可
以通过start
slave 来解决。
2. 主从复制出现错
误,如主从数据
部一致,主键冲
在开发,测试环境中可以采取如下解决办
法。
mysql>stop slave;
mysql>start slave;
生产环境一般不会出现这个问题,生产环境
出现这个问题后,要根据具体的情况,采用

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。