您尚未登录。

#1 2013-12-02 19:53:20

wych
论坛版主
注册时间: 2011-11-27
帖子: 103

一个超级奇怪的问题

这个问题是上周五碰到的,当时没有能解决,后来查了好久也没能得出来结论,来这里问问各位有什么思路。

大体结构是这样:
-------------      -----------
前端runtime → mysql读写
-------------      -----------
       一些其他机器

所有机器都在一个C段局域网里。称A是runtime,BW是mysql写,BR是mysq读,都是centos系列(不要因为这个黑我

突然的所有的A到B*的连接全都超时,试图登上mysql机器查看时一直ssh debug看到会在这里卡住很久

Entering interactive session

上了机器系统的负载、内存、CPU等都很正常。
从别的机器nc mysql上的端口也正常,telnet等也是正常的切速度很快。

最后发现唯一奇怪的事情的所有的系统日志都停在出问题的时间没有继续往下写。
当时的网络也是通畅的。

这种问题很无奈。


Twitter@wych42

离线

#2 2013-12-02 20:10:48

依云
会员
所在地: a.k.a. 百合仙子
注册时间: 2011-08-21
帖子: 8,917
个人网站

Re: 一个超级奇怪的问题

中科大几天前也遇到了很慢+日志空白事件呢。

你是从 A 登录 mysql 机器时会卡很久的吗?从别的机器登录时还卡着吗(日志有没有继续)?auth.log 里有那次 ssh 连接的日志吗?附近的内核日志有异常没呢?磁盘连接是否正常?I/O wait 如何?连上去之后有没有用 dstat 之类的工具看看呢?

离线

#3 2013-12-02 20:26:14

wych
论坛版主
注册时间: 2011-11-27
帖子: 103

Re: 一个超级奇怪的问题

百合仙子 说:

中科大几天前也遇到了很慢+日志空白事件呢。

你是从 A 登录 mysql 机器时会卡很久的吗?从别的机器登录时还卡着吗(日志有没有继续)?auth.log 里有那次 ssh 连接的日志吗?附近的内核日志有异常没呢?磁盘连接是否正常?I/O wait 如何?连上去之后有没有用 dstat 之类的工具看看呢?

从所有机器登录mysql都会卡很久。

没有auth.log,但是有audit.log,不过从发现问题那个时间后就没有记录了。内核日志同样。

查看了,跟平时都相当的水平。

磁盘做了raid,raid检测一遍没有问题,还没有针对坏道做检测,我明天再查一下。

中科大那个后来是怎么样的?


Twitter@wych42

离线

#4 2013-12-02 21:01:36

依云
会员
所在地: a.k.a. 百合仙子
注册时间: 2011-08-21
帖子: 8,917
个人网站

Re: 一个超级奇怪的问题

wych 说:
百合仙子 说:

中科大几天前也遇到了很慢+日志空白事件呢。

你是从 A 登录 mysql 机器时会卡很久的吗?从别的机器登录时还卡着吗(日志有没有继续)?auth.log 里有那次 ssh 连接的日志吗?附近的内核日志有异常没呢?磁盘连接是否正常?I/O wait 如何?连上去之后有没有用 dstat 之类的工具看看呢?

从所有机器登录mysql都会卡很久。

没有auth.log,但是有audit.log,不过从发现问题那个时间后就没有记录了。内核日志同样。

查看了,跟平时都相当的水平。

磁盘做了raid,raid检测一遍没有问题,还没有针对坏道做检测,我明天再查一下。

中科大那个后来是怎么样的?

就出现过那么一次,没有重现。

也就是从出事之时起就没有日志啦?直到什么时候呢?重启?
难道是文件系统之类的模块死锁了?能不能发现那段时间的任何磁盘数据修改呢?
有没有用 strace 来观察另一个很慢的登录呢?登录的 shell 命令历史记录有更新么?

离线

#5 2013-12-02 21:18:52

wych
论坛版主
注册时间: 2011-11-27
帖子: 103

Re: 一个超级奇怪的问题

百合仙子 说:
wych 说:
百合仙子 说:

中科大几天前也遇到了很慢+日志空白事件呢。

你是从 A 登录 mysql 机器时会卡很久的吗?从别的机器登录时还卡着吗(日志有没有继续)?auth.log 里有那次 ssh 连接的日志吗?附近的内核日志有异常没呢?磁盘连接是否正常?I/O wait 如何?连上去之后有没有用 dstat 之类的工具看看呢?

从所有机器登录mysql都会卡很久。

没有auth.log,但是有audit.log,不过从发现问题那个时间后就没有记录了。内核日志同样。

查看了,跟平时都相当的水平。

磁盘做了raid,raid检测一遍没有问题,还没有针对坏道做检测,我明天再查一下。

中科大那个后来是怎么样的?

就出现过那么一次,没有重现。

也就是从出事之时起就没有日志啦?直到什么时候呢?重启?
难道是文件系统之类的模块死锁了?能不能发现那段时间的任何磁盘数据修改呢?
有没有用 strace 来观察另一个很慢的登录呢?登录的 shell 命令历史记录有更新么?

重启就好了,也没有重现。但是当时是四台机器一起出现这个状况的。
现在估计查不出来了,当时忙着恢复忘记保留下场了。
其中有一台没有操作过了几个小时就好了。

看来只能下次出现好好查一下了。


Twitter@wych42

离线

页脚