您尚未登录。

#1 2020-07-17 15:56:37

wxg4net
会员
注册时间: 2012-01-07
帖子: 258

诸位如何解决莫名的机器死机问题,希望大伙给出个主意

因为要求主机一直开着,但是这个主机在开机一天之后,大约在2-7内必定会死机
死机故障现象有这些

1)屏幕画面静止,鼠标键盘无响应
2)主机硬盘灯不亮
3)死机时间点似乎很随机。有的时候一段时间没操作,然后发现死机了。有的时候也可能在使用系统中
4)无线网卡提供的热点服务消失

内存(memtest+)测试了一晚上没有发现问题。怀疑是硬件故障,但不知如何调试。系统日志无异常错误记录,启动日志似乎也无异常

环境如下

系统有两块盘,一块机械盘,一块固态盘 系统在机械盘上,固态盘挂载但是没用到
系统内运行有Java,Ruby等各类服务。

[arch:~] uname -a
Linux arch 5.7.8-arch1-1 #1 SMP PREEMPT Thu, 09 Jul 2020 16:34:01 +0000 x86_64 GNU/Linux

[arch:~] free -h
              总计         已用        空闲      共享    缓冲/缓存    可用
内存:        15Gi       2.3Gi        11Gi       158Mi       1.3Gi        12Gi
交换:          0B          0B          0B

cpu  --   Intel(R) Core(TM) i5-9400F CPU
显卡 -- GeForce GT 730
Network controller: Realtek Semiconductor Co., Ltd. RTL8821CE 802.11ac PCIe Wireless Network Adapter

最近编辑记录 wxg4net (2020-07-17 15:59:04)


Arch Linux User

离线

#2 2020-07-17 16:04:00

依云
会员
所在地: a.k.a. 百合仙子
注册时间: 2011-08-21
帖子: 6,041
个人网站

Re: 诸位如何解决莫名的机器死机问题,希望大伙给出个主意

我以前也遇到过这种情况。没想到办法。

离线

#3 2020-07-17 16:08:44

yw662
大会员
所在地: localhost
注册时间: 2018-10-10
帖子: 330

Re: 诸位如何解决莫名的机器死机问题,希望大伙给出个主意

如果是为了提供热点的话,其实可以用类似看门狗的方法,比如机器旁边放一个pi,把主板reset线引过去,检测到机器wifi连不上了就发reset。
为了减少假阳性可以用网线把两个设备连起来用ping测。
然后机器那边也可以检测pi是不是活着然后发reset(但是pi其实自己有wdt……)。


ecmascript是世界上最好的语言

离线

#4 2020-07-17 16:09:13

wxg4net
会员
注册时间: 2012-01-07
帖子: 258

Re: 诸位如何解决莫名的机器死机问题,希望大伙给出个主意

依云 说:

我以前也遇到过这种情况。没想到办法。

原来你也对此没有办法,看来这个问题不好解决了。目前能想到的方法,就是每天晚上重启了,看看有没有效果


Arch Linux User

离线

#5 2020-07-17 16:11:00

yw662
大会员
所在地: localhost
注册时间: 2018-10-10
帖子: 330

Re: 诸位如何解决莫名的机器死机问题,希望大伙给出个主意

然后其实内核自己有看门狗,但是我不知道你这种死机会不会看门狗也一起死了,所以……


ecmascript是世界上最好的语言

离线

#6 2020-07-17 16:14:35

wxg4net
会员
注册时间: 2012-01-07
帖子: 258

Re: 诸位如何解决莫名的机器死机问题,希望大伙给出个主意

yw662 说:

如果是为了提供热点的话,其实可以用类似看门狗的方法,比如机器旁边放一个pi,把主板reset线引过去,检测到机器wifi连不上了就发reset。
为了减少假阳性可以用网线把两个设备连起来用ping测。
然后机器那边也可以检测pi是不是活着然后发reset(但是pi其实自己有wdt……)。

这台机器不是提供热点用,因为无线网卡支持热点,而我又不想用公共热点,所以就自用了。我一度怀疑是这个无线驱动不完善的原因


Arch Linux User

离线

#7 2020-07-17 16:18:52

wxg4net
会员
注册时间: 2012-01-07
帖子: 258

Re: 诸位如何解决莫名的机器死机问题,希望大伙给出个主意

yw662 说:

然后其实内核自己有看门狗,但是我不知道你这种死机会不会看门狗也一起死了,所以……

估计也挂掉了
猜测cpu因为某些原因挂掉了,所以进行不了任何操作运算
其实机器负载很低


Arch Linux User

离线

#8 2020-07-17 16:22:37

依云
会员
所在地: a.k.a. 百合仙子
注册时间: 2011-08-21
帖子: 6,041
个人网站

Re: 诸位如何解决莫名的机器死机问题,希望大伙给出个主意

yw662 说:

如果是为了提供热点的话,其实可以用类似看门狗的方法,比如机器旁边放一个pi,把主板reset线引过去,检测到机器wifi连不上了就发reset。
为了减少假阳性可以用网线把两个设备连起来用ping测。
然后机器那边也可以检测pi是不是活着然后发reset(但是pi其实自己有wdt……)。

有些设备有看门狗的,可以直接用。ls /dev/watchdog* 看看。

离线

#9 2020-07-23 09:10:21

wxg4net
会员
注册时间: 2012-01-07
帖子: 258

Re: 诸位如何解决莫名的机器死机问题,希望大伙给出个主意

这个死机问题有点难搞, 天天晚上重启,今早发现屏幕点不亮,键盘灯长亮关不掉.发现又死机了.  准备用排除法检查这个问题. 太影响心情了


Arch Linux User

离线

页脚