【经验】把恼人的硬件故障经验变成学习机会

2016年12月22日 10:48 来源:eettaiwan 作者:Bill Schweber 我要评论(0)

标签:笔记本电脑(46191)硬件故障(8186)

做出测试或是故障排除的假设很容易,但我们可能没有时间或工具去找出导致系统出问题的实际原因…

我曾经有过一台用了很多年的迷你笔记本电脑,那台惠普(HP) Mini 110被归类为「小笔电(netbook)」,虽然是PC家族里几乎已经消亡的一个类别,但在将近一年前还能用,直到在几个月中间连续出了两次问题;现在那台1.2公斤重的装置已经被换掉了,但我从它身上看到了坚固的子系统设计以及产品寿命测试。

到底发生了什么事?首先是电池组挂了,所以那台小笔电得一直连着AC变压器;但是因为笔电的设计本来就是透过电池供电运作,它们的电源供应器之大量储存容量非常有限,而且几乎无法直接透过电源线取得电力。

因此,尽管是非常小的、原本注意不到或根本不是问题的AC瞬变(它们非常令人惊讶地很常见),也会导致系统关机──这真是很令人抓狂!但在线商店贩卖的可替换电池组要价100美元(而且是来自质量不知道有没有问题的白牌供货商),实在不是个好选择。

接着又出了个问题,是小笔电的Windows XP操作系统出现某种系统错误(至少我认为问题在此),导致硬盘机一直在寻找某个显然不存在的东西;我安装了一些磁盘清理以及追踪诊断工具,但最后发现那好像是一种登录档(registry)的问题──我猜的,但无法验证──导致硬盘机持续存取,而我完全无法做任何事来排除故障。

连续不断出现的操作系统错误,导致硬盘机转个不停;我可以清楚听到磁盘驱动器一直在读取,而机器上的读取灯号也一直亮着,偶尔会闪烁一下。因此小笔电的执行速度慢到像乌龟爬,得花好几秒才能成功切换窗口或是对指令做反应,要开个档案更是得花好几分钟;显然磁盘驱动器已经完全被执行中的任务占据,并占用了所有的系统资源。

而这几乎永无止尽、高占空比的磁盘存取活动告诉我一件事:其内建硬盘机一定有非常坚固的机械电子甚至散热设计;根据我的非科学估计,那台硬盘机光是过去一年的运转次数,应该就已经超越正常使用的好几轮生命周期,但它还是坚持不懈。而这个假设的软件错误,让我能直接听到而且看到硬盘机的全套动作,让我对它的开发厂商肃然起敬(我要再来打开那台小笔电看看是哪家)──我好像自愿帮他们做了产品生命周期测试。

当然,我对于硬盘机坚固程度的猜测也可能只是一厢情愿的想法;或许真正的问题不是软件故障导致硬盘一直在找不存在的某个东西,而是硬盘机本身凸槌,有其他导致硬盘机持续尝试读取某个磁道、但又不成功的问题。

如果我们能从这里学到什么关于故障排除的教训,就是做出假设很容易,但有可能会被那些假设的逻辑导向不正确的结论,特别是当我们只有针对实际问题所在的间接推测或稀少证据;因此,我假设登录文件错误是导致硬盘机持续搜寻的问题根源,可能只是个巧合。

我尝试将那些状况视为学习经验,打算把那台故障小笔电大卸八块、看看其硬件内部结构,这样就能知道更多信息;我对于各种散热片、热管、均热板或其他散热技术特别有兴趣,因为那台小笔电运转时都很烫,而且风扇也很努力地转。在此同时,我还想看看它的硬盘机是有多特别──如果我看得出来。

你也有遇到过硬件故障的恼人问题吗?那些问题是否为你自己的设计带来一些启示?或者是你有没有看过一些在某些部分过度设计、只为了补偿其他部分设计弱点的产品?欢迎与我们分享你的经验与故事!

编译:Judith Cheng

(参考原文: Software Bug Induces Extreme Hardware Test, Maybe,by Bill Schweber)