新闻动态

服务器宕机检测:服务器“异常”的几个可能性预警请重视!

发布日期:2021-01-03 10:30 | 文章来源:YINGSOO

  【温馨提醒】文章内容仅供参考,海外服务器租用\托管方案,请咨询YINGSOO客服,24小时免费电话400-630-3752

  【热门主机】免费试用免费测试在线测试在线试用

  【热搜问题】云主机免费试用的正确方式!

服务器宕机检测

  提到服务器宕机[cdn加速器下载]检测,大家会想到,宕机能够很快知道,这个有什么可做的?实际上,很多时候服务器宕机,并不总是被及时感知。服务器宕机,ping或者ssh这是最简单的做法,但真正的工程实践,没这么简单。

  想要获知服务器宕机怎么办?可以通过服务器宕机实时检测:

  1)发现宕机。

  2)提前告警。

  3)告知宕机的详细原因,如硬件故障,内核bug,网络异常等等。

  4)自动报修生成工单。

  我们知道,进行全网物理机宕机准确探测与实时发现,可以给宕机分析提供[新加坡主机]第一现场,获取第一现场的日志。也可以尽早将宕机数据推送给业务或运营感知并处理,如自动报修,业务迁移等,从而尽可能将业务影响降到最低。

  更重要的是,准确的宕机发现数据可以为宕机预测提供准确的标注数据,为后期宕机预测提供数据基础,并且这些数据提供给运营部门进行整体分析,提升处理效率。

  那么,如何可以准确发现宕机,减少误报呢?我们可以有以下操作,比如:

  心跳源检测异常

  顾名思义,通过心跳源,初步发现异常。通常心跳变化会有三类消息,update消息,delete消息和insert消息。心跳逻辑在于,正常情况下sA服务端与nc建立长连接,每数秒缓存一次心跳,每几分钟打包上报一次,但当nc异常时,长连接感知后,立即上报异常,并修改路由表。所以心跳异常做到秒级感知。

  update消息,在有心跳发生变化情况下都会有,心跳异常和心跳恢复正常时都会发起,是主要的心跳来源。

  delete消息,在心跳异常,并且sA判断ping不通,且ssh不通情况下发起,删除该条消息,避免延迟太长。

  insert消息,在新增加机器, 或者重装后重新上位的机器发起,该消息对宕机发现价值不大,配合uptime使用。

  心跳源检测任务逻辑,主要是监听并缓存uptime消息,同时避免时间窗内多次消息冲突,导致信息被覆盖。

  异常排除

  排除非物理机器,将系统中暂时不关注的Vm等产生的异常信息排除掉。

  排除非业务状态的机器,如装机状态中的,包括生产中,维修中,迁移中,重装中,销毁中,重启中,无管控状态,只监控正常状态的机器。

  排除非正在工作的机器,如非working状态机器。

  网络干扰排除

  宕机分析中,较多误报是由于网络问题干扰,无法准确判断出物理机是否宕机,有可能是网络问题。

  排除上联网络设备异常导致的误报,包括机房断网演练,小面积网络故障,上联网络故障,如通过探测丢包情况,使用一些逻辑初步判断网络问题。

  服务器本身未丢包的误报,除了需要过滤出网络问题,还要通过丢包数据分析,过滤掉sA误报问题, sA异常会上报心跳异常,被误理解为宕机。

  icmp及tcp丢包分析,icmp采集频率为固定数秒,tcp采集频率固定数秒,包括多个不同大小包(16,32,64,128,256等)的丢包情况,根据分析时间窗内两项数据的丢包情况

  特殊情况干扰排除

  个别机房有时候会出现大面积风暴式的无故心跳异常,同时网络ping包异常,但上联网络设备ping包正常,这种误报,一般根据具体case具体进行针对性的分析。如根据监控每个机房的上报频率,排除干扰。

  进一步识别误报

  至此,大部分干扰已经过滤掉,但仍有一部分误报隐藏其中。比如心跳异常,ping异常,都合乎宕机判断的逻辑,会导致误判成宕机,如导致网卡被打爆,或者重试率高,这种是业务原因导致网络异常,但业务认为不是异常,需要排除掉。再例如服务器并没有挂掉,但是io延时和资源占用率各项指标都不正常等场景。针对以上等情况,增加uptime判断以及带外日志分析排查。

  宕机时间点探测uptime确定是否发生重启。

  进一步通过分析日志是否连续,判断是否发生重启。

  日志重启特征值匹配,确认是否发生重启。

  如果还不能确定,使用uptime的时间窗技术进行重启。

  仍不能确定的待处理,进入长尾处理名单。

  长尾再次处理

  未确认的待处理的,会加入到长尾列表中,像这种分钟级的心跳异常,ping异常,但串口日志一直正常输出的情况,一般就是某种死机,死到连网络都不通的场景。会观察一段时间,一个固定时间窗内仍未恢复或重启的话,就暂时报宕机。后期会把这种死机单独找划分归类。

  讲了这么多,到底效果怎么样?

  我们从准确率和覆盖率来看:

  准确率:目前发现的宕机中有很高准确度,可以区分出真正宕机或者未宕机。而判断为宕机的数据中,也存在少量的,由于缺少相关信息导致误报,该部分将进一步优化,逐渐降低误报,在新的措施之后,该比例会接近0。

  覆盖率:当前统计的覆盖率已经能很好的支撑日常宕机处理,该数据在有足够的特征后,会进一步提升。

  目前,宕机感知是宕机分析的基础,通过服务器宕机实时检测,会把相应的宕机原因分布整理出来,明确具体的原因,达成服务器极致可靠性。

  

  美国服务器租用数据备份的重要性

  针对网络服务器而言,数据是非常关键的,自然美国服务器也是如此,假如一个企业可以承担数据遗失产生的不良影响,那麼彻底能够无需考虑到数据备份的状况,实际上绝大多数公司是没法担负的,因而数据备份看起来至关重要,接下去本公司网编来谈一谈美国服务器租赁数据备份的必要性。

  在各种各样状况下,数据备份十分便捷:

  出现意外删除文件/文件夹名称。假如出现意外删除文件,您能够自动跳转到备份控制面板轻轻松松恢复,而不用复建它。

  损伤文档。假如您的美国服务器遭受已改动或加密文件的病毒感染/恶意程序的感柒,除开从网络服务器中删掉病毒感染/恶意程序以外,您还必须将这种文件还原到初始版本号。

  槽糕的OS升级。假如您的美国服务器遭受电脑操作系统升级不正确的危害,那麼您必须将其恢复到稳定运作的情况。在这样的事情下,备份越来越十分便捷,因而您能够恢复到恢复点,进而使您的系统软件[网游服务器租用]处在适度的工作态度。

  服务器的配置难题。假如您的服务器的配置或储存设备(HDD,SSD,RAID控制板等)因一些缘故而不成功,将会出現数据常见故障,必须将数据恢复到工作态度。适度的数据备份在这样的事情下十分有效,因而您能够将系统软件挪动到硬件配置奔溃以前的情况。

  没人能真实预测分析她们什么时候必须备份团本中的数据,但出自于所述缘故保证备份及时的按时监控器十分关键。您应当细心掌握您的应用实例,并挑选合适您规定的备份手机软件。R1Soft备份服务项目在大部分用例中运作优良,由于它适用基本上全部电脑操作系统网络服务器的备份。像Veeam,Acronis那样的别的商品也是公司应用。一切备份手机软件的重要是确保您可以立即备份和恢复数据,并维持数据一致性。有着高效率的备份系统软件有利于维持业务流程持续性,确保您不容易[站群高防服务器是什么]花時间在出现意外删掉(人或式人)的状况下恢复秘密文件/文件夹名称,由于您早已有着一个高效率的备份系统软件。可是必须留意的是,应用RAID维护储存取代备份也并不是全能的。在几类状况下RAID将会彻底不成功而没法再次得到存储阵列中存有的数据。因而,您应自始至终为您的系统架构出示非服务端,最好外地备份。

  YINGSOO免费热线:400-630-3752

  热门文章:【韩国著名机房主要有哪些】【虚拟主机能玩游戏吗】【服务器UDP协议】【Dns域名解析是什么】【360全方位升级】【多ip站群vps云主机】【电脑云主机对网速有要求吗】【优质英国云主机在哪里】【物联网服务器租用】【香港站群服务器要点】【直播源服务器】【加速cdn有哪些】【云主机服务器哪家好】【香港服务器速度】【网络存储服务器品牌】【四大方面浅析美国服务器怎么样】【虚拟香港云主机和云服务器的区别】【魔力宝贝服务器价格】【香港dns服务器】【香港cn2专线服务器哪家好】【YINGSOO日本服务器的租用优势有哪些】【服务器托管商哪家好】【香港云主机排名】【天津高防BGP】【中国服务器租美国多少钱一年】【给大家推荐永久免费的服务器】【CDN加速】【IPFS服务器托管】【为什么说YINGSOO美国高防服务器便宜好用】【租用YINGSOO荷兰云主机好吗

  YINGSOO台湾稳定主机优惠中!介绍新客户,返现16%!

  9年台湾稳定主机服务商,超过1200家企业共同选择,五星机房品质,带控制台.立即申请台湾稳定主机3天免费试用,,专业数据灾备方案,24小时贴心服务

  https://www.yingsoo.com/products/cloud-tw.html

  YINGSOO韩国游戏主机3天免费试用,注册享特惠!

  韩国游戏主机控制面板自主管理,5分钟交付,KT高品质机房,平均延迟低至80ms,2019年韩国游戏主机销量再度破表,1200家企业共同选择,高达95%的续约率印证YINGSOO品质

  https://www.yingsoo.com/products/cloud-kr.html

版权声明:本站文章来源标注为YINGSOO的内容版权均为本站所有,欢迎引用、转载,请保持原文完整并注明来源及原文链接。禁止复制或仿造本网站,禁止在非www.yingsoo.com所属的服务器上建立镜像,否则将依法追究法律责任。本站部分内容来源于网友推荐、互联网收集整理而来,仅供学习参考,不代表本站立场,如有内容涉嫌侵权,请联系alex-e#qq.com处理。

相关文章

实时开通

自选配置、实时开通

免备案

全球线路精选!

全天候客户服务

7x24全年不间断在线

专属顾问服务

1对1客户咨询顾问

在线
客服

在线客服:7*24小时在线

客服
热线

400-630-3752
7*24小时客服服务热线

关注
微信

关注官方微信
顶部