性能文章>#看视频聊个天5#:盘一盘那些“崩溃”过的互联网企业>

#看视频聊个天5#:盘一盘那些“崩溃”过的互联网企业原创

https://a.perfma.net/img/3110416
2年前
394695

宕机

说到这个话题,大部分工程师的第一反应会是什么呢🙃

大概运维的反应是最大的吧

6733DD19-2D2F-4545-979C-2CDEF4881C55.png

 

全球几乎每年都发生过大规模宕机事故

今年3月,由于数据库的问题,GitHub 经历了多起宕机事件,导致平台的服务降级, 影响了许多用户的使用。

在过去的几年里,GitHub 已经进行了许多优化,例如添加集群以支持平台的增长、对主数据库进行分区等,但这些改进工作并不能一劳永逸,一直到现在他们仍在积极地解决这个问题。

随着平台的不断发展,GitHub 将一直努力扩展基础设施,包括对数据库进行分片和扩展硬件。

D6BF33F8-B153-4513-95C3-D430CF5C9C03.png

随着互联网的繁荣,全球范围内各行业服务均开始转向线上。

一些关键行业的线上服务深刻影响着各国人民日常生活的正常进行。

提供关键服务的信息系统一旦出现宕机,将给社会造成巨大影响。但由于用户基数不断增大、功能需求逐渐多元化,导致各类信息系统功能范围不断扩大,系统架构逐渐复杂,存在大量潜在风险,导致事故频发。

2021年,全球发生多起重大宕机事件,涉及全球范围内多个国家的电商、交通、社交媒体、金融等多个领域。

 

国内关心的比较多的哪些宕机(热门)事件

说到国内大家印象比较深的事件大多跟某某热门事件挂上钩。

比如,春晚发红包,春节不宕机保卫战14亿人百亿红包和加班的工程师。

7A0C6865-8103-44DA-A63C-F1E83C5A147B.png

比如,某平时日常官宣事件。

832B5695-2E9D-4526-A506-BBA1A845FB0B.png

比如,各路电商节大比拼。

比如,春节、节假日抢火车票。

比如,……

DB7A3602-7799-4D4E-8F12-A7CC51198AD9.png

发生了几次宕机事件后,吃瓜群众们对此表示已经习惯,甚至很多人认为,如果明星突然宣布结婚或分手微博还没崩,只能证明该明星还不够火。

大概微博宕机也是事件热度标尺吧。

D615394F-7C59-4DCC-BAE2-F96842EFF46A.png

B站链接

链接 2021年度宕机事件盘点https://www.bilibili.com/video/BV1P3411T7nT/

链接 宕机这事儿https://www.bilibili.com/video/BV1p5411272H/

欢迎点赞评论关注HeapDump性能社区B站账号

 

视频号

18EEB703-7AFB-4412-A0C5-AAE5429F52CB.png

 

欢迎点赞评论关注HeapDump性能社区视频号

以上所有视频,留言都有机会获得社区周边小礼品噢!

 


互联网技术发展到了 2022 年,理论上来说是可以做到“永不宕机”的。

但过去的 2021 年,宕机事故看起来貌似也不少。

随着“国民级应用”增多,大家对技术的依赖程度越来越高,面临的风险比以往任何时候都多。

疫情之下,万物皆可“云”。

上班族“云办公”,学生党“云上课”,美食爱好者“云下厨”……

而突如其来的流量暴增让各大线上平台上演“连环崩”,系统崩溃,加载错误时常发生。

C1C5A21D-6069-4E61-BBAE-7FF70CD65B86.png

  • 访问量大了,理论上不会崩溃,只是理论上。
  • 访问量大了,你的内存满了、TCP连接到顶了(比如time_wait太多,无法接受新连接)、CPU已经忙不过来了——这一切的理论后果是处理速度慢了,或者直接拒绝新的服务请求。
  • 但如果你的服务器代码有缺陷,比如内存无法分配,抛出异常,而你没有处理这异常,会造成进程的退出——崩溃;
  • 或者无法建立新的TCP连接,你又没有处理这种异常——崩溃;
  • 磁盘满了——崩溃……
  • 程序一大这种细小的问题会多如牛毛。
  • 甚至你依赖的基础软件,如JVM,内存不足也可能导致崩溃。
  • 虽然有交换分区的存在,但也只是延迟了内存分配失败的时间,但此时性能已经急剧下降,与崩溃无异——完全没响应了。

DA100834-7964-4458-924A-0B8CBD4DF340.png

总之,宕机的常见原因也还有很多细节原因,比如,错误的环境配置、陷于死循环的错误程序、数据库索引缺失、数据库丢失等都会无端消耗大量服务器CPU、内存等资源,从而导致的服务器死机宕机等。

 

那么如何做好系统稳定性保障呢?

由于软件系统在本质上来说具备复杂性,其中任何一个环节出现问题都可能造成系统缺陷的引入,稳定性保障工作也必然需要覆盖整个软件生命周期。

当前大型互联网系统架构日趋复杂,稳定性风险也在升高。

宕机影响的不仅是内部用户,连带还会影响到客户和合作伙伴的收入、信誉和生产力等各个方面。

如何保证这些数据的安全和稳定是现在IT人员都关心的问题。

 

本期话题·盘一盘那些“崩溃”过的互联网企业

#国内宕机事件

#国际宕机事件

#云计算相关服务提供商

#你经历过哪些宕机事件

#半夜宕机如何处理

#

可能也许大概,每时每刻都在发生宕机。

我们大部分人的生活已经与互联网网络连接正在一起,连接的另一面就是24小时不间断的数据。

最后

A2858D2F-BA85-4F91-98E6-1CA481B60803.png

祝不宕机吧!🚀

 

欢迎在话题区讨论留言

小伙伴们虎年有虎劲

🎁快来视频号或者B站点赞评论留言~

点赞收藏
堆堆

【HeapDump性能社区官方小编】各位堆友们,+微信号perfMa,可以联系上堆堆哦~

请先登录,查看9条精彩评论吧
快去登录吧,你将获得
  • 浏览更多精彩评论
  • 和开发者讨论交流,共同进步
5
9
https://a.perfma.net/img/3110416
堆堆

徽章

【HeapDump性能社区官方小编】各位堆友们,+微信号perfMa,可以联系上堆堆哦~