业务逻辑复杂,历史久远的接口出现数据错误怎么办?
接口返回数据错误,如何快速找到问题原因并进行修复?01背景1.1 下班时,业务反馈:线上数据错了1.2 分析找前端同学确认控制“点击咨询期货”是由接口返回的“skuLt”字段控制:02BugShoot
【全网首发】一次有关 DNS 解析导致 APP 慢的问题探究
HTTTPDNSAWS Router53APP 使用 HTTPDNS, 为解决 DNS 解析生效慢, DNS 劫持等问题。
八大生产故障 排查思路(通用版)
你好,我是悟空。常见的生产故障有哪些?在生产环境中,常见的故障类型包括但不限于以下几种:网络故障:网络故障可能包括网络连接中断、网络延迟过高、路由错误等。这可能导致系统无法正常访问外部资源,或导致应用程序无法与其他系统进行通信。服务器故障:服务器故障可能包括硬件故障、操作
eBPF 快速定位网络抖动
在容器集群中新部署的服务 A,在测试初期发现通过服务注册发现访问下游服务 B(在同一个容器集群) 调用延时 999 线偶发抖动,测试 QPS 比较小,从业务监控上看起来比较明显,最大的延时可以达到 200 ms。
【全网首发】聊一聊 Tomcat 启动速度慢背后的真相
在线上环境中,我们经常会遇到类似的问题,就是tomcat 启动比较慢,查看内存和cpu,io都是正常的,但是启动很慢,有的时候长达几分钟,这到底是什么原因导致的。
代码中被植入了恶意删除操作,太狠了!
背景在交接的代码中做手脚进行删库等操作,之前只是网上听说的段子,没想到上周还真遇到了,并且亲自参与帮忙解决。事情是这样的,一老板接手了一套系统,可能因为双方在交接时出现了什么不愉快的事情,对方不提供源代码,只是把生产环境的服务器打了一个镜像给到对方。对方拿到镜像恢复之后,系统起来怎么也无法正常
分享下最近遇到的5种网站变慢的案例
分享下最近遇到的5种网站变慢的案例,希望能给大家带来些许收获
我好像发现了一个Go的Bug?
从一次重构说起这事儿还得从一次重构优化说起。最近在重构一个路由功能,由于路由比较复杂,需求变化也多,于是想通过责任链模式来重构,刚好这段时间也在 Sentinel-Go 中看到相关源码。用责任链模式,最大的好处是可以针对每次请求灵活地插拔路由能力,如:这样实现会在每次请求到来时去new
Java项目线上CPU内存过高问题排查案例
正文问题下面是线上机器的cpu使用率,可以看到从4月8日开始,随着时间cpu使用率在逐步增高,最终使用率达到100%导致线上服务不可用,后面重启了机器后恢复。排查思路简单分析下可能出问题的地方,分为5个方向:系统本身代码问题内部下游系统的问题导致的雪崩效应上游系统调用量突增htt
CPU & Load又极速飙升,这样做性能排查!
导读压测时或多或少都收到过CPU或者Load高的告警,如果是单机偶发性的,经常会认为是“宿主机抢占导致的”,那事实是否真是如此呢?是什么引起了这些指标的飙高?网络、磁盘还是高并发?有什么工具可以定位?TOP、PS还是vmstat?CPU高&Load高和CPU低&am
Linux CPU过高问题排查及jvm调优思路
导语在衡量服务器指标时我们常常会关注load、cpu、mem、qps,很多时候线上指标出问题就伴随着这些指标的异常。本文主要介绍了一个非常重要的指标CPU过高怎么排查,聊聊如何排查和调优CPU! 正文平均负载平均负载等于逻辑 CPU 个数,表示每个 CPU 都恰好被充分利用。如果
CPU 优化高级篇:Linux系统中CPU占用率较高问题排查思路与解决方法
导语作为 Linux 运维工程师,在日常工作中我们会遇到 Linux服务器上出现CPU负载达到100%居高不下的情况,如果CPU 持续跑高,则会影响业务系统的正常运行,带来企业损失。正文:面对 Linux服务器上出现CPU负载很多运维的同学往往会不知所措,对于CPU过载问题通常使用以下两种方
Linux系统平均负载高排查和优化
导语等待磁盘I/O完成的进程过多,导致进程队列长度过大,但是cpu运行的进程却很少,这样就体现到负载过大了,cpu使用率低。本篇是一篇负载高排查和优化的过程,适合中级开发者朋友阅读!正文问题现象系统平均负载高,但cpu,内存,磁盘io都正常 什么是系统平均负载平均负载是指单位
HeapDump性能社区专题系列二:手把手教你了解OOM
不同类型的OOM产生原因是什么?生产环境碰到OOM该如何分析、怎么解决?有哪些好的定位工具? 本期HeapDump性能社区OOM专题文章收录了20篇相关文章,包含专家经验总结、大佬源码分析,以及大量的实战案例,希望大家读完都有收获。
记一次异步日志设置不合理导致线程阻塞问题排查
作为PerfMa解决方案管理部门的技术专家,我在工作遇见过很多各种问题导致的性能问题,并参与了为客户的系统进行性能诊断调优的全过程。其中有一次,碰到了一个异步日志设置不合理导致线程阻塞的情况。用文字记
HeapDump性能社区Full GC异常问题排查实战案例精选合集
处理过线上问题的同学基本都遇到过系统突然运行缓慢,CPU 100%,以及 Full GC 次数过多的问题。这些问题最终导致的直观现象就是系统运行缓慢,并且有大量的报警。本期小编集合了HeapDump性

有开始,就会有进​步!

在追求性能的道路上,记录每一刻的成长!源码解读,编程技巧,外文翻译,技术实践,线上案例等等,记录自己,启发他人!

专家作者推荐

巡山小汪

关注微信公众号《解Bug之路》,有问题请在公众号中咨询:) 无论多么艰苦的时刻,都不要忘记,辉煌的未来,在你的眼中闪耀!

飞哥开发内功

《深入理解Linux网络》作者,腾讯搜狗十年工程师,公众号「开发内功修炼」作者!

踩刀诗人

聊聊技术,唠唠段子,偶尔做菜写诗,欢迎关注我的公众号 踩刀诗人

Brand

搜索关注微信公众号【架构与思维】:撰稿者为bat、字节的几位高阶研发/架构,专注技术分享。

专题推荐

Netty 是一个异步事件驱动的网络通信层框架,用于快速开发高可用高性能的服务端网络框架与客户端程序,它极大地简化了 TCP 和 UDP 套接字服务器等网络编程。
作者:闪电侠,《跟闪电侠学 Netty》已出版了。书的前半部分是掘金小册中的内容:通过一个完整的 IM 项目入门 Netty;后半部分用了较大的篇幅来介绍 Netty 的底层原理,也会穿插讲一些源码阅读的思路,希望能够帮助到你。
13篇文章21840阅读量
Out of memory (OOM) 是一种操作系统或者程序已经无法再申请到内存的状态。经常是因为所有可用的内存,包括磁盘交换空间都已经被分配了。OOM的官方解释是:Understand the OutOfMemoryError Exception,根据HeapDump性能社区专属讲师公与的总结,常见的OOM有以下10种(其中OOM Killer是操作系统层面的概念)。
11篇文章12748阅读量