性能文章>一文学会Java死锁和CPU 100% 问题的排查技巧>

一文学会Java死锁和CPU 100% 问题的排查技巧原创

1年前
7011111

Java死锁排查和解决

要排查和解决死锁,首先思考三个问题:

  1. 什么是死锁?

  2. 为什么会出现死锁?

  3. 怎么排查代码中出现了死锁?

  4. 如何避免写出死锁的代码?

作为技术人员(工程师),在出现问题的时候,能够尽快的去解决这个问题。但是在学习技术知识的时候,还是脚踏实地,多问一些为什么,一个好的问题,能够让自己思考,这方面的能力也一定要锻炼锻炼哦,这样才能更好的理解和掌握知识,并探究/触碰到更深入的地方。

啥是死锁?

死锁是指两个或两个以上的进程在执行过程中,由于竞争资源或者由于彼此通信而造成的一种阻塞的现象,若无外力作用,它们都将无法推进下去。此时称系统处于死锁状态或系统产生了死锁,这些永远在互相等待的进程称为死锁进程。

image.png

注:进程和线程都可以发生死锁,只要满足死锁的条件

为啥子会出现死锁?

从上面的概念中我们知道

(1)必须是两个或者两个以上进程(线程)

(2)必须有竞争资源

怎么排查代码中出现了死锁?【重点来了】

首先整一个死锁的代码,看例子:

image.png

上面这段代码执行后,就会出现死锁,排查的姿势有如下几种,搞起来吧!

第一个姿势:使用 jps + jstack

一:在windons命令窗口,使用jps -l【不会使用jps请自行查询资料】

image.png

二:使用 jstack -l 12316 【不会使用jstack请自行查询资料】

image.png

第二个姿势:使用jconsole

在window打开 JConsole,JConsole是一个图形化的监控工具!

一:在windons命令窗口 ,输出JConsole,如下图:

image.png

二:选择到线程的tab上,如下截图。

image.png

第三个姿势:使用Java Visual VM

在window打开 jvisualvm,jvisualvm是一个图形化的监控工具!

一:在windons命令窗口 ,输出 jvisualvm

image.png

二:依然是切换到线程这个TAB上,很明显的就有提示!

image.png

如何避免死锁?

上面说了死锁出现的原因以及通过三种方式来检测和排查死锁,下面更重要的东西来了,就是如何避免死锁,如果能够让写出的代码避免死锁出现也就没有上面这些排查的过程了。最好的是从源头控制问题,而不是后期遇到问题在去填坑。

我看了阿里巴巴中最新的开发规约,里面有对避免死锁的说明,具体如下:

【强制】对多个资源、数据库表、对象同时加锁时,需要保持一致的加锁顺序,否则可能会 造成死锁。说明:线程一需要对表 A、B、C 依次全部加锁后才可以进行更新操作,那么线程二的加锁顺序也必须是 A、B、C,否则可能出现死锁。

Java CPU 100% 排查技巧

第一个姿势,步骤有点多,难度四星

平时多积累一点,这样在遇到问题的时候就少句求人的话。如果在实际的开发中遇到CPU 100%问题,要怎么排查呢?如果你没有遇到过这个问题,请先自己思考10s,如果你遇到过,这个时候也正好可以在回顾一遍。

一、 使用top命令查看cpu占用资源较高的PID

image.png

当前占用cup100% 的PID为3455。

二、通过jps找到当前用户下的java程序PID

执行jps -l能够打印出所有的应用的PID,找到有一个PID和这个cpu使用100%一样的ID!!!就知道是哪一个服务了。知道了对应的服务,在接着后续的分析步骤。

三、 使用 pidstat -p < PID > 1 3 -u -t

-p:指定进程号
-u:默认的参数,显示各个进程的cpu使用统计
-t:显示选择任务的线程的统计信息外的额外信息

image.png

image.png

四、找到cpu占用较高的线程TID ,通过上图发现是 3467的TID占用cup较大

五、 因为jstack命令输出文件记录的线程ID是16进制。因此我们先将TID转换为十六进制的表示方式,转换方式可以参考下图。

将3467转为十六进制 d8d,注意是小写!! 记录下来,后面会使用。

image.png

六、通过jstack [-l] PID输出当前进程的线程信息

jstack PID  /temp/test.log

七、查找 TID对应的线程(输出的线程id为十六进制),找到对应的代码,使用命令查找哦,不要肉眼比对,具体命令请思考,给你表现机会。

image.png

找到之后具体分析这个线程在干什么,为什么会占用这么多的 CUP资源。

PS:线程的几种状态如下说明:

NEW,未启动的。不会出现在Dump中。
RUNNABLE,在虚拟机内执行的。
BLOCKED,受阻塞并等待监视器锁。
WATING,无限期等待另一个线程执行特定操作。
TIMED_WATING,有时限的等待另一个线程的特定操作。
TERMINATED,已退出的。

推荐两个高效排查问题工具

一 :show-busy-java-threads

image.png

简单安装和使用过程:

1.下载 show-busy-java-threads[2]
2.上传服务器,然后进行解压
3.然后执行对应的命令

image.png

二:阿里开源的问题定位神器 arthas 来定位问题。

这个里面有很多命令,如thread 支持一键展示当前最忙的前N个线程并打印堆栈,最简单的 thread -n 10 即可将最忙碌的十个线程快照打印出来,真正高效。

image.png

定位神器 arthas 安装过程就不做介绍了,如果你还没有用过这个工具,我建议一定去用一下,说不定你会爱上它!

总结

本文内容比较多,基本上是手把手的教程了,希望能够对你有所帮助,也建议没有遇到类似问题的伙伴,看完之后一定要亲自去实践一下操作过程(有些姿势光看不用是不行的),如果没有环境可以自行想办法搞一个测试例子。还是老话:不要眼高手低,看了和做了本质上两个概念,最终收获的也一定不同

彩蛋-另一个姿势

也可以通过使用jstack找到系统的代码性能问题

1、在进行压力测试的时候,使用jps找到应用的PID

2、然后使用jstack输出出压力测试时候应用的dump信息

3、分析输出的日志文件中那个方法block线程占用最多,这里可能是性能有问题,找到对应的代码分析

请先登录,再评论

嗯,学习了,需要去实践。

9月前

为你推荐

类初始化导致死锁
一张图简单描述死锁 如上图,Thread1 拿到了 object1,Thread2 拿到了 object2,但是现在 Thread1 需要拿到 object2 的锁才能继续往下,Thread2 又要拿到 object1 才能继续往下
字符串字面量长度是有限制的
前言 偶然在一次单元测试中写了一个非常长的字符串字面量。 正文 在一次单元测试中,我写了一个很长的字符串字面量,大概10万个字符左右,编译时,编译器给出了异常告警 `java: constant
多次字符串相加一定要用StringBuilder而不用-吗?
今天在写一个读取Java class File并进行分析的Demo时,偶然发现了下面这个场景(基于oracle jdk 1.8.0_144): ``` package test; public c
如何通过反射获得方法的真实参数名(以及扩展研究)
前段时间,在做一个小的工程时,遇到了需要通过反射获得方法真实参数名的场景,在这里我遇到了一些小小的问题,后来在部门老大的指导下,我解决了这个问题。通过解决这个问题,附带着我了解到了很多新的知识,我觉得
高吞吐、低延迟 Java 应用的 GC 优化实践
本篇原文作者是 LinkedIn 的 Swapnil Ghike,这篇文章讲述了 LinkedIn 的 Feed 产品的 GC 优化过程,虽然文章写作于 April 8, 2014,但其中的很多内容和
「每日五分钟,玩转 JVM」:久识你名,初居我心
聊聊 JVMJVM,一个熟悉又陌生的名词,从认识Java的第一天起,我们就会听到这个名字,在参加工作的前一两年,面试的时候还会经常被问到JDK,JRE,JVM这三者的区别。JVM可以说和我们是老朋友了
据说99.99%的人都会答错的类加载的问题
概述首先还是把问题抛给大家,这个问题也是我厂同学在做一个性能分析产品的时候碰到的一个问题。 同一个类加载器对象是否可以加载同一个类文件多次并且得到多个Class对象而都可以被java层使用吗请仔细注意
Java多线程——并发测试
编写并发程序时候,可以采取和串行程序相同的编程方式。唯一的难点在于,并发程序存在不确定性,这种不确定性会令程序出错的地方远比串行程序多,出现的方式也没有固定规则。那么如何在测试中,尽可能的暴露出这些问