性能文章>无异常日志,就不能排查问题了???>

无异常日志,就不能排查问题了???原创

4年前
7590413

小声逼逼

众所周知,日志是排查问题的重要手段。关于日志设计,以及怎么根据从【用户报障】环节开始到秒级定位问题这个我们下一期说(绝非套路),这一期,主要讲一下,在没有异常日志的情况下,如何定位问题。没有日志当真能排查问题,不会是标题党吧!

案例一

从最大的同性交友网站中拉取【dubbo-spring-boot-project】的代码。

image.png

然后把demo跑起来。

本场景是由真实案例改编,因为公司代码比较复杂也不方便透露,而这个demo在github上大家都能找到,既保证了原汁原味,又能让大家方便自己体验排查过程。

好了,我们先设置owner = "feichao",然后看一下控制台。

image.png

image.png

一切正常

那么,当我设置成owner = "feichaozhenshuai!",再启动

image.png

看似一切都正常,那么,我们到控制台一看。

image.png

什么情况,怎么就没owner了?

这是在哪个环节出问题了?其实肥朝当初在公司遇到这个问题的时候,场景比这个复杂得多。因为公司的业务里没有owner的话,在运行时会出现一些其他异常,涉及公司业务这里就不展开了,我们言归正传,为毛我设置成feichaozhenshuai!就不行了,那我设置成肥朝大帅比电脑会不会爆炸啊???

image.png

常见的错误做法是,把这个问题截图往群里一丢,问“你们有没有遇到过dubbo里面,owner设置不生效的问题?”

image.png

而关注了肥朝公众号的【真爱粉丝】会这么问,“dubbo里面设置owner却不生效,你们觉得我要从个角度排查问题?”。一看到这么正确的提问方式,我觉得我不回复你都不好意思。好了,回到主题,这个时候,没有一点点错误日志,但是却设置不成功,我们有哪些排查手段?

套路一

直接找set方法,看看是不是代码做了判断,防止在owner字段里面set类似肥朝真帅这种词语,避免把帅这件事走漏风声!。这么一分析似乎挺有道理对吧,那么,如何快速找到这个set方法呢?如图

image.png

public void setOwner(String owner) {
    checkMultiName("owner", owner);
    this.owner = owner;
}

我们跟进checkMultiName代码后发现

protected static void checkProperty(String property, String value, int maxlength, Pattern pattern) {
    if (StringUtils.isEmpty(value)) {
        return;
    }
    if (value.length() > maxlength) {
        throw new IllegalStateException("Invalid " + property + "=\"" + value + "\" is longer than " + maxlength);
    }
    if (pattern != null) {
        Matcher matcher = pattern.matcher(value);
        if (!matcher.matches()) {
            throw new IllegalStateException("Invalid " + property + "=\"" + value + "\" contains illegal " +
                    "character, only digit, letter, '-', '_' or '.' is legal.");
        }
    }
}

从异常描述就很明显可以看出,原来owner里面是只支持-和_等这类特殊符号,!是不支持的,所以设置成不成功,和肥朝帅不帅是没关系的,和后面的!是有关系的。擦,原来是肥朝想多了,给自己加戏了!!!

当然肥朝可以告诉你,在后面的版本,修复了这个bug,日志会看得到异常了。这个时候你觉得问题就解决了?

我相信此时很多假粉就会关掉文章,或者说下次肥朝发了一些他们不喜欢看的文章(你懂的)后,他们就从此取关,但是肥朝想说,且慢动手!!!

你想嘛,万一你以后又遇到类似的问题呢?而且源码层次很深,就不是简单的搜个set方法这么简单,这次给你搜到了set方法并解决问题,简直是偶然成功。因此,我才多次强调,要持续关注肥朝,掌握更多套路。这难道是想骗你关注?我这分明是爱你啊!

那么,万一以后遇到一些吞掉异常,亦或者某些原因导致日志没打印,我们到底如何排查?

套路二

我们知道idea里面有很多好用的功能,比如肥朝之前的【看源码,我为什么推荐IDEA?】中就提到了条件断点,除此之外,还有一个被大家低估的功能,叫做异常断点。

image.png

肥朝扫了一眼,里面的单词都是小学的英语单词,因此怎么使用就不做过多解释。遇到这个问题时,我们可以这样设置异常断点。

image.png

运行起来如下:

image.png

这样,运行起来的时候,就会迅速定位到异常位置。然后一顿分析,应该很容易找出问题。

是不是有点感觉了?那我们再来一个题型练习一下。

案例二

我们先在看之前肥朝粉丝群的提,虑到部分粉丝不在群里,我就简单描述一下这个粉丝的问题,他代码有个异常,然后catch打异常日志,但是日志却没输出。

当然你还是不理解也没关系,我根据该粉丝的问题,给你搭建了一个最简模型的demo,模型虽然简单,但是问题是同样的,原汁原味,熟悉的配方,熟悉的味道。git地址,我们运行起来看一下。

@Slf4j
public class HelloSpringApplicationRunListener implements SpringApplicationRunListener {

    public HelloSpringApplicationRunListener(SpringApplication application, String[] args) {
    }

    @Override
    public void starting() {

    }

    @Override
    public void environmentPrepared(ConfigurableEnvironment environment) {

    }

    @Override
    public void contextPrepared(ConfigurableApplicationContext context) {
        throw new RuntimeException("欢迎关注微信公众号【肥朝】");
    }

    @Override
    public void contextLoaded(ConfigurableApplicationContext context) {

    }

    @Override
    public void finished(ConfigurableApplicationContext context, Throwable exception) {
    }
}

image.png

你会发现,一运行起来进程就停止,一点日志都没。绝大部分假粉丝遇到这个情况,都是菊花一紧,一点头绪都没,又去群里问”你们有没有遇到过,Springboot一起来进程就没了,但是没有日志的问题?“。正确提问姿势肥朝已经强调过,这里不多说。那么我们用前面学到的排查套路,再来走一波

image.png

image.png

我们根据异常栈顺藤摸瓜

image.png

我们从代码中看出两个关键单词【reportFailure】、【context.close()】,经过断点我们发现,确实是会先打印日志,再关掉容器。但是为啥日志先执行,再关掉容器,日志没输出,容器就关掉了呢?因为,这个demo中,日志是全异步日志,异步日志还没执行,容器就关了,导致了日志没有输出。

该粉丝遇到的问题是类似的,他是单元测试中,代码中的异步日志还没输出,单元测试执行完进程就停止了。知道了原理解决起来也很简单,比如最简单的,跑单元测试的时候末尾先sleep一下等日志输出。

在使用Springboot中,其实经常会遇到这种,启动期间出现异常,但是日志是异步的,日志还没输出就容器停止,导致没有异常日志。知道了原理之后,要彻底解决这类问题,可以增加一个SpringApplicationRunListener

/**
 * 负责应用启动时的异常输出
 */
@Slf4j
public class OutstandingExceptionReporter implements SpringApplicationRunListener {

    public OutstandingExceptionReporter(SpringApplication application, String[] args) {
    }

    @Override
    public void starting() {

    }

    @Override
    public void environmentPrepared(ConfigurableEnvironment environment) {

    }

    @Override
    public void contextPrepared(ConfigurableApplicationContext context) {

    }

    @Override
    public void contextLoaded(ConfigurableApplicationContext context) {

    }

    @Override
    public void finished(ConfigurableApplicationContext context, Throwable exception) {
        if (exception != null) {
            log.error("application started failed",exception);
            try {
                Thread.sleep(100);
            } catch (InterruptedException e) {
                log.error("application started failed", e);
            }
        }
    }
}

再啰嗦一句,其实日志输出不了,除了这个异步日志的案例外,还有很多情况的,比如日志冲突之类的,排查套路还很多,因此,建议持续关注,每一个套路,都想和你分享!

什么是编程思想?

肥朝始终觉得,要想比别人更优秀,除了比别人更努力这个必要因素外,思维方式,也是我们必要关注的一个重点。比如在案例二中,很多同学知道了bug之后,就认为自己学到东西了,其实这个想法既正确,也不正确。

正确的地方在于,你知道了这个bug,后面遇到相同的问题,你会猜一下是不是同样的原因。

不正确的地方在于,你只知道了这个bug出现的某个场景,但是当我们遇到这个问题,应对的排查套路有哪些你并不知道。也就是说,如果这个问题过后,你排查问题的套路并没有增加,亦或者你没有能从这个问题上,发散出自己的想法,继续压榨出更多的价值,本质上,你的编程能力,其实并没有提升的。

然而,你一旦在公司时间长了,也就是我们常说的老油条,对公司的某些坑熟悉,新人遇到问题时,就容易猜对可能是某个坑。但是其实你的套路来来去去就那几个,本质上你的编程能力并没有提升,却让你产生了自己越来越牛逼,这下必须要加薪的错觉。

一个公司总是有线上报障是有问题的,但是一直不出问题也有问题的。当然很多时候,排查的机会或许轮不到你。这个时候,就会有常见的几种做法。

1.公司确实项目太简单,基本没有什么拿得出手的bug,都是一些低级的漏掉配置的bug。

2.大佬们在排查,反正不是我的问题,那我就看群吹吹水,下班美滋滋。

3.大佬们在排查,等他们有结论了,我就过去问一句是啥问题,然后暗自记下来,下次面试的时候就说是自己排查的,吹一波,美滋滋。

4.大佬们在排查,得知原因后,深入思考,大佬们为啥会想到是这个原因,他们是怎么排查的?用了哪些排查工具?排查技巧?然后暗自总结一波,并把自己代入场景,脑补一下自己来排查问题,并把这个bug压榨出更多价值!

点赞收藏
肥朝
请先登录,查看4条精彩评论吧
快去登录吧,你将获得
  • 浏览更多精彩评论
  • 和开发者讨论交流,共同进步

为你推荐

随机一门技术分享之Netty

随机一门技术分享之Netty

MappedByteBuffer VS FileChannel:从内核层面对比两者的性能差异

MappedByteBuffer VS FileChannel:从内核层面对比两者的性能差异

13
4