Linux 中借助 perf 对 php 程序模拟CPU高的案例分析

导语

本文是一篇Linux借助工具分析CPU高的优化案例，没有任何干货内容，很详细的展示了优化CPU高的具体步骤，非常适合初中级读者阅读！

正文

案例分析

通过使用相关工具找出CPU使用率高的进程之后，我们需要知道这个进程中的哪个函数占用了过高的CPU，然后才能更高效、更有针对性的进行优化。

下面主要介绍一款相关的分析工具perf.

perf 以性能事件采样为基础，不仅可以分析系统的各种事件和内核性能，还可以用来分析指定应用程序的性能问题。

perf每隔一个固定的时间，就在CPU上（每个核上都有）产生一个中断，在中断上看看，当前是哪个pid，哪个函数，然后给对应的pid和函数加一个统计值，这样，我们就知道CPU有百分几的时间在某个pid，或者某个函数上了。

我们主要使用perf一下命令:

# 实时显示占用CPU时间最多的函数或指令及调用关系
$ perf top -g

由于perf top不能保存数据，不能用于离线后者后续的分析，perf提供了另外两个命令：

perf record: 记录系统的性能信息，退出后，将数据保存在执行命令的当前文件夹的perf.data文件中
perf report: 展示perf record命令记录的数据

字段说明：

symbol: 符号名，也就是函数名，当函数名未知时，使用16进制地址表示
Children: 表示该符号名下调用函数性能事件在所有采样中的比例
我们主要关注上述的两个指标，找出占比最高的行，即可确定CPU占用最高的函数，然后就可以去应用程序源码中寻找，然后进行相关优化。

案例

这个案例需要两台虚机,其中一台作为Web服务器，用来模拟性能问题。另一台作为Web服务器的客户端，用来给Web服务器添加压力请求。

环境启动

为了方便，使用docker进行相关部署。在Web服务器上进行以下操作，启动Web服务

# 拉取代码
git clone https://github.com/feiskyer/linux-perf-examples.git

# 打开相关文件夹
cd linux-perf-examples/nginx-high-cpu/

# 创建相关镜像
sudo make build

# 启动容器

sudo make run

然后在Web服务器客户端访问相关服务：

$ curl http://Web服务器IP:10000

如果返回It works!说明环境已经启动完毕。

1、测试Web服务器的服务性能

# 并发10个请求测试Nginx性能，总共测试100个请求
$ ab -c 10 -n 100 http://Web服务器IP:10000/

Nginx服务器的性能

从ab的输出中我们可以看到，Nginx能承受的每秒平均请求数只有27.47，性能很差！所以我们开始进行分析，找出问题所在。

为了持续的给Nginx服务器增压，我们使用以下命令，并发10个请求，持续10分钟

$ ab -c 10 -t 600 http://Web服务器IP:10000/

然后在Nginx服务器上使用top命令查看CPU的具体使用情况

$ top

可以发现，4个逻辑CPU使用率都为100%，占用CPU时间最多的是php-fpm进程，与我们预想的一样，用户空间的php-fpm进程导致CPU使用率过高。

然后我们在Nginx服务器使用perf命令查找php-fpm进程中，占用CPU最多的函数

$ sudo perf top -g

根据输出结果，我们发现没有发现相关的函数名，只有16进制的地址。这是因为perf无法找到待分析进程所依赖的库，所有的依赖库都在docker容器中，为了方便起见，我们可以在容器外面保存下相关数据(perf.data),再拷贝到容器中查看结果。

# 记录分析数据, 15秒后，使用CTRL + C结束记录
$ sudo perf record -g

# 将perf.data拷贝到容器中
$ sudo docker cp ./perf.data phpfpm:/tmp/
# 进入docker容器中
$ sudo docker exec -it phpfmp bash
# 在容器中安装perf
$  cd /tmp/
$  apt-get update && apt-get install -y linux-perf linux-tools procps
# 查看perf.data数据
$ perf_4.9 report

可以发现是sqrt函数占用的CPU最多，所以在源码中查找sqrt函数

$ cd linux-perf-examples/nginx-high-cpu/

$ grep sqrt -r app

发现sqrt函数在index.php文件中，然后进入index.php文件，发现测试代码没有删除就直接发布了，这可能就是引起问题的原因，删除多余的代码。

$ vim index.php

<?php
// test only.
$x = 0.0001;
for ($i = 0; $i <= 1000000; $i++) {
  $x += sqrt($x);
}
echo "It works!"
?>

删除//test only以下的代码，然后重新创建docker镜像，运行docker容器。然后在Web服务器客户端给Web服务器添加压力请求。

可以发现平均请求数从原来的27.47升到了512.94，性能有了很大的提升。

但是有的时候系统的CPU使用率很高,但是会找不到高CPU的应用

因为短时应用就可以导致这样的问题:

应用里直接调用了其他的二进制程序,这些程序运行时间通常较短,通过top等工具很难发现
应用本身在不停的崩溃重启,而启动过程的资源初始化,可能会占用相当多的CPU.

这类问题的分析方法:

使用perf top或者execsnoop命令找出短时进程
通过pstree命令查找短时进程的父进程,最后对其父进程进行相关的分析和优化.

小结

我们需要弄清楚各个场景下各个CPU使用率指标用户的含义,这个会给我们分析问题的时候提供一个很明确的方向。

用户CPU或者nice CPU很高，说明用户态进程占用CPU较多，应该重点排查进程的性能问题
系统CPU过高，说明内核态占用较多的内存，应该重点排查内核线程或者系统调用的性能问题
IO等待CPU过高，说明IO等待时间过长，应该重点排查系统存储IO、网络IO是否除了问题
软中断、硬件中断CPU过高，说明中断处理程序占用了过多的CPU，应该重点排查内核中的中断服务程

Linux 中借助 perf 对 php 程序模拟CPU高的案例分析转载

导语

正文

案例分析

小结

推荐阅读

本月精选性能专题

本月精选线上案例

本月精选原创好文

联系我们

网媒渠道

友情链接