性能文章>如何监测 Linux 的磁盘 I/O 性能>

如何监测 Linux 的磁盘 I/O 性能转载

1月前
181800

导语

我们了解到 Linux 存储系统 I/O 栈由文件系统层(file system layer)、通用块层( general block layer)和设备层(device layer)构成。

 

其中,通用块层是 Linux 磁盘 I/O 的核心。向上,它为访问文件系统和应用程序的块设备提供了标准接口;向下,它将各种异构磁盘设备抽象为一个统一的块设备,并响应文件系统和应用程序发送的 I/O。

 

在本文中,我们来看看磁盘的性能指标以及如何查看这些指标。

 

正文

Linux 磁盘性能指标


在衡量磁盘性能时,我们经常提到五个常见指标:利用率、饱和度、IOPS、吞吐量和响应时间。这五个指标是衡量磁盘性能的基本指标。

 

  • 利用率(Utilization):磁盘处理 I/O 的时间百分比。过度使用(如超过 80%)通常意味着磁盘 I/O 存在性能瓶颈。
  • 饱和度(Saturation):指磁盘处理 I/O 的繁忙程度。过度饱和意味着磁盘存在严重的性能瓶颈。当饱和度为 100% 时,磁盘无法接受新的 I/O 请求。
  • IOPS(Input/Output Per Second):指每秒 I/O 请求的数量。
  • 吞吐量(Throughput):每秒 I/O 请求的大小。
  • 响应时间(Response time):指发送 I/O 请求和接收响应之间的间隔时间。

 

这里需要注意的是,关于利用率,我们只考虑有无 I/O,而不考虑 I/O 的大小。也就是说,当利用率为 100% 时,磁盘仍有可能接受新的 I/O 请求。

一般来说,在为应用选择服务器时,首先要对磁盘的 I/O 性能进行基准测试,这样才能准确评估磁盘性能,以判断是否能够满足应用的需求。

当然,这需要你在随机读、顺序读、随机写、顺序写等各种应用场景下测试不同 I/O 大小(通常是 512B ~ 1MB 之间)的性能。

 

磁盘 I/O 观察


首先要观察的是每个磁盘的使用情况。iostat 是最常用的磁盘 I/O 性能观察工具。它提供了各种常用性能指标,例如每个磁盘的利用率、IOPS 和吞吐量。当然,这些指标实际上来自 

/proc/diskstats

以下是 iostat的输出示例:

 

# -d -x means display all disk I/O performance
$ iostat -d -x 1 
Device            r/s     w/s     rkB/s     wkB/s   rrqm/s   wrqm/s  %rrqm  %wrqm r_await w_await aqu-sz rareq-sz wareq-sz  svctm  %util 
loop0            0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00 
loop1            0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00 
sda              0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00 
sdb              0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00


在上述指标中,您需要注意的是:

  •  %util是我们前面提到的磁盘 I/O 使用情况
  • r/s和 w/s 是 IOPS
  • rkB/s和 wkB/s是吞吐量
  • r_await 和 w_await是响应时间

您可能已经注意到 iostat不能直接获取磁盘的饱和度。事实上,通常没有什么简单的方法可以测量饱和度。但是,您可以将观察到的平均请求队列长度或完成读写请求的等待时间与基准测试(例如通过 fio)的结果进行比较,以综合评估磁盘饱和度。

 

进程 I/O 观察


除了每个磁盘的 I/O 情况,每个进程的 I/O 情况也是大家关注的重点。

上面提到的 iostat只提供了观察磁盘的整体 I/O 性能数据。缺点是无法知道哪些进程正在读写磁盘。要观察进程的 I/O,还可以使用 pidstat 和 iotop 工具。

 

例如,要使用 

pidstat
$ pidstat -d 1 
13:39:51      UID       PID   kB_rd/s   kB_wr/s kB_ccwr/s iodelay  Command 
13:39:52      102       916      0.00      4.00      0.00       0  rsyslogd


从 pidstat的输出可以看出,它可以实时查看每个进程的 I/O 情况,这包括以下内容:

用户 ID (UID) 和进程 ID (PID)。每秒读取的数据大小 (kB_rd/s),以 KB 为单位。每秒发出的写请求数据的大小(kB_wr/s),单位为KB。每秒取消写入请求的数据大小 (kB_ccwr/s),以 KB 为单位。块 I/O 延迟 (iodelay),包括等待同步块(synchronized block)I/O 和换入块(swap-in block)I/O 完成的时间,以时钟周期为单位。除了使用 pidstat 实时查看进程磁盘 I/O 外,还有一个磁盘性能分析的常用方法是根据 I/O 大小对进程进行排序。为此,我推荐 iotop 工具。它是一个类似于 top 的工具,可以按 I/O 大小对进程进行排序,并找到具有更大 I/O 的进程。

$ iotop
Total DISK READ :       0.00 B/s | Total DISK WRITE :       7.85 K/s 
Actual DISK READ:       0.00 B/s | Actual DISK WRITE:       0.00 B/s 
  TID  PRIO  USER     DISK READ  DISK WRITE  SWAPIN     IO>    COMMAND 
15055 be/3 root        0.00 B/s    7.85 K/s  0.00 %  0.00 % systemd-journald


从该输出可以看到,前两行分别代表进程的磁盘读写总大小和磁盘的实际读写总大小。由于缓存、缓冲区、I/O 合并等因素,它们可能不相等。

剩下的部分从各个角度代表了进程的 I/O 情况,包括 线程 ID、I/O 优先级、每秒磁盘读取大小、每秒磁盘写入大小、换入百分比和等待 I/O 时钟百分比。

 

结论


在本文中,我介绍了 Linux 磁盘 I/O 的性能指标和查看性能工具。我们通常使用 IOPS、吞吐量、利用率、饱和度和响应时间等几个指标来评估磁盘的 I/O 性能。

可以使用 iostat 获取磁盘的 I/O 情况,也可以使用 pidstat、iotop等观察进程的 I/O 情况。但在分析这些性能指标时,要注意结合读写比率、I/O 类型、I/O 大小等综合分析。

 

分类:标签:
请先登录,感受更多精彩内容
快去登录吧,你将获得
  • 浏览更多精彩评论
  • 和开发者讨论交流,共同进步

为你推荐

80%的 Linux 使用者都不懂的内存优化
前言之前在实习时,听了 OOM 的分享之后,就对 Linux 内核内存管理充满兴趣,但是这块知识非常庞大,没有一定积累,不敢写下,担心误人子弟,所以经过一个一段时间的积累,对内核内存有一定了解之后,今天才写下这篇文章记录,分享。这篇文章主要是分析了单个进程空间的内存布局与分配,是从全局的视角分析下
揭秘Linux 高性能服务 epoll 的本质
导语epoll接口是为解决Linux内核处理大量文件描述符而提出的方案。该接口属于Linux下多路I/O复用接口中select/poll的增强。其经常应用于Linux下高并发服务型程序,特别是在大量并发连接中只有少部分连接处于活跃下的情况 (通常是这种情况),在该情况下能显著的提高程序的CPU利用
如何监测 Linux 的磁盘 I/O 性能
导语我们了解到 Linux 存储系统 I/O 栈由文件系统层(file system layer)、通用块层( general block layer)和设备层(device layer)构成。 其中,通用块层是 Linux 磁盘 I/O 的核心。向上,它为访问文件系统和应用程序的块
Linux CPU过高问题排查及jvm调优思路
导语在衡量服务器指标时我们常常会关注load、cpu、mem、qps,很多时候线上指标出问题就伴随着这些指标的异常。本文主要介绍了一个非常重要的指标CPU过高怎么排查,聊聊如何排查和调优CPU! 正文平均负载平均负载等于逻辑 CPU 个数,表示每个 CPU 都恰好被充分利用。如果
CPU 优化高级篇:Linux系统中CPU占用率较高问题排查思路与解决方法
导语作为 Linux 运维工程师,在日常工作中我们会遇到 Linux服务器上出现CPU负载达到100%居高不下的情况,如果CPU 持续跑高,则会影响业务系统的正常运行,带来企业损失。正文:面对 Linux服务器上出现CPU负载很多运维的同学往往会不知所措,对于CPU过载问题通常使用以下两种方
Linux 中借助 perf 对 php 程序模拟CPU高的案例分析
导语本文是一篇Linux借助工具分析CPU高的优化案例,没有任何干货内容,很详细的展示了优化CPU高的具体步骤,非常适合初中级读者阅读! 正文案例分析通过使用相关工具找出CPU使用率高的进程之后,我们需要知道这个进程中的哪个函数占用了过高的CPU,然后才能更高效、更有针对性的进行
一次关于传输层基本原理及故障分析
导语传输层最重要的是 TCP 和 UDP 协议,所以这儿整理的主要是对这两种协议的原理和常见故障分析。 正文1、基本原理TCP 提供了面向连接的可靠传输服务。要优化 TCP,我们首先要掌握 TCP 协议的基本原理,比如流量控制、慢启动、拥塞避免、延迟确认以及状态流图(如下图所示)
Linux系统平均负载高排查和优化
导语等待磁盘I/O完成的进程过多,导致进程队列长度过大,但是cpu运行的进程却很少,这样就体现到负载过大了,cpu使用率低。本篇是一篇负载高排查和优化的过程,适合中级开发者朋友阅读!正文问题现象系统平均负载高,但cpu,内存,磁盘io都正常 什么是系统平均负载平均负载是指单位