基本信息

Lv1
michi

荣誉勋章

Lv1
  • 记一次线上 K8s Ingress 访问故障排查和优化
    导语本篇是应用迁移至我们的paas平台后发生的502问题,本篇是K8s一次较为简单的排查和优化,希望大家能有所收获!正文具体现象应用迁移至我们的PaaS平台后会出现偶发性的502问题,错误见图片:相比于程序的请求量,错误肯定是比较少的,但是错误一直在发生,会影响调用方的代码,需要检查下问
  • 80%的 Linux 使用者都不懂的内存优化
    前言之前在实习时,听了 OOM 的分享之后,就对 Linux 内核内存管理充满兴趣,但是这块知识非常庞大,没有一定积累,不敢写下,担心误人子弟,所以经过一个一段时间的积累,对内核内存有一定了解之后,今天才写下这篇文章记录,分享。这篇文章主要是分析了单个进程空间的内存布局与分配,是从全局的视角分析下
  • Linux磁盘缓存机制导致的线上故障的排查过程
    导语本文是一篇Linux磁盘优化的运维相关的内容,本篇介绍了磁盘缓存出现了问题应该从几个方面入手解决问题,尤其是对于缓存的处理,希望大家看完本篇文章有所收获。正文最近遇到了一起跟磁盘相关的线上故障,借此总结一下之前不太了解的Linux磁盘缓存相关的知识。总的来说磁盘缓存出现的原因大概有两个:
  • 美团在运营大规模集群管理的问题和优化
    导语集群调度系统在企业数据中心中占有举足轻重的地位,随着集群规模与应用数量的不断激增,开发者处理业务问题的复杂度也显著提升。如何解决大规模集群管理的难题,设计优秀且合理的集群调度系统,做到保稳定,降成本,提效率?本文将会逐一进行解答。 正文集群调度系统介绍集群调度系统,又被称为数
  • 作业帮云原生容器在大规模任务场景下的落地和优化
    导语作业帮的云原生容器在cronjob规模较小的情况下运行是正常的,但是当cronjob的规模扩大后集群内节点变的不稳定,集群资源利用率也不高,本篇主要针对这两点来做优化; 正文1.背景​在作业帮的云原生容器化改造进程中,各业务线原本部署在虚拟机上的定时任务逐渐迁移到 Kuber
  • 优化 Nginx HTTPS 延迟让Nginx提速 30%!
    导言Nginx 常作为最常见的服务器,常被用作负载均衡 (Load Balancer)、反向代理 (Reverse Proxy),以及网关 (Gateway) 等等。一个配置得当的 Nginx 服务器单机应该可以期望承受住 50K 到 80K 左右[1]每秒的请求,同时将 CPU 负载在可控范围内
  • Linux 启动时间优化实战,2.41 秒启动应用!
    导言快速启动嵌入式设备或电信设备,对于时间要求紧迫的应用程序是至关重要的,并且在改善用户体验方面也起着非常重要的作用。这个文章给予一些关于如何增强任意设备的启动时间的重要技巧。 正文 Hi, 我是老吴。今天看了一个关于启动优化的讲座,简单总结一下。本文的目标是尝试一
  • 记一次服务器被入侵,没想到这么简单就搞定了!
    导语常在河边走,哪能不湿鞋。自认为安全防范意识不错,没想到服务器被入侵挖矿的事情也能落到自己头上。本文简要记录发现服务器被入侵挖矿的过程,同时分析木马的痕迹和信息,最后给出解决方法。服务器被入侵挖矿过程 事情经过昨天是周六,睡得比较晚。躺床上玩手机时忽然收到阿里云短信和邮件提醒,服
  • Kafka 容错及高可用原理
    背景 在kafka中以分区作为复制单元。每个topic由一个或多个分区组成,每个分区都包含一个leader副本及0个或多个follower副本。当你在创建topic时,需要指定分区数及复制因子。通常情况下一个复制因子是3的topic表明它有一个leader副本及两个follower副本
  • SQL优化之数据倾斜解决实战
    导言数据倾斜即指在大数据计算任务中某个处理任务的进程(通常是一个JVM进程)被分配到的任务量过多,导致任务运行时间超长甚至最终失败,进而导致整个大任务超长时间运行或者失败。外部表现的话,在HiveSQL任务里看到map或者reduce的进度一直是99%持续数小时没有变化;在SparkSQL里则是某