僵尸进程的成因以及僵尸可以被“杀死”吗？

僵尸不可能被杀死，因为它已经死了，不存在再死一次的问题。死的对立面是活，死者已死。只有活的进程才可能被杀死。

什么是僵尸

首先要明确一点，僵尸进程的含义是：子进程已经死了，但是父进程还没有wait它的一个中间状态，这个时候子进程是一个僵尸。正常情况下子死，父wait，清理掉子进程的task_struct，释放子进程的PID:

编译上述程序，运行，我们看到2个a.out进程：

杀死子进程4578，看到父进程的打印：

之后,4578会消失，因为父进程执行到了wait，也知道了子进程是被信号2杀掉的。

但是如果子进程死了，父进程不执行到wait，比如把上图中的"#if 0"改为"#if 1"，杀死子进程后，子进程就会是一个僵尸：

我们重新运行，当我们用kill -2杀掉子进程4628后，我们发现4628成为一个僵尸，状态变为Z+，名字上也加了一个棺材[]，成为[a.out]：

僵尸不可能被杀死

我们看到上面4628是个僵尸很不爽，所以我们想把它干掉，据说Linux有个信号9，神挡杀神，佛挡杀佛，我们现在来用kill -9干掉4628：

从上图可以看出，我们把4628用kill -9捅了好多刀，但是最后看4628这个僵尸，还是没有消失。

因为僵尸已经是死了，它不可能再次被杀死，你给它捅一万刀，它也是个死人，不可能再次死！

僵尸不可能被杀死，因为它已经死了！只等父进程来wait清理尸体了。

这个时候我们能够把僵尸消失掉的方法，就是杀死僵尸进程的父进程4627。

一个僵尸可以被杀死的假象

下面的这个程序证明“僵尸可以被杀死”：

我们在主线程里面，pthread_create()创建线程后，pthread_exit()退出，这个时候我们会发现，在ps命令里面,a.out显示为一个僵尸：

这个时候我们来杀死4730这个僵尸：

kill -9 4730

我们会惊奇地发现，4730真地会从ps命令里面消失！

我们把时间轴拉回调用"kill -9 4730"之前。刚才我们“看起来”能杀死僵尸的本质原因是,当主线程4730调用pthread_exit()退出后，主线程4730的状态确实是僵尸了，但是该进程里面的4731线程，却没有死：

看看4731:

4731是活着的，证明整个进程并没有挂。所以4730的退出，只是让整个进程半死。而由于ps这些命令的误会，4730凑巧又是整个进程的PID，它显示地好像整个4370成了僵尸一样。

那么，根据POSIX标准关于信号(signal)的定义，当我们执行kill -9 4730(4730是4730和4731的TGID，也是整个进程用户态视角的PID)的时候，是要杀死整个4730进程的，所以这个时候4731被我们杀死，整个进程就都死了，这个时候，执行到父进程的wait逻辑，导致僵尸消失。

所以，在本例中，kill -9 4730看起来是"杀死了僵尸”，实际是杀死了4730整个进程（里面的每个线程），导致整个进程死。在次之前，整个进程实际还是活的。