有时,每当我在Linux上编写程序并由于某种错误而崩溃时,它将变成不间断的进程并永远运行,直到我重新启动计算机(即使注销)。我的问题是:
不间断进程是恰好在系统调用(内核函数)中的进程,无法被信号打断。
要了解这意味着什么,您需要了解可中断系统调用的概念。典型的例子是read()。这是一个系统调用,可能需要很长时间(几秒钟),因为它可能涉及旋转硬盘驱动器或移动磁头。在这段时间的大部分时间内,进程将处于hibernate状态,从而阻塞硬件。
read()
当进程在系统调用中处于睡眠状态时,它可以接收Unix异步信号(例如SIGTERM),然后发生以下情况:
从系统调用中提早返回使得用户空间代码可以响应信号而立即更改其行为。例如,对SIGINT或SIGTERM的反应干净地终止。
另一方面,不允许以这种方式中断某些系统调用。如果系统由于某种原因而导致停顿,则该过程可能会无限期保持这种不可杀灭的状态。
LWN 在7月发表了一篇不错的文章,触及了这个话题。
要回答原始问题:
如何防止这种情况的发生:找出造成您麻烦的驱动程序,然后停止使用或成为内核黑客并对其进行修复。
如何在不重新启动的情况下杀死不间断的进程:以某种方式使系统调用终止。通常,最有效的方法是不拉电源线就拉电源线。您还可以成为内核黑客,并使驱动程序使用TASK_KILLABLE,如LWN文章中所述。