Windows的结构化异常处理 .-白红宇

Windows的结构化异常处理 .

阅读量：7090 次

发布时间：2019-06-28

本文共 17676 字，大约阅读时间需要 58 分钟。

我们知道，异常就像中断，不管是什么原因(“软异常”除外)所引起，一旦发生首先进入的是内核中的异常响应/ 处理程序的入口，这就是类似于KiTrap0()那样的底层内核函数，只是因为引起异常的原因不同而进入不同的入口，就像对于不同的中断向量有不同的入口一样。在内核中，仍以页面异常为例，正如读者已经看到，CPU会从KiTrap14()进入函数KiPageFaultHandler()。在那儿，如果所发生的并非如“缺页”或“写时复制(Copy-On-Write)”那样的“正常”异常，就要根据CPU在发生异常时所处的空间而分别调用 KiKernelTrapHandler()或KiUserTrapHandler()。如果调用的是KiKernelTrapHandler()，就会顺着KPCR数据结构中的“异常(处理)队列”、即ExceptionList，依次让各个节点认领。如果被认领，就会通过SEHLongJmp()长程跳转到当初通过_SEH_HANDLE{}给定的代码中。这读者已经见到了。

但是，如果异常发生于用户空间，受到调用的就是KiUserTrapHandler()。

[_KiTrap14() > KiPageFaultHandler() > KiUserTrapHandler()]

ULONG NTAPI

KiUserTrapHandler(PKTRAP_FRAME Tf, ULONG ExceptionNr, PVOID Cr2)

{

EXCEPTION_RECORD Er;

if (ExceptionNr == 0)

{

Er.ExceptionCode = STATUS_INTEGER_DIVIDE_BY_ZERO;

}

else if (ExceptionNr == 1)

{

Er.ExceptionCode = STATUS_SINGLE_STEP;

}

else if (ExceptionNr == 3)

{

Er.ExceptionCode = STATUS_BREAKPOINT;

}

else if (ExceptionNr == 4)

{

Er.ExceptionCode = STATUS_INTEGER_OVERFLOW;

}

else if (ExceptionNr == 5)

{

Er.ExceptionCode = STATUS_ARRAY_BOUNDS_EXCEEDED;

}

else if (ExceptionNr == 6)

{

Er.ExceptionCode = STATUS_ILLEGAL_INSTRUCTION;

}

else

{

Er.ExceptionCode = STATUS_ACCESS_VIOLATION;

}

Er.ExceptionFlags = 0;

Er.ExceptionRecord = NULL;

Er.ExceptionAddress = (PVOID)Tf->Eip;

if (ExceptionNr == 14)

{

Er.NumberParameters = 2;

Er.ExceptionInformation[0] = Tf->ErrCode & 0x1;

Er.ExceptionInformation[1] = (ULONG)Cr2;

}

else

{

Er.NumberParameters = 0;

}

/* FIXME: Which exceptions are noncontinuable? */

Er.ExceptionFlags = 0;

KiDispatchException(&Er, 0, Tf, UserMode, TRUE);

return(0);

}

显然，这个函数不是仅为14号异常所用的。只要是发生于用户空间，别的异常也会进入这个函数。同样，这里也是先在堆栈上准备好一个“异常记录块”，然后调用KiDispatchException()，只不过这一次的第四个实际参数是UserMode。读者在上一篇漫谈中看到， KiKernelTrapHandler()也调用这同一个函数，但是那里的第四个实际参数是KernelMode。

所以，KiDispatchException()是个十分重要的函数，现在我们又要回过头来看这个函数的代码。当然，这一次观察的角度不同了。

[_KiTrap14() > KiPageFaultHandler() > KiUserTrapHandler() > KiDispatchException()]

VOID NTAPI

KiDispatchException(PEXCEPTION_RECORD ExceptionRecord,

PKEXCEPTION_FRAME ExceptionFrame,

PKTRAP_FRAME TrapFrame,

KPROCESSOR_MODE PreviousMode,

BOOLEAN FirstChance)

{

. . . . . .

/* Set the context flags */

Context.ContextFlags = CONTEXT_FULL | CONTEXT_DEBUG_REGISTERS;

/* Check if User Mode */

if (PreviousMode == UserMode)

{

/* Add the FPU Flag */

Context.ContextFlags |= CONTEXT_FLOATING_POINT;

if (KeI386FxsrPresent) Context.ContextFlags |= CONTEXT_EXTENDED_REGISTERS;

}

/* Get a Context */

KeTrapFrameToContext(TrapFrame, ExceptionFrame, &Context);

/* Handle kernel-mode first, it's simpler */

if (PreviousMode == KernelMode)

{

. . . . . .

}

else

{

/* User mode exception, was it first-chance? */

if (FirstChance)

{

/* Enter Debugger if available */

Action = KdpEnterDebuggerException(ExceptionRecord, PreviousMode,

&Context, TrapFrame, TRUE, TRUE);

/* Exit if we're continuing */

if (Action == kdContinue) goto Handled;

/* FIXME: Forward exception to user mode debugger */

/* Set up the user-stack */

_SEH_TRY

{

/* Align context size and get stack pointer */

Size = (sizeof(CONTEXT) + 3) & ~3;

Stack = (Context.Esp & ~3) - Size;

DPRINT("Stack: %lx/n", Stack);

/* Probe stack and copy Context */

ProbeForWrite((PVOID)Stack, Size, sizeof(ULONG));

RtlCopyMemory((PVOID)Stack, &Context, sizeof(CONTEXT));

/* Align exception record size and get stack pointer */

Size = (sizeof(EXCEPTION_RECORD) -

(EXCEPTION_MAXIMUM_PARAMETERS -

ExceptionRecord->NumberParameters) * sizeof(ULONG) + 3) & ~3;

NewStack = Stack - Size;

DPRINT("NewStack: %lx/n", NewStack);

/* Probe stack and copy exception record. Don't forget to add the two params */

ProbeForWrite((PVOID)(NewStack - 2 * sizeof(ULONG_PTR)),

Size + 2 * sizeof(ULONG_PTR),

sizeof(ULONG));

RtlCopyMemory((PVOID)NewStack, ExceptionRecord, Size);

/* Now write the two params for the user-mode dispatcher */

*(PULONG_PTR)(NewStack - 1 * sizeof(ULONG_PTR)) = Stack;

*(PULONG_PTR)(NewStack - 2 * sizeof(ULONG_PTR)) = NewStack;

/* Set new Stack Pointer */

KiEspToTrapFrame(TrapFrame, NewStack - 2 * sizeof(ULONG_PTR));

/* Set EIP to the User-mode Dispathcer */

TrapFrame->Eip = (ULONG)KeUserExceptionDispatcher;

UserDispatch = TRUE;

_SEH_LEAVE;

}

_SEH_HANDLE

{

/* Do second-chance */

}

_SEH_END;

}

/* If we dispatch to user, return now */

if (UserDispatch) return;

/* FIXME: Forward the exception to the debugger for 2nd chance */

/* 3rd strike, kill the thread */

DPRINT1("Unhandled UserMode exception, terminating thread/n");

ZwTerminateThread(NtCurrentThread(), ExceptionRecord->ExceptionCode);

KEBUGCHECKWITHTF(KMODE_EXCEPTION_NOT_HANDLED,

ExceptionRecord->ExceptionCode,

(ULONG_PTR)ExceptionRecord->ExceptionAddress,

ExceptionRecord->ExceptionInformation[0],

ExceptionRecord->ExceptionInformation[1],

TrapFrame);

}

Handled:

/* Convert the context back into Trap/Exception Frames */

KeContextToTrapFrame(&Context, NULL, TrapFrame, Context.ContextFlags, PreviousMode);

return;

}

首先通过KeTrapFrameToContext()从堆栈上的异常框架整理出一个上下文数据结构来。不过，对于用户空间的异常处理上下文中需要有更全面的信息，所以在调用这个函数之前把上下文结构中的CONTEXT_FLOATING_POINT等标志位设成1。这些标志位实质上就是对 KeTrapFrameToContext()的指令。

这一次我们把注意集中在PreviousMode为UserMode的分支上。

读者不妨想想，对于发生于用户空间的异常，这里应该做些什么。显然，用户空间的异常不应靠内核里面的程序处理，应用软件理应为此作好了准备。前面讲过， Windows的SEH机制并不是仅为内核而设计的，用户空间的程序同样可以使用类似于_SEH_TRY{} _SEH_HANDLE{} _SEH_END那样的手段为应用程序提供保护。事实上，在通过NtCreateThread()创建的线程首次被调度运行时，整个线程的执行都是作为一个SEH域而受到保护的：

VOID STDCALL

BaseProcessStartup(PPROCESS_START_ROUTINE lpStartAddress)

{

UINT uExitCode = 0;

_SEH_TRY

{

/* Set our Start Address */

NtSetInformationThread(NtCurrentThread(),ThreadQuerySetWin32StartAddress,

&lpStartAddress, sizeof(PPROCESS_START_ROUTINE));

/* Call the Start Routine */

uExitCode = (lpStartAddress)();

}

_SEH_EXCEPT(BaseExceptionFilter)

{

/* Get the SEH Error */

uExitCode = _SEH_GetExceptionCode();

}

_SEH_END;

/* Exit the Process with our error */

ExitProcess(uExitCode);

}

这里BaseProcessStartup()是所有线程在用户空间的总入口，而lpStartAddress是具体线程的代码入口。这里引用的宏操作之一是_SEH_EXCEPT，而不是_SEH_HANDLE，因而可以提供一个过滤函数。这个过滤函数是BaseExceptionFilter()，它又通过一个函数指针调用实际的过滤函数，默认为UnhandledExceptionFilter()。而 UnhandledExceptionFilter()在一般情况下都返回EXCEPTION_EXECUTE_HANDLER。不过，应用程序可以通过一个函数SetUnhandledExceptionFilter()将其替换成自己想要的过滤函数。

与此相应，用户空间的每个线程都有一个ExceptionList，只不过这个队列在每个线程的TEB中，而不是在KPCR中。既然内核中的 ExceptionList是由KiDispatchException()加以处理的，用户空间就应该有个类似于 KiDispatchException()的函数。事实上，动态连接库ntdll.dll中的KiUserExceptionDispatcher() 就是用户空间SEH处理的总入口。

可是，尽管是发生于用户空间的异常，对异常的初期响应和处理毕竟是在内核中，现在的目的就是要从内核中的KiDispatchException()启动用户空间这个函数的执行。

对于内核中的KiDispatchException()，这就是针对用户空间异常的主要操作。不过具体的实现还要再复杂一些，就像针对系统空间异常一样，内核中涉及用户空间异常的处理也分三步：

第一步、参数FirstChance为1时，先通过KdpEnterDebuggerException()交由内核调试程序(Kernel Debugger)处理。如果内核调试程序解决了问题、或者认为无需提交用户空间，则返回值就是kdContinue，这就行了。否则就要把异常提交给用户空间，由用户空间的程序加以处理。代码中的_SEH_TRY{}里面就是启动用户空间异常处理的过程。对于绝大多数的用户空间异常，这就可以了，因为用户空间的ExceptionList中应该有节点可以认领和处理本次异常，例如通过预先的安排实施用户空间的长程跳转。

第二步、然而，万一用户空间处理不了，例如ExceptionList中没有安排下可以认领、处理本次异常的节点，就会通过 RtlRaiseException()、从而通过系统调用ZwRaiseException()发起一次“软异常”(见后)，把问题交还内核。此时 CPU再次进入KiDispatchException()，但是此时的实际参数FirstChance为0，所以直接进入第二步措施。在Windows 内核中，这第二次努力是通过进程间通信向用户空间的调试程序(Debugger)发送一个报文、将其唤醒，由调试程序作进一步的处理。例如，对于由用户空间调试程序设置的断点(INT3)，就只能由用户空间调试程序加以处理。不过，在ReactOS 0.3.0版的代码中这一步尚未实现，所以这里有个注释说：“FIXME: Forward the exception to the debugger for 2nd chance”。

第三步、如果用户空间调试程序不存在，或者也不能解决，那就属于不可恢复的问题了。于是就有第三步措施，那就是通过ZwTerminateThread ()结束当前线程的运行。正常情况下针对当前线程本身的ZwTerminateThread()是不返回的；而倘若竟然返回了，那对于整个系统都是不可恢复的问题了，所以通过宏操作KEBUGCHECKWITHTF()显示出错信息、转储(Dump)当时的内存映像，并进入一个 Ke386HaltProcessor()的无限循环。换言之，整个系统就“死”了。

显然，这里最关键的一步、也是最有希望的一步，是把异常提交给用户空间。怎么提交呢？首先要把上下文数据结构Context和异常纪录块 ExceptionRecord拷贝到用户空间堆栈上去，再在用户空间堆栈上安上两个指针，分别指向这两个数据结构的用户空间副本，并相应调整异常框架中的用户空间堆栈指针。下面就会看到，这两个指针将被用作用户空间的函数调用参数。最后、也是最关键的，则是把异常框架中的用户空间返回地址设置成函数指针 KeUserExceptionDispatcher所指向的函数。顺利完成了这些准备以后，就把局部量UserDispatch设成1，因此紧接着就从本次异常处理返回了。当然，这是返回到了指针KeUserExceptionDispatcher所指向的函数中。已经熟悉APC机制的读者应该很容易由此联想到对用户空间APC函数的调用。事实上也确实非常相似，如果说APC相当于对用户空间软件的中断机制，则异常的提交就相当于对用户空间软件的异常机制。

但是，将两个数据结构复制到用户空间堆栈的过程本身又是有可能会引起异常的，所以这里又用_SEH_TRY{} _SEH_HANDLE{} _SEH_END将这段代码保护起来，为可能发生的异常作好准备。倘若果真在此过程中发生(系统空间)异常，就直接进入上述的第二步努力。

再看函数指针KeUserExceptionDispatcher。这是内核中的一个全局量，实际上提供了Ntdll.dll映像中的 KiUserExceptionDispatcher()在当前进程内的地址。就像对于LdrInitializeThunk()和 KiUserApcDispatcher()以及其它几个函数一样，这也是在内核的初始化过程中，初次装入Ntdll.dll的映像的时候从其映像中获取的：

[KiSystemStartup() > ExpInitializeExecutive() > PsLocateSystemDll()

> PspLookupKernelUserEntryPoints()]

NTSTATUS STDCALL INIT_FUNCTION

PspLookupKernelUserEntryPoints(VOID)

{

. . . . . .

/* Retrieve ntdll's startup address */

RtlInitAnsiString(&ProcedureName, "LdrInitializeThunk");