SCCM2012R2跨网段PXE启动蓝屏

最近作了一个SCCM2012R2的项目,让我真心是身心俱疲啊,遇到了各类的坑,今天就给你们分享下该项目遇到的一些坑与相关解决方案。
数据库


第一阶段:PXE 启动失败排查服务器

 

问题描述:网络

=========ide

跨网段作PXE的时候会有蓝屏,同一个网段下PXE正常。测试

wKioL1m-BAeAoq-jAANglavpFeA501.png

问题排查:spa

=========操作系统

  1. 从报错来看,WDS no response,咱们怀疑是WDS功能异常,咱们尝试如下步骤去从新启用WDS,问题依旧:3d

--------------------------------------调试

       登陆WDS服务器,中止Windows deployment     services server服务;日志

       找到RemoteInstall\Mgmt路径,将该路径下的文件都剪切到一个新建文件夹作备份用;

       重启Windows deployment     services server服务,Mgmt路径下的文件会从新被生成;

 

  1. 以后咱们在DHCP服务器和SCCM DP上抓了网络包,能够看到在读取BCD文件的时候显示找不到文件,而找不到BCD文件直接致使了最初的蓝屏报错(boot configuration     data is missing or contains errors)。

--------------------------------------

正常PXE boot执行顺序为:Wdsnbp.com--Pxeboot.com—Bootmgr.exe—BCD文件—Boot.wim

 

故障机器的网络包中能够看到:Wdsnbp.com文件读取成功;

wKioL1m-BGORItPiAAByRBCrjdc076.png

Pxeboot.com文件读取成功;

wKioL1m-BNLiPrEnAAAwWLS99Nk837.pngBootmgr.exe文件读取launch成功;

wKioL1m-BPfyGj7VAAAz9BW0Fcs381.png

而后读取bcd文件的时候,显示找不到文件。

wKiom1m-BW2Ry81DAAC0lb0HY_s605.png

3.   通过沟通,咱们了解到客户配置了DHCP option     66,67,由于微软不支持这种情形,因此咱们建议客户改成配置IP helper。在配置完IP helper以后,咱们遇到如下新的报错。

      wKioL1m-BczgNLQdAADpP8oxvHg305.png

4.   对于新的报错咱们作了抓包分析,有如下分析发现;

    wKioL1m-BlGx3xvcAAEexblQZgo426.png

wKiom1m-BszzBLBmAAf1j2VzHNg428.png

wKioL1m-Bt-zc0j1AACNVjwZkuw370.png

5.    咱们拿到客户的网络拓扑以后,给出了如下抓包方案:

--------------------------------------------

  在客户端接入S2126G-6交换机的接口上启用端口镜像并在对应机器上开启netmon

  WDS服务器链接核心S7806A交换机的接口上启用端口镜像并在对应机器上开启netmon

  在核心S7806AG1/42G1/45以及汇聚S5750AG0/24接口上启用端口镜像并在对应机器上开启netmon

  WDS以及DHCP服务器上开启netmon

 

注意:没有在S5750AG0/17以及接入层交换机上的端口一块儿抓包是由于咱们考虑到问题出在这一段的可能性不是很大。

wKiom1m-B7CQYVv-AAe_Y9C71Hw519.png


6.   以后等待4个月左右,贵方根据咱们给出的方案作了抓包,并提交了日志。最新的网络包中看到问题又有变化,与前两次不一样。

----------------------------------------

此次客户端拿到wdsnbp.com以后,再次发送的DHCP请求返回的文件不是正常的Pxeboot.com,而是abortpxe.com,直接终止了PXE boot行为。

wKioL1m-B9CBL3KLAAOuIb-WLHY292.png

7.   以后咱们一块儿作了远程,有如下检查发现:

-------------------------------------------------------------

  • 在把 “广东联想MT4500T_Win7_X86_SP1” 部署给     ”全部未知计算机“时, 发如今这个任务序列都坏掉的, 其中的操做系统镜像已经不存在。咱们对这个任务序列作了修复,从新添加了Windows 7SP1 的系统景象。 在这以后, 咱们成功的部署了此任务序列到     “全部未知计算机“ 集合。

 

  • 以后, 咱们找了两台物理笔记本作测试。在经过网络启动时,如今的报错信息和以前的遇到错误已经彻底不一样,已经没有蓝屏(     BCD Error)或者PXE -M0F 错误。当前的错误信息为:

wKiom1m-CE-jPumzAAPNJ3hhzj4501.png

  • 由于客户端须要向SCCM MP去请求policy,咱们检查MP相关日志发现:MP 一直没法正常链接到站点数据库作查寻, 并且MP 的状态不正常;也发现了mpcontrol.log 中有大量持续的 DB 没法链接的错误和Internal 500 的错误;咱们在SCCM DP服务器上去链接站点数据库的1433 端口, 发现没法链接,这就是MP工做异常的问题所在。

8.   根据远程会话中咱们发现的报错,贵方将445以及1433端口作了开放。以后再次进行测试,发现客户端依旧在向SCCM MP请求policy。咱们建议按照如下步骤将PXE re-enable,       完成以后测试PXE boot成功。

----------------------

  1. SCCM console --- 管理--- 分发点;

  2. 找到20GD 分发点, 打开基属性, 取消PXE 相关的设置, 确认应用;

  3. 等15-20分钟, 重启服务器;

  4. 删除原来的RemoteInstall 目录 (确认各各分区下面都没有这个目录, 若是有请删除或更名);

  5. 在SCCM 控制台上, 找到20GD 分发点, 再启用PXE.  系统会重装PXE (WDS);

  6. 等5-10分钟后, 确认 WDS服务是否装好(确认系统服务deployment     service  和 数据分区中 RemoteInstall 目录 ),安装完成后测试PXE boot。

 

针对这两部分的排查,根据个人分析和经验,以前发生PXE 启动失败的缘由有如下:

 

a. PXE/WDS 节点上的启动镜像异常---咱们在后续的PXE 重装中, 专门删除了以前的老的文件夹,确保了从新装的PXE 不受以前老的文件影响。

b. 部署异常---以前并无部署给全部未知计算机的任务序列, 这样也间接形成了PXE 启动时, 找不到对应的任务。

c.端口异常关闭---形成了在PXE启动阶段,站点服务器没法正常的完成查询,任务序列也没法被检测到

 

第二阶段:任务序列卡死

 

9. 在解决了PXE 启动问题后, 系统已经能够成功的从PXE 启动到WinPE 阶段,可是在WinPE 阶段却没有如预期的看到任务序列, 一直显示一个空白界面以下:

    wKiom1m-CL_A5lB0AAGdGG--qe8808.png

因为没法从现场机器上获取WinPE 阶段的日志: smsts.log, 咱们尝试经过虚拟机测试这一问题。在这一过程当中, 咱们在DP 上调整了设置, 使之能够在WinPE 阶段作调试 (经过F8 键调出命令控制台)


10. 在经过虚拟机测试时,咱们收到了以下的错误:

    wKioL1m-COzBeGb0AAGhwB36NzA497.png 

    这个错误信息是因为损坏或有问题的WinPE 镜像形成的, 咱们经过从新创建Boot镜像, 并调整了任务序列里的Boot镜像设置,确保对应任务序列和操做系统匹配后,这个错误消失。可是WinPE阶段仍是如上图同样,不显示任何任务序列。



11. 在虚拟机收集到的smsts.log日志中,咱们的发现了以下的信息。显示在WinPE 阶段, 这台客户端机器没法正常的链接到对应的MP DP 服务器。

   wKioL1m-CT2xChjfAAGU-Svp-KQ186.png 

   在网络同事调整DNS 设置后, 这个问题很快的被解决。 也能够正常的看到任务序列了。

 

至此, 系统能够正常的部署, 在虚拟机上测试的结果也为正常。

相关文章
相关标签/搜索