Ironic 裸金属管理服务的底层技术支撑

目录

底层技术支撑

  • PXE:预启动执行环境,支持客户端经过网络从 TFTP Server 下载操做系统镜像,并由此支持经过网络启动操做系统引导程序。
  • IPMI:智能平台管理接口,一种开放标准的硬件管理接口规范,经过 IPMI 能够控制物理服务器的电源、配置启动顺序、查看 KVM Console 等。
  • DHCP:动态主机配置协议,给局域网内的主机分配 IP 地址。
  • TFTP:简单文件传输协议,客户端与服务器之间进行简单文件传输的协议。相比 FTP,简单且开销小。
  • NBP:网络启动程序,自动加载并运行操做系统。

DHCP

Dynamic Host Configuration Protocol (DHCP): DHCP is a standardized networking protocol used on Internet Protocol (IP) networks for dynamically distributing network configuration parameters, such as IP addresses for interfaces and services. Using PXE, the BIOS uses DHCP to obtain an IP address for the network interface and to locate the server that stores the network bootstrap program (NBP).linux

NBP

Network Bootstrap Program (NBP): NBP is equivalent to GRUB (GRand Unified Bootloader) or LILO (LInux LOader) - loaders which are traditionally used in local booting. Like the boot program in a hard drive environment, the NBP is responsible for loading the OS kernel into memory so that the OS can be bootstrapped over a network.ios

TFTP

Trivial File Transfer Protocol (TFTP): TFTP is a simple file transfer protocol that is generally used for automated transfer of configuration or boot files between machines in a local environment. In a PXE environment, TFTP is used to download NBP over the network using information from the DHCP server.web

IPMI

Ironic 使用 IPMI 来控制裸机的上下电、设置开机启动顺序(PXE 启动或本地磁盘启动)、获取电源状态、获取传感器状态、控制台重定向等。在裸机上架自检阶段会配置裸机的 BMC,包括 IP 地址、掩码、网关、用户名和密码。而后将 IPMI 的 IP 地址、用户名和密码注册到 Ironic 数据库。这样 Ironic 就能够获取到裸机的电源状态、执行开关机以及设置开机启动顺序了。数据库

IPMI(Intelligent Platform Management Interface,智能平台管理接口)是一项应用于服务器带外管理系统设计的标准,经过特有的硬件设备而不是操做系统网络链接来对服务器进行电源的手段。IPMI 可以横跨不一样的操做系统、固件和硬件平台,能够智能的监视、控制和上报服务器的运做情况(e.g. 远程开启、关闭电源)以及健康特征(e.g. 温度、电压、风扇工做状态、电源状态等)。IPMI 良好的自治特性克服了以往基于操做系统的管理方式所受的限制,实现了在操做系统不响应或未加载的状况下仍然能够对其进行开关机、信息提取等操做。Ironic 正是利用此技术能够远程的对裸机进行上下电或者其余操做,而不是依赖物理开关或者操做系统。bootstrap

IPMI 的核心是 BMC(Baseboard Management Controller ,底板管理控制器),BMC 一般是一个安装在服务器主板上的独立板卡,其不依赖于服务器的处理器、BIOS 或操做系统来工做,可谓很是地独立,是一个单独在系统内运行的无代理管理子系统。BMC 与主板上的不一样传感器通讯来监视系统是否有严重事件,并在某些参数超出其预置阈值时发出警报和日志事件。全部的 IPMI 功能都是向 BMC 发送命令(IPMI 规范中规定的指令)来完成的,BMC 接收并在系统事件日志中记录事件消息,维护描述系统中传感器状况的传感器数据记录。centos

当须要对系统文本控制台进行远程访问时,IPMI 的 SOL(Serial Over LAN,LAN 上串口)功能很是关键。SOL 经过将 IPMI 会话重定向到本地串行接口,容许远程访问 Windows 的紧急事件管理控制台(EMS)特殊管理控制台(SAC)或访问 Linux 的串行控制台。BMC 经过在 LAN 上重定向串行端口的信息来作到这点,从而提供了一种与服务器厂商无关的远程查看 OS BootLoader 或紧急管理控制台来诊断和维修故障的标准方式,IPMI 甚至容许在操做系统引导阶段配置各类组件。服务器

BMC 具备如下功能网络

  1. 经过系统的串行端口进行访问
  2. 故障日志记录和 SNMP 警报发送
  3. 访问系统事件日志和传感器情况
  4. 远程开、关机
  5. 独立于系统电源或工做状态的支持
  6. 用于系统设置、基于文本公用程序和操做系统控制台的文本控制台重定向

ipmitool 操做示例架构

  • 改变服务器引导方式
ipmitool -I lan -H <server_ip> -U root -P passwd chassis bootdev pxe
ipmitool -I lan -H <server_ip> -U root -P passwd chassis bootdev disk
ipmitool -I lan -H <server_ip> -U root -P passwd chassis bootdev cdrom
  • 服务器电源管理
# 硬关机,直接切断电源
ipmitool -I lan -H <server_ip> -U root -P passwd chassis power off 
# 软关机,即如同轻按一下开机扭
ipmitool -I lan -H <server_ip> -U root -P passwd chassis power soft
# 硬开机
ipmitool -I lan -H <server_ip> -U root -P passwd chassis power on
# 硬重启
ipmitool -I lan -H <server_ip> -U root -P passwd chassis power reset
# power off, wait 1s, power on
ipmitool -I lan -H <server_ip> -U root -P passwd chassis power cycle
# 获取当前电源状态
ipmitool -I lan -H <server_ip> -U root -P passwd chassis power status

PXE & iPXE

Ironic 使用 PXE 引导启动 Deploy Image(RAMDisk),且 RAMDisk 内含有 IPA,是 Agent 部署方式的基础。PXE 的使用须要借助于 DHCP 服务器和 TFTP 服务器。DHCP 服务器主要给裸机的 PXE 网卡分配 IP 地址、传递 TFTP 服务器的 IP 地址以及 NBP 文件的位置信息。PXE 从 TFTP 服务器下载并执行 NBP 文件,根据 NBP 文件的执行结果,从 TFTP 服务器下载内核和系统文件并加载。此时的裸机就进入了 RAMDisk 系统,IPA 自启动后,会与 Ironic 取得联系并发送心跳。Ironic 控制 IPA 进行 User Image 的下载与安装。安装后,Ironic 设置裸机从根磁盘启动,并重启进入用户的操做系统。并发

PXE(Preboot Execute Environment,预启动执行环境),采用 C/S 架构,支持终端经过网络从远端服务器下载映像,并由此支持经过网络启动操做系统。PXE 是目前主流的无盘启动技术,它可使计算机经过网络而不是从本地硬盘或光驱等设备启动。利用 PXE 进行系统安装须要被安装的主机上有 PXE 支持的网卡,如今的网卡通常都内嵌支持 PXE 的 ROM 芯片。当计算机引导时,BIOS 首先会把 PXE Client 调入内存中执行,PXE Client 被载入内存后,它便同时具备 DHCP Client 和 TFTP Client 的功能,DHCP Client 会向 DHCP Server 请求 IP 分配给将要安装 操做系统的终端主机,而后由 PXE Client 将放置在远端的启动软件包经过 TFTP(Trivial File Transfer Protocol)或 MTFTP(Multicast Trivial File Transfer Protocol)下载到本地内存中执行。由这个启动软件包完成终端的基本软件设置,从而引导预先安装在服务器中的终端操做系统。iPXE 是 PXE 的扩展版,支持更多的协议,兼容性更好,不挑网卡。支持 HTTP 协议,能够经过 HTTP、ISCSI SAN、FC SAN 等方式启动。iPXE 的官方网站:http://ipxe.org/

PXE 安装引导过程

  1. 终端从 PXE 网卡启动,向带内网络中的 DHCP 服务器索取 IP 地址和搜寻引导文件的位置。
  2. DHCP 服务器返回分给终端 IP 以及 NBP(网络启动程序,会自动加载引导文件并运行操做系统)文件的路径(一般为 TFTP 服务器)。
  3. 终端从带内网络中的 TFTP 服务器下载 NBP。
  4. 终端获得了 NBP 后自动从 TFTP 服务器下载引导文件,好比:pxelinux.0(GRUB)、vmlinuz(内核文件),initrd(内存驱动盘)等文件。
  5. 安装操做系统
    在这里插入图片描述
    在这里插入图片描述

Cloud Init

Ironic 经过集成在 User Image 中的 cloud-init 来完成操做系统配置信息的初始化,包括建立用户、修改密码、配置网络等。

详情请浏览:《Openstack 实现技术分解 (2) 虚拟机初始化工具 — Cloud-Init & metadata & userdata》

Linux 操做系统启动引导过程

  1. 起电
  2. 加载主板 BIOS(主板固体程序)
  3. BIOS 检测硬件是否有故障
  4. BIOS 到 MBR(Master Boot Recorder,主引导记录)中寻找启动介质,MBR 的 512B 由 BootLoader 446B、分区表 64B 以及校验结束位 2B 组成。
  5. 常见的 BootLoader 有 GRUB2,它会将保存在 /boot 的 Kernel 加载到 RAM。
  6. 加载 Kernel 后,GRUB2 跳转到 Kernel 的入口运行,正式启动操做系统。

:GRUB2 的本质是一个微型操做系统,能够识别经常使用的文件系统。GRUB2 运行时会读取配置文件 /boot/grub2/grub.cfg,在 grup.cfg 中能够记录若干个 Kernel 条目,均以 menuentry 开头。menuentry 以 {} 包含了相应的启动项,linux16 这行指定 Kernel 的路径和启动参数。e.g.

menuentry 'CentOS Linux (3.10.0-957.10.1.el7.x86_64) 7 (Core)' --class centos --class gnu-linux --class gnu --class os --unrestricted $menuentry_id_option 'gnulinux-3.10.0-862.el7.x86_64-advanced-12253837-a340-4053-b3e8-3140da283a41' {
        load_video
        set gfxpayload=keep
        insmod gzio
        insmod part_msdos
        insmod xfs
        set root='hd0,msdos1'
        if [ x$feature_platform_search_hint = xy ]; then
          search --no-floppy --fs-uuid --set=root --hint-bios=hd0,msdos1 --hint-efi=hd0,msdos1 --hint-baremetal=ahci0,msdos1 --hint='hd0,msdos1'  c78b0a6e-7906-4f1f-9667-c61741a4b5ee
        else
          search --no-floppy --fs-uuid --set=root c78b0a6e-7906-4f1f-9667-c61741a4b5ee
        fi
        # 根分区的位置
        # 以只读方式挂载根分区
        # rhgb(以图形化方式显示启动过程)
        # quiet(启动过程出现错误提示)
        # 字符集
        # 键盘布局
        # 语言
        linux16 /vmlinuz-3.10.0-957.10.1.el7.x86_64 root=/dev/mapper/centos-root ro crashkernel=auto rd.lvm.lv=centos/root rd.lvm.lv=centos/swap rhgb quiet LANG=en_US.UTF-8
        initrd16 /initramfs-3.10.0-957.10.1.el7.x86_64.img
}

initrd16 指定了 initramfs image 的位置,initramfs 是 initrd 的升级版,改进了后者不能调整大小的缺点。但二者的本质都是 boot loader initialized RAM disk,即在系统初始化引导时加载的 RAMDisk 设备,本质是一个小型的根目录。RAMDisk 内含了启动阶段中必须的驱动模块,可执行文件和启动脚本,而且这些程序能够在 /initrd 根目录上执行,不须要等到挂载了真正的根目录 (’/’) 以后才能被执行。RAMDisk 的存在完善 Kernel 的模块机制,让内核的初始化流程更具弹性。其中的 udevd 可执行文件在自动加载了磁盘驱动程序以后就能够 Mount 并切换到真正的根目录了。
在这里插入图片描述