使用 Python 建立你本身的 Shell （上）

时间 2019-11-30

标签使用 python 建立本身 shell 栏目 Python 繁體版

原文原文链接

我很想知道一个 shell （像 bash，csh 等）内部是如何工做的。因而为了知足本身的好奇心，我使用 Python 实现了一个名为yosh（Your Own Shell）的 Shell。本文章所介绍的概念也能够应用于其余编程语言。html

（提示：你能够在这里查找本博文使用的源代码，代码以 MIT 许可证发布。在 Mac OS X 10.11.5 上，我使用 Python 2.7.10 和 3.4.3 进行了测试。它应该能够运行在其余类 Unix 环境，好比 Linux 和 Windows 上的 Cygwin。）让咱们开始吧。
python

步骤 0：项目结构

对于此项目，我使用了如下的项目结构。linux

yosh_project 
|-- yosh 
    |-- __init__.py 
    |-- shell.py yosh_project

为项目根目录（你也能够把它简单命名为 yosh）。yosh 为包目录，且 __init__.py 可使它成为与包的目录名字相同的包（若是你不用 Python 编写的话，能够忽略它。）shell.py 是咱们主要的脚本文件。正则表达式

步骤 1：Shell 循环

当启动一个 shell，它会显示一个命令提示符并等待你的命令输入。在接收了输入的命令并执行它以后（稍后文章会进行详细解释），你的 shell 会从新回到这里，并循环等待下一条指令。在 shell.py 中，咱们会以一个简单的 main 函数开始，该函数调用了 shell_loop() 函数，以下：shell

def shell_loop(): 
  # Start the loop here 
def main(): 
  shell_loop() 

if __name__ == "__main__":
  main()

接着，在 shell_loop() 中，为了指示循环是否继续或中止，咱们使用了一个状态标志。在循环的开始，咱们的 shell 将显示一个命令提示符，并等待读取命令输入。编程

import sys
SHELL_STATUS_RUN = 1
SHELL_STATUS_STOP = 0
def shell_loop():
    status = SHELL_STATUS_RUN
    while status == SHELL_STATUS_RUN:
        ### 显示命令提示符
        sys.stdout.write('> ')
        sys.stdout.flush()
        ### 读取命令输入
        cmd = sys.stdin.readline()

以后，咱们切分命令（tokenize）输入并进行执行（execute）（咱们即将实现 tokenize 和 execute 函数）。所以，咱们的 shell_loop() 会是以下这样：bash

import sys
SHELL_STATUS_RUN = 1
SHELL_STATUS_STOP = 0
def shell_loop():
    status = SHELL_STATUS_RUN
    while status == SHELL_STATUS_RUN:
        ### 显示命令提示符
        sys.stdout.write('> ')
        sys.stdout.flush()
        ### 读取命令输入
        cmd = sys.stdin.readline()
        ### 切分命令输入
        cmd_tokens = tokenize(cmd)
        ### 执行该命令并获取新的状态
        status = execute(cmd_tokens)

这就是咱们整个 shell 循环。若是咱们使用 python shell.py 启动咱们的 shell，它会显示命令提示符。然而若是咱们输入命令并按回车，它会抛出错误，由于咱们还没定义 tokenize 函数。为了退出 shell，能够尝试输入 ctrl-c。稍后我将解释如何以优雅的形式退出 shell。编程语言

步骤 2：命令切分

（）当用户在咱们的 shell 中输入命令并按下回车键，该命令将会是一个包含命令名称及其参数的长字符串。所以，咱们必须切分该字符串（分割一个字符串为多个元组）。咋一看彷佛很简单。咱们或许可使用 cmd.split()，以空格分割输入。它对相似 ls -a my_folder 的命令起做用，由于它可以将命令分割为一个列表 ['ls', '-a', 'my_folder']，这样咱们便能轻易处理它们了。函数

然而，也有一些相似 echo "Hello World" 或 echo 'Hello World' 以单引号或双引号引用参数的状况。若是咱们使用 cmd.spilt，咱们将会获得一个存有 3 个标记的列表 ['echo', '"Hello', 'World"'] 而不是 2 个标记的列表 ['echo', 'Hello World']。幸运的是，Python 提供了一个名为 shlex 的库，它可以帮助咱们如魔法般地分割命令。（提示：咱们也可使用正则表达式，但它不是本文的重点。）oop

import sys
import shlex
...
def tokenize(string):
    return shlex.split(string)
...

而后咱们将这些元组发送到执行进程。

步骤 3：执行

这是 shell 中核心而有趣的一部分。当 shell 执行 mkdir test_dir 时，到底发生了什么？（提示： mkdir 是一个带有 test_dir 参数的执行程序，用于建立一个名为 test_dir 的目录。）execvp 是这一步的首先须要的函数。在咱们解释 execvp 所作的事以前，让咱们看看它的实际效果。

import os
...
def execute(cmd_tokens):
    ### 执行命令
    os.execvp(cmd_tokens[0], cmd_tokens)
    ### 返回状态以告知在 shell_loop 中等待下一个命令
    return SHELL_STATUS_RUN
...

再次尝试运行咱们的 shell，并输入 mkdir test_dir 命令，接着按下回车键。在咱们敲下回车键以后，问题是咱们的 shell 会直接退出而不是等待下一个命令。然而，目录正确地建立了。所以，execvp 实际上作了什么？

execvp 是系统调用 exec 的一个变体。第一个参数是程序名字。v 表示第二个参数是一个程序参数列表（参数数量可变）。p 表示将会使用环境变量 PATH 搜索给定的程序名字。在咱们上一次的尝试中，它将会基于咱们的 PATH 环境变量查找mkdir 程序。（还有其余 exec 变体，好比 execv、execvpe、execl、execlp、execlpe；你能够 google 它们获取更多的信息。）exec 会用即将运行的新进程替换调用进程的当前内存。在咱们的例子中，咱们的 shell 进程内存会被替换为 mkdir 程序。接着，mkdir 成为主进程并建立 test_dir 目录。最后该进程退出。

这里的重点在于咱们的 shell 进程已经被 mkdir 进程所替换。这就是咱们的 shell 消失且不会等待下一条命令的缘由。所以，咱们须要其余的系统调用来解决问题：fork。fork 会分配新的内存并拷贝当前进程到一个新的进程。咱们称这个新的进程为子进程，调用者进程为父进程。而后，子进程内存会被替换为被执行的程序。所以，咱们的 shell，也就是父进程，能够免受内存替换的危险。
让咱们看看修改的代码。...

当咱们的父进程调用 os.fork() 时，你能够想象全部的源代码被拷贝到了新的子进程。此时此刻，父进程和子进程看到的是相同的代码，且并行运行着。若是运行的代码属于子进程，pid 将为 0。不然，若是运行的代码属于父进程，pid 将会是子进程的进程 id。

当 os.execvp 在子进程中被调用时，你能够想象子进程的全部源代码被替换为正被调用程序的代码。然而父进程的代码不会被改变。当父进程完成等待子进程退出或终止时，它会返回一个状态，指示继续 shell 循环。

运行如今，你能够尝试运行咱们的 shell 并输入 mkdir test_dir2。它应该能够正确执行。咱们的主 shell 进程仍然存在并等待下一条命令。尝试执行 ls，你能够看到已建立的目录。

可是，这里仍有一些问题：
第一，尝试执行 cd test_dir2，接着执行 ls。它应该会进入到一个空的 test_dir2 目录。然而，你将会看到目录并无变为 test_dir2。
第二，咱们仍然没有办法优雅地退出咱们的 shell。

本文转载地址：https://www.linuxprobe.com/python-shell-first.html