深刻V8引擎-AST(4)

时间 2019-11-09

标签深刻 v8 引擎 ast 繁體版

原文原文链接

(再声明一下，为了简单暴力的讲解AST的转换过程，这里的编译内容以"'Hello' + ' World'"做为案例)git

上一篇基本上花了一整篇讲完了scanner的Init方法，接下来就是Scan了，Init的方法基本上都是在Stream类下操做，可是本节回到了scanner层级。es6

/**
 * Scan
 * 仅仅只涉及next_指针
 */
void Scanner::Scan() { Scan(next_); }
void Scanner::Scan(TokenDesc* next_desc) {
  next_desc->token = ScanSingleToken();
  /**
   * 设置当前词法的结束位置
   */
  next_desc->location.end_pos = source_pos();
}

虽然这里只有简简单单的两步(砍掉了全部的CHECK和DEBUG内容)，但这个ScanSingleToken已经够讲了。从字面意思理解，就是对单个词法的解析，源码以下。数组

/**
 * 这个ScanSingleToken方法可TM太长了
 */
V8_INLINE Token::Value Scanner::ScanSingleToken() {
  Token::Value token;
  do {
    /**
     * 设置当前词法的起始位置
     */
    next().location.beg_pos = source_pos();
    /**
     * Ascii码是从0 ~ 127
     * 简单的判断一下合法性
     */
    if (V8_LIKELY(static_cast<unsigned>(c0_) <= kMaxAscii)) {
      /**
       * 这是一个mapping数组
       * 对全部的Unicode => Ascii作了映射
       */
      token = one_char_tokens[c0_];
      /**
       * 包含很是多的case...先不展开了
       * 根据Token类型进行不一样的处理
       */
      switch (token) {
        case Token::LPAREN:
        case Token::RPAREN:
        // 其余单符号...
          // One character tokens.
          return Select(token);
        case Token::STRING:
          return ScanString();

        // 更多...
        default:
          UNREACHABLE();
      }
    }
    /**
     * 处理结束符、空格、异常符号等特殊状况
     */
    // ...
  } while (token == Token::WHITESPACE);

  return token;
}

做为一个词法解析方法，长度其实仍是能够接受的，已经删掉了大部分的case判断，因为本系列专一于"'Hello' + ' World'"的编译，因此留下了STRING类型。app

讲两个点，第一个是那个source_pos，位置的属性和方法是真的多，比较简单，看看就好了。编码

/**
 * 上一篇解析了第一个字符 因此pos移动到了1
 * 然而记录location须要从头开始 因此这里作了一个偏移
 */
static const int kCharacterLookaheadBufferSize = 1;
int source_pos() {
  return static_cast<int>(source_->pos()) - kCharacterLookaheadBufferSize;
}

而后那个mapping数组能够稍微给一下出处，源码以下。spa

/**
 * 总结起来就是GetOneCharToken(0),GetOneCharToken(1),...,GetOneCharToken(127)所有调用一遍
 * 其中IsDecimalDigit负责判断是不是数字
 * 而IsAsciiIdentifier负责判断是不是标识符，例如$、_、a-z等等
 * 最后生成的one_char_tokens数组下标表明Unicode编码 值表明对应的Token类型
 */

#define INT_0_TO_127_LIST(V)                                          \
V(0)   V(1)   V(2)   V(3)   V(4)   V(5)   V(6)   V(7)   V(8)   V(9)   \
// ...
V(120) V(121) V(122) V(123) V(124) V(125) V(126) V(127)

static const constexpr Token::Value one_char_tokens[128] = {
#define CALL_GET_SCAN_FLAGS(N) GetOneCharToken(N),
    INT_0_TO_127_LIST(CALL_GET_SCAN_FLAGS)
#undef CALL_GET_SCAN_FLAGS
};

constexpr Token::Value GetOneCharToken(char c) {
  // clang-format off
  return
    c == '(' ? Token::LPAREN :
    c == ')' ? Token::RPAREN :
    // 其他字符...
    IsDecimalDigit(c) ? Token::NUMBER :
    IsAsciiIdentifier(c) ? Token::IDENTIFIER :
    Token::ILLEGAL;
}

以前说过，c0_表明的是当前解析字符的Unicode编码，因而这里直接经过数组索引查找其对应的类型，按照例子中，咱们的字符是一个单引号，而单引号的类型以下。指针

/**
 * 单双引号均会被识别为字符串标记
 * 而es6的模板字符串比较特殊 暂时不搞他
 */
c == '"' ? Token::STRING :
c == '\'' ? Token::STRING :
c == '`' ? Token::TEMPLATE_SPAN :

因此，当前token被赋值为Token::STRING，所以，case分支进入ScanString的方法。这个方法内容比较多，下一篇讲吧，午休时间。code