(再声明一下,为了简单暴力的讲解AST的转换过程,这里的编译内容以"'Hello' + ' World'"做为案例)git
上一篇基本上花了一整篇讲完了scanner的Init方法,接下来就是Scan了,Init的方法基本上都是在Stream类下操做,可是本节回到了scanner层级。es6
/** * Scan * 仅仅只涉及next_指针 */ void Scanner::Scan() { Scan(next_); } void Scanner::Scan(TokenDesc* next_desc) { next_desc->token = ScanSingleToken(); /** * 设置当前词法的结束位置 */ next_desc->location.end_pos = source_pos(); }
虽然这里只有简简单单的两步(砍掉了全部的CHECK和DEBUG内容),但这个ScanSingleToken已经够讲了。从字面意思理解,就是对单个词法的解析,源码以下。数组
/** * 这个ScanSingleToken方法可TM太长了 */ V8_INLINE Token::Value Scanner::ScanSingleToken() { Token::Value token; do { /** * 设置当前词法的起始位置 */ next().location.beg_pos = source_pos(); /** * Ascii码是从0 ~ 127 * 简单的判断一下合法性 */ if (V8_LIKELY(static_cast<unsigned>(c0_) <= kMaxAscii)) { /** * 这是一个mapping数组 * 对全部的Unicode => Ascii作了映射 */ token = one_char_tokens[c0_]; /** * 包含很是多的case...先不展开了 * 根据Token类型进行不一样的处理 */ switch (token) { case Token::LPAREN: case Token::RPAREN: // 其余单符号... // One character tokens. return Select(token); case Token::STRING: return ScanString(); // 更多... default: UNREACHABLE(); } } /** * 处理结束符、空格、异常符号等特殊状况 */ // ... } while (token == Token::WHITESPACE); return token; }
做为一个词法解析方法,长度其实仍是能够接受的,已经删掉了大部分的case判断,因为本系列专一于"'Hello' + ' World'"的编译,因此留下了STRING类型。app
讲两个点,第一个是那个source_pos,位置的属性和方法是真的多,比较简单,看看就好了。编码
/** * 上一篇解析了第一个字符 因此pos移动到了1 * 然而记录location须要从头开始 因此这里作了一个偏移 */ static const int kCharacterLookaheadBufferSize = 1; int source_pos() { return static_cast<int>(source_->pos()) - kCharacterLookaheadBufferSize; }
而后那个mapping数组能够稍微给一下出处,源码以下。spa
/** * 总结起来就是GetOneCharToken(0),GetOneCharToken(1),...,GetOneCharToken(127)所有调用一遍 * 其中IsDecimalDigit负责判断是不是数字 * 而IsAsciiIdentifier负责判断是不是标识符,例如$、_、a-z等等 * 最后生成的one_char_tokens数组下标表明Unicode编码 值表明对应的Token类型 */ #define INT_0_TO_127_LIST(V) \ V(0) V(1) V(2) V(3) V(4) V(5) V(6) V(7) V(8) V(9) \ // ... V(120) V(121) V(122) V(123) V(124) V(125) V(126) V(127) static const constexpr Token::Value one_char_tokens[128] = { #define CALL_GET_SCAN_FLAGS(N) GetOneCharToken(N), INT_0_TO_127_LIST(CALL_GET_SCAN_FLAGS) #undef CALL_GET_SCAN_FLAGS }; constexpr Token::Value GetOneCharToken(char c) { // clang-format off return c == '(' ? Token::LPAREN : c == ')' ? Token::RPAREN : // 其他字符... IsDecimalDigit(c) ? Token::NUMBER : IsAsciiIdentifier(c) ? Token::IDENTIFIER : Token::ILLEGAL; }
以前说过,c0_表明的是当前解析字符的Unicode编码,因而这里直接经过数组索引查找其对应的类型,按照例子中,咱们的字符是一个单引号,而单引号的类型以下。指针
/** * 单双引号均会被识别为字符串标记 * 而es6的模板字符串比较特殊 暂时不搞他 */ c == '"' ? Token::STRING : c == '\'' ? Token::STRING : c == '`' ? Token::TEMPLATE_SPAN :
因此,当前token被赋值为Token::STRING,所以,case分支进入ScanString的方法。这个方法内容比较多,下一篇讲吧,午休时间。code