php源码分析trim函数的实现

在实际开发中遇到关于 trim 函数的2个问题:
    1:使用trim函数不能去除2个以上的连续点号(.)
    2 : 使用trim函数去除字符串的问题
先说一下第一个问题。
下面的一段代码:
    php -r "echo trim('abcdcba...','...');"
个人本意是要将字符串abcdcba...最后三个点去掉,结果是报错。php

PHP Warning:  trim(): Invalid '..'-range, no character to the left of '..' in Command line code on line 1
Warning: trim(): Invalid '..'-range, no character to the left of '..' in Command line code on line 1
PHP Warning:  trim(): Invalid '..'-range, no character to the right of '..' inCommand line code on line 1
Warning: trim(): Invalid '..'-range, no character to the right of '..' in Command line code on line 1

这个问题其实很好解释,由于 trim 函数本书能够范围操做,例如 若是trim函数的第二个参数 a..d,它就会把a b c d 都去掉。由于省略号的缘由,因此trim函数的第二个参数不能用..开头或者结尾。数组

第二个问题:
再看一个例子:
php -r 'echo trim("abcdcba","abc")."\n";'
个人本意是将字符串abcdcba最前面的abc去掉保留dcba,但结果倒是这样的:
d
也就是说他会把a b c分别去掉。这应该算是个坑吧。函数

经过对底层源代码的分析来讲一下为何会出现这2种状况。
trim函数的源代码师在php代码根目录开始的 ext/standard/string.c
函数的定义以下:指针

PHP_FUNCTION(trim)
{
    php_do_trim(INTERNAL_FUNCTION_PARAM_PASSTHRU, 3);
}

能够看到,定义调用了另外的函数,函数体以下:code

static void php_do_trim(INTERNAL_FUNCTION_PARAMETERS, int mode)
{
    char *str;
    char *what = NULL;
    int str_len, what_len = 0;
    if (zend_parse_parameters(ZEND_NUM_ARGS() TSRM\_CC, "s|s", &str, &str_len, &what, &what_len) == FAILURE) {
        return;
    } 
    php_trim(str, str_len, what, what_len, return_value, mode TSRMLS_CC);
}

zend_parse_parameters函数的做用就是接受参数,有兴趣的同窗能够查阅相关资料。从代码能够看到,函数接受了2个字符串类型的参数,一个str,就是须要处理的字符串,第二个参数是what,用来表示须要去除的字符。
这个函数在最后用调用了另一个函数,函数php_trim,函数体以下:开发

PHPAPI char *php_trim(char *c, int len, char *what, int what_len, zval *return_value, int mode TSRMLS_DC)
{
    register int i;
    int trimmed = 0;
    char mask[256];
    
        if(what) {
            php_charmask((unsigned char*)what, what_len, mask TSRMLS_CC);
        } else {
            php_charmask((unsigned char*)" \n\r\t\v\0", 6, mask TSRMLS_CC);
        }

        if (mode & 1) {
            for (i = 0; i = 0; i--) {
                if (mask[(unsigned char)c[i]]) {
                    len--;
                } else {
                    break;
                }
            }
        }

        if (return_value) {
            RETVAL_STRINGL(c, len, 1);
        } else {
            return estrndup(c, len);
        }
        return "";
}

这个函数就是php真正处理去除操做的结构。
刚开始就是定义了简单的变量,再下面对变量what有一个判断,来判断是否传递了要去除的字符。能够看到,根据是否是传递了what,函数传递给php_charmask函数的参数不同,从这儿能够看出,若是trim没有传要去除的字符,默认状况是去除" \n\r\t\v\0"六个字符的,下面来看看php_charmask函数进行了哪些操做。rem

static inline int php\_charmask(unsigned char *input, int len, char *mask TSRMLS_DC)
{
    unsigned char *end;
    unsigned char c;
    int result = SUCCESS;
    memset(mask, 0, 256);
    for (end = input+len; input = c) { 
            memset(mask+c, 1, input[3] - c + 1);
            input+=3;
        } else if ((input+1 = input) { /\* there was no 'left' char \*/
                php_error_docref(NULL TSRMLS_CC, E_WARNING, "Invalid '..'-range, no character to the left of '..'");
                result = FAILURE;
                continue;
            }
            if (input+2 >= end) { /\* there is no 'right' char \*/
                php_error_docref(NULL TSRMLS_CC, E_WARNING, "Invalid '..'-range, no character to the right of '..'");
                result = FAILURE;
                continue;
            }
            if (input[-1] > input[2]) { /\* wrong order \*/
                php_error_docref(NULL TSRMLS_CC, E_WARNING, "Invalid '..'-range, '..'-range needs to be incrementing");
                result = FAILURE;
                continue;
            }
            /* FIXME: better error (a..b..c is the only left possibility?) */
            php_error_docref(NULL TSRMLS_CC, E_WARNING, "Invalid '..'-range");
            result = FAILURE;
            continue;
        } else {
            mask[c]=1;
        }
    }    
    return result;
}

这个函数的做用主要是,建立要去除的字符的哈希对应关系,刚开始考虑了特殊状况像a..d这样的状况(从这儿也能看出来为何trim函数不能处理...的状况)。后面就是创建hash结构的过程。最后的结果是一个数组,以要去除的字符是 abc 为例:字符串

mask['a'] = 1;
    mask['b'] = 1;
    mask['c'] = 1;

这样的hash结构,最后返回的就是这个 mask(实际没有返回,使用引用变量传值的方式作到数据的返回)
前面的都是准备工做,后面的就是真正处理去除操做了。
经过源代码能够看到,下面的操做先对mode这个变量作了判断,那么mode这个变量是干吗的?答案就是用来处理 ltrim rtirm trim3个函数的。
下面师一段C语言代码:input

#include 
  
  
  
  

 
  
  int main(){ printf("%d\n",1&1); printf("%d\n",2&2); printf("%d\n",3&1); printf("%d\n",3&2); return 0; } 

 

这段代码的输出结果以下:string

1
2
1
2

经过这个你们能够看出来,trim的底层是怎么处理的。先对mode 分别取模,再作相应的操做。
实际的去除操做就很简单了。
定义一个len来存储字符串的长度,c 是一个字符指针,刚开始从左边开始去除,判断c中的字符是否在hashmask中存在,若是存在,就将c 的指针向后移动一位,将len减去一位,若是发现*c的字符不存在于hashmask中,中止操做(可能和实际代码逻辑不不一致,但思想师同样的)。相关代码以下:

for (i = 0; i

左边操做完成之后,右边的操做比较简单,从*c最右边开始匹配,若是匹配到,就将len的长度减1,若是没有旧中止操做。相关的代码以下:

for (i = len - 1; i >= 0; i--) {
    if (mask[(unsigned char)c[i]]) {
        len--;
    } else {
        break;
    }
}

最后就是一个简单返回操,把c指针如今指向的位置之后的len个字符返回。实现返回的操做。整个过程完成。
相关代码以下:

if (return_value) {
   RETVAL_STRINGL(c, len, 1);
} else {
   return estrndup(c, len);
}

最后感叹一下:全部的事情最重要的仍是你本身.

相关文章
相关标签/搜索