php转换字符串编码 iconv与mb_convert_encoding的区别

PHP判断字符串编码函数mb_detect_encoding总结


iconv — Convert string to requested character encoding(PHP 4 >= 4.0.5, PHP 5) php

mb_convert_encoding — Convert character encoding(PHP 4 >= 4.0.6, PHP 5)

iconv字符串按要求的字符编码来转换
mb_convert_encoding
转换字符的编码 正则表达式

两个函数功能相似都是用来转换字符串编码的;
函数

用法:

string mb_convert_encoding ( string str, string to_encoding [, mixed from_encoding] )

注:须要先启用 mbstring 扩展库,在 php.ini里将; extension=php_mbstring.dll 前面的 ; 去掉

参数:str——要编码的str、to_encoding——str要转换成编码类型、from_encoding——在转换前经过字符代码名称来指定。 它能够是一个 array 也能够是逗号分隔的枚举列表。 若是没有提供 from_encoding,则会使用内部(internal)编码。 参见支持的编码。 编码

支持的字符编码

当前 mbstring 模块支持如下的字符编码。这些字符编码中的任意一个都能指定到 mbstring 函数中的 encoding 参数。

该 PHP 扩展支持的字符编码有如下几种:

    UCS-4*
    UCS-4BE
    UCS-4LE*
    UCS-2
    UCS-2BE
    UCS-2LE
    UTF-32*
    UTF-32BE*
    UTF-32LE*
    UTF-16*
    UTF-16BE*
    UTF-16LE*
    UTF-7
    UTF7-IMAP
    UTF-8*
    ASCII*
    EUC-JP*
    SJIS*
    eucJP-win*
    SJIS-win*
    ISO-2022-JP
    ISO-2022-JP-MS
    CP932
    CP51932
    SJIS-mac** (别名: MacJapanese)
    SJIS-Mobile#DOCOMO** (别名: SJIS-DOCOMO)
    SJIS-Mobile#KDDI** (别名: SJIS-KDDI)
    SJIS-Mobile#SOFTBANK** (别名: SJIS-SOFTBANK)
    UTF-8-Mobile#DOCOMO** (别名: UTF-8-DOCOMO)
    UTF-8-Mobile#KDDI-A**
    UTF-8-Mobile#KDDI-B** (别名: UTF-8-KDDI)
    UTF-8-Mobile#SOFTBANK** (别名: UTF-8-SOFTBANK)
    ISO-2022-JP-MOBILE#KDDI** (别名: ISO-2022-JP-KDDI)
    JIS
    JIS-ms
    CP50220
    CP50220raw
    CP50221
    CP50222
    ISO-8859-1*
    ISO-8859-2*
    ISO-8859-3*
    ISO-8859-4*
    ISO-8859-5*
    ISO-8859-6*
    ISO-8859-7*
    ISO-8859-8*
    ISO-8859-9*
    ISO-8859-10*
    ISO-8859-13*
    ISO-8859-14*
    ISO-8859-15*
    byte2be
    byte2le
    byte4be
    byte4le
    BASE64
    HTML-ENTITIES
    7bit
    8bit
    EUC-CN*
    CP936
    GB18030**
    HZ
    EUC-TW*
    CP950
    BIG-5*
    EUC-KR*
    UHC (CP949)
    ISO-2022-KR
    Windows-1251 (CP1251)
    Windows-1252 (CP1252)
    CP866 (IBM866)
    KOI8-R*

* 表示该编码也能够在正则表达式中使用。

** 表示该编码自 PHP 5.4.0 始可用。

任何接受编码名称的 php.ini 条目一样也可使用 "auto" 和 "pass" 的值。 接受编码名的 mbstring 函数一样也可使用值 "auto"。

若是设置了 "pass",将不会对字符的编码进行转化。

若是设置了 "auto",它将扩展成 NLS 中定义的每一个字符编码列表。 好比,假设 NLS 设置为 Japanese,值将会认为是 "ASCII,JIS,UTF-8,EUC-JP,SJIS"。

NLS国家语言支持(National Language Support) spa

string iconv ( string in_charset, string out_charset, string str )

注意:
第二个参数,除了能够指定要转化到的编码之外,还能够增长两个后缀://TRANSLIT 和 //IGNORE,
其中:
//TRANSLIT 会自动将不能直接转化的字符变成一个或多个近似的字符,
//IGNORE 会忽略掉不能转化的字符,而默认效果是从第一个非法字符截断。
Returns the converted string or FALSE on failure. (返回转换后的字符串;若是执行失败将返回FALSE。)

使用:

1. 发现iconv在转换字符 "-" 到gb2312时会出错,若是没有ignore参数,全部该字符后面的字符串都没法被保存。无论怎么样,这个 "-" 都没法转换成功,没法输出。 另外mb_convert_encoding没有这个bug

2. mb_convert_encoding 能够指定多种输入编码,它会根据内容自动识别, 可是执行效率比iconv差太多;如:
$str = mb_convert_encoding($str,"euc-jp","ASCII,JIS,EUC-JP,SJIS,UTF-8");“ASCII,JIS,EUC-JP,SJIS,UTF-8”的顺序不一样效果也有差别 。

3. 通常状况下用 iconv,只有当遇到没法肯定原编码是何种编码,或者iconv转化后没法正常显示时才用mb_convert_encoding 函数 。

from_encoding is specified by character code name before conversion. it can be array or string - comma separated
enumerated list. If it is not specified, the internal encoding will be used.

$str = mb_convert_encoding($str, "UCS-2LE", "JIS, eucjp-win, sjis-win");
$str = mb_convert_encoding($str, "EUC-JP', " auto");

例子:

$content = iconv("GBK", "UTF-8", $content);
$content = mb_convert_encoding($content, "UTF-8", "GBK");

<?php
/* 转换内部编码为 SJIS */
$str = mb_convert_encoding($str, "SJIS");

/* 将 EUC-JP 转换成 UTF-7 */
$str = mb_convert_encoding($str, "UTF-7", "EUC-JP");

/* 从 JIS, eucjp-win, sjis-win 中自动检测编码,并转换 str 到 UCS-2LE */
$str = mb_convert_encoding($str, "UCS-2LE", "JIS, eucjp-win, sjis-win");

/* "auto" 扩展成 "ASCII,JIS,UTF-8,EUC-JP,SJIS" */
$str = mb_convert_encoding($str, "EUC-JP", "auto");
?>
<?php
$text = "This is the Euro symbol '€'.";

echo 'Original : ', $text, PHP_EOL;
echo 'TRANSLIT : ', iconv("UTF-8", "ISO-8859-1//TRANSLIT", $text), PHP_EOL;
echo 'IGNORE   : ', iconv("UTF-8", "ISO-8859-1//IGNORE", $text), PHP_EOL;
echo 'Plain    : ', iconv("UTF-8", "ISO-8859-1", $text), PHP_EOL;

?>

输出结果: 
Original : This is the Euro symbol '€'.
TRANSLIT : This is the Euro symbol 'EUR'.
IGNORE   : This is the Euro symbol ''.
Plain    :
Notice: iconv(): Detected an illegal character in input string in .\iconv-example.php on line 7
This is the Euro symbol '    
 
相关文章
相关标签/搜索