php中iconv函数使⽤⽅法
iconv函数库能够完成各种字符集间的转换,是php编程中不可缺少的基础函数库。
1、下载libiconv函数库/pub/gnu/libiconv/libiconv-1.9.;
2、解压缩tar -zxvf libiconv-1.9.;
3、安装libiconv
#configure --prefix=/usr/local/iconv
#make
#make install
4、重新编译php 增加编译参数--with-iconv=/usr/local/iconv
最近在做⼀个⼩偷程序,需要⽤到iconv函数把抓取来过的utf-8编码的页⾯转成gb2312,发现只有⽤iconv函数把抓取过来的数据⼀转码数据就会⽆缘⽆故的少⼀些。让我郁闷了好⼀会⼉,去⽹上⼀查资料才知道这是iconv函数的⼀个bug。iconv在转换字符"—"到gb2312时会出错
解决⽅法很简单,就是在需要转成的编码后加 "//IGNORE"  也就是iconv函数第⼆个参数后.如下:
以下为引⽤的内容:
复制代码代码如下:
iconv("UTF-8","GB2312//IGNORE",$data)
ignore的意思是忽略转换时的错误,如果没有ignore参数,所有该字符后⾯的字符串都⽆法被保存。
复制代码代码如下:
<?php
echo $str= '你好,这⾥是卖咖啡!';
echo '<br />';
echo iconv('GB2312', 'UTF-8', $str); //将字符串的编码从GB2312转到UTF-8
echo '<br />';
echo iconv_substr($str, 1, 1, 'UTF-8'); //按字符个数截取⽽⾮字节
print_r(iconv_get_encoding()); //得到当前页⾯编码信息
echo iconv_strlen($str, 'UTF-8'); //得到设定编码的字符串长度
//也有这样⽤的
$content = iconv("UTF-8","gbk//TRANSLIT",$content);
>
iconv不是php的默认函数,也是默认安装的模块。需要安装才能⽤的。
如果是windows2000+php,你可以修改php.ini⽂件,将extension=php_iconv.dll前的";"去掉,同时你要copy你的原php安装⽂件下的iconv.dll到你的winnt/system32下(如果你的dll指向的是这个⽬录)
在linux环境下,⽤静态安装的⽅式,在configure时加多⼀项 --with-iconv就可以了,phpinfo看得到iconv的项。
(Linux7.3+Apache4.06+php4.3.2),
下载:ftp:///pub/gnu/libiconv/libiconv-1.
安装:
#cp libiconv-1. /usr/local/src
#tar zxvf lib*
#./configure --prefix=/usr/local/libiconv
#make
#make install
编译php
#./configure --prefix=/usr/local/php4.3.2 --with-iconv=/usr/local/libiconv/
<?php
echo iconv("gb2312","ISO-8859-1","我们");
>
mb_convert_encoding这个函数是⽤来转换编码的。原来⼀直对程序编码这⼀概念不理解,不过现在好像有点开窍了。
不过英⽂⼀般不会存在编码问题,只有中⽂数据才会有这个问题。⽐如你⽤Zend Studio或Editplus写程序时,⽤的是gbk编码,如果数据需要⼊数据库,⽽数据库的编码为utf8时,这时就要把数据进⾏编码转换,不然进到数据库就会变成乱码。
php中header是什么意思mb_convert_encoding的⽤法见官⽅:
cn.php/manual/zh/function.mb-convert-encoding.php
做⼀个GBK To UTF-8
< ?php
header("content-Type: text/html; charset=Utf-8");
echo mb_convert_encoding("妳係我的友仔", "UTF-8", "GBK");
>
再来个GB2312 To Big5
< ?php
header("content-Type: text/html; charset=big5");
echo mb_convert_encoding("你是我的朋友", "big5", "GB2312");
>
不过要使⽤上⾯的函数需要安装但是需要先enable mbstring 扩展库。
PHP中的另外⼀个函数iconv也是⽤来转换字符串编码的,与上函数功能相似。
下⾯还有⼀些详细的例⼦:
iconv — Convert string to requested character encoding
(PHP 4 >= 4.0.5, PHP 5)
mb_convert_encoding — Convert character encoding
(PHP 4 >= 4.0.6, PHP 5)
⽤法:
string mb_convert_encoding ( string str, string to_encoding [, mixed from_encoding] )
需要先enable mbstring 扩展库,在 php.ini⾥将; extension=php_mbstring.dll 前⾯的 ; 去掉
mb_convert_encoding 可以指定多种输⼊编码,它会根据内容⾃动识别,但是执⾏效率⽐iconv差太多;
string iconv ( string in_charset, string out_charset, string str )
注意:第⼆个参数,除了可以指定要转化到的编码以外,还可以增加两个后缀://TRANSLIT 和 //IGNORE,其中
//TRANSLIT 会⾃动将不能直接转化的字符变成⼀个或多个近似的字符,//IGNORE 会忽略掉不能转化的字符,⽽默认效果是从第⼀个⾮法字符截断。
Returns the converted string or FALSE on failure.
使⽤:
发现iconv在转换字符”—”到gb2312时会出错,如果没有ignore参数,所有该字符后⾯的字符串都⽆法被保存。不管怎么样,这个”—”都⽆法转换成功,⽆法输出。另外mb_convert_encoding没有这个bug.
⼀般情况下⽤ iconv,只有当遇到⽆法确定原编码是何种编码,或者iconv转化后⽆法正常显⽰时才⽤mb_convert_encoding 函数.
from_encoding is specified by character code name before conversion. it can be array or string - comma separated enumerated list. If it is not specified, the internal encoding will be used.
/* Auto detect encoding from JIS, eucjp-win, sjis-win, then convert str to UCS-2LE */
$str = mb_convert_encoding($str, “UCS-2LE”, “JIS, eucjp-win, sjis-win”);
/* “auto” is expanded to “ASCII,JIS,UTF-8,EUC-JP,SJIS” */
$str = mb_convert_encoding($str, “EUC-JP”, “auto”);
例⼦:
$content = iconv(”GBK”, “UTF-8″, $content);
$content = mb_convert_encoding($content, "UTF-8″,"GBK");
今天在处理抓取内容的时候,当采⽤iconv进⾏编码转换的时候,发现结果会中断,猜是字符集的问题,考虑怎么跳过⽬标字符集不存在的字符,查⼿册发现iconv的函数只有三个参数,好像不⾏,然后查⽹上有⼈说可以,但是很奇怪怎么实现,最后发现英⽂描述有说可以加标识到⽬标编码后⾯:“TRANSLIT”,很郁闷怎么加呢?原来是先加“//”,真是郁闷,竟然有这样的设计
原型: $txtContent = iconv("utf-8",'GBK',$txtContent);
特殊参数:iconv("UTF-8","GB2312//IGNORE",$data)
两个可选的辅助参数:TRANSLIT和IGNORE ,(其中IGNORE 就是说遇到⽆法转换的就跳过)。 Description
string iconv ( string in_charset, string out_charset, string str )
Performs a character set conversion on the string str from in_charset to out_charset. Returns the converted string or FALSE on failure.
If you append the string //TRANSLIT to out_charset transliteration is activated. This means that when a character can't be represented in the target charset, it can be approximated through one or several similarly looking characters. If you append the string //IGNORE, characters that cannot be represented in the target charset are silently discarded. Otherwise, str is cut from the first illegal character.

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。