php截取等长UFT8中英文混合字串--688IT编程网

php截取等长UFT8中英⽂混合字串

由于需要，想实现“php截取等长UFT8中英⽂混合字串”，可是⽹上了很多代码不是有乱码就是不能实现等长（以⼀个中⽂长度为单位，两个英⽂字母算⼀个长度，如‘等长’长度为2，‘UTF8’长度也是2）。

由于utf8编码时，中⽂为三个字节，英⽂为⼀个字节，⽤substr就会出现乱码，⽤mb_substr会出现上⾯的不等长问题，但不会有乱码；

我以字节为单位进⾏操作，简单实现了⼀个⼩程序。

只能在utf8编码是使⽤。

Php代码

/*utf8编码时截取等长中英⽂字串*///英⽂标点[.,\"\\?!:_']

function substr_utf8($string,$start,$length)

{ //by aiou

$chars = $string;

lua字符串转数组

//echo $string[0].$string[1].$string[2];

$i=0;

do{

if (preg_match ("/[0-9a-zA-Z]/", $chars[$i])){//纯英⽂

$m++;

}

else {$n++; }//⾮英⽂字节,

$k = $n/3+$m/2;

$l = $n/3+$m;//最终截取长度；$l = $n/3+$m*2？

$i++;

} while($k < $length);

$str1 = mb_substr($string,$start,$l,'utf-8');//保证不会出现乱码

return$str1;

}

测试结果：

Php代码

$string = '第⼀次截取，mb_substr返回的是字符串宽度是按“字”来计算';

$string1 = '第⼀次截取，返回的是字符串宽度是按“字”来计算';

$string2 = '第A⼀D次截取，返回的12345是字符串宽度是按“字”来计算';

Php代码

echo substr_utf8($string,0,1).' ';

echo substr_utf8($string,0,2).' ';

echo substr_utf8($string,0,3).' ';

echo substr_utf8($string,0,4).' ';

echo substr_utf8($string,0,5).' ';

echo substr_utf8($string,0,6).' ';

echo substr_utf8($string,0,7).' ';

echo substr_utf8($string,0,8).' ';

echo substr_utf8($string,0,9).' ';

echo substr_utf8($string,0,10).' ';

echo substr_utf8($string,0,11).' ';

echo substr_utf8($string,0,12).' ';

echo substr_utf8($string,0,13).' ';

echo substr_utf8($string,0,14).' ';

echo substr_utf8($string,0,15).' ';

echo substr_utf8($string,0,16).' ';

echo substr_utf8($string,0,17).' ';

echo substr_utf8($string,0,18).' ';

echo substr_utf8($string,0,19).' ';

echo substr_utf8($string,0,20).' ';

第

第⼀

第⼀次

第⼀次截

第⼀次截取

第⼀次截取，

第⼀次截取，mb

第⼀次截取，mb_s

第⼀次截取，mb_sub

第⼀次截取，mb_subst

第⼀次截取，mb_substr

第⼀次截取，mb_substr返

第⼀次截取，mb_substr返回

第⼀次截取，mb_substr返回的

第⼀次截取，mb_substr返回的是

第⼀次截取，mb_substr返回的是字

第⼀次截取，mb_substr返回的是字符

第⼀次截取，mb_substr返回的是字符串

第⼀次截取，mb_substr返回的是字符串宽

第⼀次截取，mb_substr返回的是字符串宽度

Java代码

$ss='1234567890abcdefghijklmnopqrst';

echo Utf8Helper::substr_utf8($ss,0,1).' ';

echo Utf8Helper::substr_utf8($ss,0,2).' ';

echo Utf8Helper::substr_utf8($ss,0,3).' ';

echo Utf8Helper::substr_utf8($ss,0,4).' ';

echo Utf8Helper::substr_utf8($ss,0,5).' ';

echo Utf8Helper::substr_utf8($ss,0,6).' ';

echo Utf8Helper::substr_utf8($ss,0,7).' ';

echo Utf8Helper::substr_utf8($ss,0,8).' ';

echo Utf8Helper::substr_utf8($ss,0,9).' ';

echo Utf8Helper::substr_utf8($ss,0,10);

1234

123456

12345678

1234567890

1234567890ab

1234567890abcd

1234567890abcdef

1234567890abcdefgh

1234567890abcdefghij

长度都以汉字数为基准。

基本上每两个英⽂字母、数字、英⽂标点算作⼀个汉字长度。看上去效果还不错。改进⼀下还可以做其它编码下的。

效率没做测试，还没有这概念。

688IT编程网

php截取等长UFT8中英文混合字串

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

php截取等长UFT8中英文混合字串

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式