Lua截取字符串(截取utf-8格式字符串)--688IT编程网

Lua截取字符串（截取utf-8格式字符串）

⾸先要知道string.sub 和 string.byte 的⽤法。

基本思路：

之所以要⾃⼰写⼀个截取函数，是因为lua的库函数string.sub实际是字节的截取函数。

uft-8编码格式中，⼤部分中⽂是3个字节表⽰的，数字和字母等是⼀个字节的，还有某些国家的语⾔是2字节的，直接⽤string.sub就可能截出乱码来，因为不确定要截多少个字节。

所以，

定义⼀个GetBytes函数，获取字符的字节数（根据⾸个字节的⾼位标记，判断是⼏字节的字符）

然后不断后移，记录字节数和字符数。

如上图，假设要取字符3-4，那么应该从第3个字符的第⼀个字节取到第4个字最后⼀个字节

即：

lua字符串转数组当前字符数为截取的起始字符（startIndex）前⼀个位置时，说明从下⼀个字节开始截取字符串即 index == startIndex - 1 时 byteStart = bytes+1

当前字符数为截取的终⽌字符（endIndex）时，说明要截取的字符串到此为⽌即 index == endIndex 时 byteEnd = bytes

⽤ string.sub(str, byteStart, byteEnd) 就能截取byteStart 到 byteEnd 的字节

local StringHelper = {}

--[[

utf-8编码规则

单字节 - 0起头

1字节 0xxxxxxx 0 - 127

多字节 - 第⼀个字节n个1加1个0起头

2 字节 110xxxxx 192 - 223

3 字节 1110xxxx 22

4 - 239

4 字节 11110xxx 240 - 247

可能有1-4个字节

--]]

function StringHelper.GetBytes(char)

if not char then

return 0

end

local code = string.byte(char)

if code < 127 then

return 1

elseif code <= 223 then

return 2

elseif code <= 239 then

return 3

elseif code <= 247 then

return 4

else

-- 讲道理不会⾛到这⾥^_^

return 0

end

function StringHelper.Sub(str, startIndex, endIndex)

local tempStr = str

local byteStart = 1 -- string.sub截取的开始位置

local byteEnd = -1 -- string.sub截取的结束位置

local index = 0 -- 字符记数

local bytes = 0 -- 字符的字节记数

startIndex = math.max(startIndex, 1)

endIndex = endIndex or -1

while string.len(tempStr) > 0 do

if index == startIndex - 1 then

byteStart = bytes+1;

elseif index == endIndex then

byteEnd = bytes;

break;

end

bytes = bytes + StringHelper.GetBytes(tempStr)

tempStr = string.sub(str, bytes+1)

index = index + 1

end

return string.sub(str, byteStart, byteEnd) end

测试代码：

str = "中1⽂*a字符串勉強します";

print(StringHelper.Sub(str, 3, 4))

print(StringHelper.Sub(str, 1, 4))

print(StringHelper.Sub(str, 8))

print(StringHelper.Sub(str, 2, 12))

688IT编程网

Lua截取字符串(截取utf-8格式字符串)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

Lua截取字符串(截取utf-8格式字符串)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式