lua截取字符,以及取字符个数(非字符串长度)--688IT编程网

lua截取字符，以及取字符个数（⾮字符串长度）

需求

按字⾯个数来截取

函数(字符串, 开始位置, 截取长度)

utf8sub("你好1世界哈哈",2,5) = 好1世界哈

utf8sub("1你好1世界哈哈",2,5) = 你好1世界

utf8sub("你好世界1哈哈",1,5) = 你好世界1

utf8sub("12345678",3,5) = 34567

utf8sub("øpø你好pix",2,5) = pø你好p

错误⽅法

⽹上了⼀些算法, 都不太正确; 要么就是乱码, 要么就是只考虑了4 byte 中⽂的情况, 不够全⾯

1. string.sub(s,1，截取长度*4)

⽹上很多直接使⽤”""string.sub(s,1，截取长度*4)“是肯定不对的, 因为如果中英⽂混合的字符串, 例如你好1世界的字符长度分别是4,4,1,4,4, 如果截取4个字, 4*4=4+4+1+4+3, 那世界的界字将会被取前3个byte, 就会出现乱码

2. if byte>128 then index = index + 4

问题关键

1. utf8字符是变长字符

2. 字符长度有规律

UTF-8字符规律

字符串的⾸个byte表⽰了该utf8字符的长度

0xxxxxxx - 1 byte

110yxxxx - 192, 2 byte

1110yyyy - 225, 3 byte

11110zzz - 240, 4 byte

各种正确算法

-- 判断utf8字符byte长度

-- 0xxxxxxx - 1 byte

-- 110yxxxx - 192, 2 byte

-- 1110yyyy - 225, 3 byte

-- 11110zzz - 240, 4 byte

local function chsize(char)

if not char then

print("not char")

return 0

elseif char > 240 then

return 4

elseif char > 225 then

return 3

elseif char > 192 then

return 2

else

return 1

end

- 计算utf8字符串字符数, 各种字符都按⼀个字符计算

-- 例如utf8len("1你好") => 3

function utf8len(str)

local len = 0

local currentIndex = 1

while currentIndex <= #str do

local char = string.byte(str, currentIndex)

currentIndex = currentIndex + chsize(char)

len = len +1

end

return len

end

-- 截取utf8 字符串

-- str: 要截取的字符串

字符串长度不同怎样取

-- startChar: 开始字符下标，从1开始

-- numChars: 要截取的字符长度

function utf8sub(str, startChar, numChars)

local startIndex = 1

while startChar > 1 do

local char = string.byte(str, startIndex)

startIndex = startIndex + chsize(char)

startChar = startChar - 1

end

local currentIndex = startIndex

while numChars > 0 and currentIndex <= #str do

local char = string.byte(str, currentIndex)

currentIndex = currentIndex + chsize(char)

numChars = numChars -1

end

return str:sub(startIndex, currentIndex - 1)

end

-- ⾃测

function test()

- test utf8len

assert(utf8len("你好1世界哈哈") == 7)

assert(utf8len("你好世界1哈哈 ") == 8)

assert(utf8len(" 你好世界1哈哈") == 9)

assert(utf8len("12345678") == 8)

assert(utf8len("øpø你好pix") == 8)

-- test utf8sub

assert(utf8sub("你好1世界哈哈",2,5) == "好1世界哈") assert(utf8sub("1你好1世界哈哈",2,5) == "你好1世界") assert(utf8sub(" 你好1世界哈哈",2,6) == "你好1世界 ") assert(utf8sub("你好世界1哈哈",1,5) == "你好世界1") assert(utf8sub("12345678",3,5) == "34567")

assert(utf8sub("øpø你好pix",2,5) == "pø你好p")

print("all test succ")

end

test()

688IT编程网

lua截取字符,以及取字符个数(非字符串长度)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

lua截取字符,以及取字符个数(非字符串长度)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式