vbs转码gb2312转换为UTF-8编码的函数<%
1、'UTF转GB---将UTF8编码⽂字转换为GB编码⽂字
function UTF2GB(UTFStr)
for Dig=1 to len(UTFStr)
'如果UTF8编码⽂字以%开头则进⾏转换
if mid(UTFStr,Dig,1)="%" then
'UTF8编码⽂字⼤于8则转换为汉字
if len(UTFStr) >= Dig+8 then
GBStr=GBStr & ConvChinese(mid(UTFStr,Dig,9))
Dig=Dig+8
else
GBStr=GBStr & mid(UTFStr,Dig,1)
end if
else
GBStr=GBStr & mid(UTFStr,Dig,1)
end if
next
UTF2GB=GBStr
end function
'UTF8编码⽂字将转换为汉字
function ConvChinese(x)
A=split(mid(x,2),"%")
i=0
j=0
for i=0 to ubound(A)
A(i)=c16to2(A(i))
next
for i=0 to ubound(A)-1
DigS=instr(A(i),"0")
Unicode=""
for j=1 to DigS-1
if j=1 then
A(i)=right(A(i),len(A(i))-DigS)
Unicode=Unicode & A(i)
else
i=i+1
A(i)=right(A(i),len(A(i))-2)
Unicode=Unicode & A(i)
end if
next
if len(c2to16(Unicode))=4 then
ConvChinese=ConvChinese & chrw(int("&H" & c2to16(Unicode)))
else
ConvChinese=ConvChinese & chr(int("&H" & c2to16(Unicode)))
end if
next
end function
'⼆进制代码转换为⼗六进制代码
function c2to16(x)
i=1
for i=1 to len(x) step 4
c2to16=c2to16 & hex(c2to10(mid(x,i,4)))
next
end function
'⼆进制代码转换为⼗进制代码
function c2to10(x)
c2to10=0
if x="0" then exit function
i=0
for i= 0 to len(x) -1
if mid(x,len(x)-i,1)="1" then c2to10=c2to10+2^(i) next
end function
'⼗六进制代码转换为⼆进制代码
function c16to2(x)
i=0
for i=1 to len(trim(x))
tempstr= c10to2(cint(int("&h" & mid(x,i,1))))
do while len(tempstr)<4
tempstr="0" & tempstr
loop
c16to2=c16to2 & tempstr
next
end function
'⼗进制代码转换为⼆进制代码
function c10to2(x)
mysign=sgn(x)
x=abs(x)
DigS=1
do
if x<2^DigS then
exit do
else
DigS=DigS+1
end if
loop
tempnum=x
i=0
for i=DigS to 1 step-1
if tempnum>=2^(i-1) then
tempnum=tempnum-2^(i-1)
c10to2=c10to2 & "1"
else
c10to2=c10to2 & "0"
end if
next
if mysign=-1 then c10to2="-" & c10to2
end function
2、'GB转UTF8--将GB编码⽂字转换为UTF8编码⽂字
Function toUTF8(szInput)
Dim wch, uch, szRet
Dim xurl编码和utf8区别
Dim nAsc, nAsc2, nAsc3
'如果输⼊参数为空,则退出函数
If szInput = "" Then
toUTF8 = szInput
Exit Function
End If
'开始转换
For x = 1 To Len(szInput)
'利⽤mid函数分拆GB编码⽂字
wch = Mid(szInput, x, 1)
'利⽤ascW函数返回每⼀个GB编码⽂字的Unicode字符代码
'注:asc函数返回的是ANSI 字符代码,注意区别
nAsc = AscW(wch)
If nAsc < 0 Then nAsc = nAsc + 65536
If (nAsc And &HFF80) = 0 Then
szRet = szRet & wch
Else
If (nAsc And &HF000) = 0 Then
uch = "%" & Hex(((nAsc / 2 ^ 6)) Or &HC0) & Hex(nAsc And &H3F Or &H80) szRet = szRet & uch
Else
'GB编码⽂字的Unicode字符代码在0800 - FFFF之间采⽤三字节模版
uch = "%" & Hex((nAsc / 2 ^ 12) Or &HE0) & "%" & _
Hex((nAsc / 2 ^ 6) And &H3F Or &H80) & "%" & _
Hex(nAsc And &H3F Or &H80)
szRet = szRet & uch
End If
End If
Next
toUTF8 = szRet
End Function
3、'GB转unicode---将GB编码⽂字转换为unicode编码⽂字
function chinese2unicode(Str)
dim i
dim Str_one
dim Str_unicode
if(isnull(Str)) then
exit function
end if
for i=1 to len(Str)
Str_one=Mid(Str,i,1)
Str_unicode=Str_unicode&chr(38)
Str_unicode=Str_unicode&chr(35)
Str_unicode=Str_unicode&chr(120)
Str_unicode=Str_unicode& Hex(ascw(Str_one))
Str_unicode=Str_unicode&chr(59)
next
chinese2unicode=Str_unicode
end function
4、'URL解码
Function URLDecode(enStr)
dim deStr
dim c,i,v
deStr=""
for i=1 to len(enStr)
c=Mid(enStr,i,1)
if c="%" then
v=eval("&h"+Mid(enStr,i+1,2))
if v<128 then
deStr=deStr&chr(v)
i=i+2
else
if isvalidhex(mid(enstr,i,3)) then
if isvalidhex(mid(enstr,i+3,3)) then
v=eval("&h"+Mid(enStr,i+1,2)+Mid(enStr,i+4,2))
deStr=deStr&chr(v)
i=i+5
else
v=eval("&h"+Mid(enStr,i+1,2)+cstr(hex(asc(Mid(enStr,i+3,1))))) deStr=deStr&chr(v)
i=i+3
end if
else
destr=destr&c
end if
end if
else
if c="+" then
deStr=deStr&" "
else
deStr=deStr&c
end if
end if
next
URLDecode=deStr
end function
'判断是否为有效的⼗六进制代码
function isvalidhex(str)
dim c
isvalidhex=true
str=ucase(str)
if len(str)<>3 then isvalidhex=false:exit function
if left(str,1)<>"%" then isvalidhex=false:exit function
c=mid(str,2,1)
if not (((c>="0") and (c<="9")) or ((c>="A") and (c<="Z"))) then isvalidhex=false:exit function
c=mid(str,3,1)
if not (((c>="0") and (c<="9")) or ((c>="A") and (c<="Z"))) then isvalidhex=false:exit function
end function
%>
参考资料
GB2312 字符集
GB2312⼜称为GB2312-80字符集,全称为《信息交换⽤汉字编码字符集·基本集》,由原中国国家标准总局发布,1981年5⽉1⽇实施,是中国国家标准的简体中⽂字符集。它所收录的汉字已经覆盖99.75%的使⽤频率,基本满⾜了汉字的计算机处理需要。在中国⼤陆和新加坡获⼴泛使⽤。
GB2312收录简化汉字及⼀般符号、序号、数字、拉丁字母、⽇⽂假名、希腊字母、俄⽂字母、汉语拼⾳符号、汉语注⾳字母,共 7445个图形字符。其中包括6763个汉字,其中⼀级汉字3755个,⼆级汉字3008个;包括拉丁字母、希腊字母、⽇⽂平假名及⽚假名字母、俄语西⾥尔字母在内的682个全⾓字符。
GB2312中对所收汉字进⾏了“分区”处理,每区含有94个汉字/符号。这种表⽰⽅式也称为区位码。
它是⽤双字节表⽰的,两个字节中前⾯的字节为第⼀字节,后⾯的字节为第⼆字节。习惯上称第⼀字节为“⾼字节” ,⽽称第⼆字节
为“低字节”。“⾼位字节”使⽤了0xA1-0xF7(把01-87区的区号加上0xA0),“低位字节”使⽤了0xA1-0xFE(把01-94加上
0xA0)。
以GB2312字符集的第⼀个汉字“啊”字为例,它的区号16,位号01,则区位码是1601,在⼤多数计算机程序中,⾼字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1。计算公式是:0xB0=0xA0+16, 0xA1=0xA0+1。
GBK字符集
GBK字符集是GB2312的扩展(K),GBK1.0收录了21886个符号,它分为汉字区和图形符号区,汉字区包括21003个字符。GBK字符集主要扩展了繁体中⽂字的⽀持。
BIG5 字符集
BIG5⼜称⼤五码或五⼤码,1984年由台湾财团法⼈信息⼯业策进会和五间软件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、⼤众 (FIC)创⽴,故称⼤五码。Big5码的产⽣,是因为当时台湾不同⼚商各⾃推出不同的编码,如倚天码、IBM PS55、王安码等,彼此不能兼容;另⼀⽅⾯,台湾政府当时尚未推出官⽅的汉字编码,⽽中国⼤陆的GB2312编码亦未有收录繁体中⽂字。
Big5字符集共收录13,053个中⽂字,该字符集在使⽤。耐⼈寻味的是该字符集重复地收录了两个相同的字:“兀”(0xA461及0xC94A)、“嗀”(0xDCD1及0xDDFC)。
Big5码使⽤了双字节储存⽅法,以两个字节来编码⼀个字。第⼀个字节称为“⾼位字节”,第⼆个字节称为“低位字节”。⾼位字节的编码范围0xA1-0xF9,低位字节的编码范围0x40-0x7E及0xA1-0xFE。
尽管Big5码内包含⼀万多个字符,但是没有考虑社会上流通的⼈名、地名⽤字、⽅⾔⽤字、化学及⽣物科等⽤字,没有包含⽇⽂平假名及⽚假字母。
例如台湾视“着”为“著”的异体字,故没有收录“着”字。康熙字典中的⼀些部⾸⽤字(如“⼇”、“⽧”、“⾡”、“⽨”等)、常见的⼈名⽤字(如“堃”、“煊”、“栢”、“喆”等) 也没有收录到Big5之中。
GB18030 字符集
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论