简述UTF8编码原理
  系统自带的记事本有读写UTF8文本文件的功能,我想在自编的记事本中也加入这个功能,但在网上查了一个钟头,竟然不到用VB编写的代码,看来,天降大任于斯人也,大概要由我来开这个头了。
  于是我在网上狂查UTF8的文章,恶补这方面的知识,并且还真的获益非浅,起码从七窍通六窍——一窍不通到七窍通一窍——略知一二了,呵呵。
  当我做完最后一次试验时,长长地叹了一口气,美美地伸了一个懒腰,呵呵,真爽啊,一天的时间终于没有白费!这也许就是编程的乐趣吧,当看到程序按照自己的愿望运行时,各位哥们们,你们的心情一定也与我是一样的,无比舒畅。
  下面我先简单讲述一下UTF8编码的有关知识,并且只讲与我编写的读写UTF8文本代码有关的知识(如有谬误之处请各位兄弟指正),详细的理论请各位自己专业文章看看。
  UTF-8 编码字符理论上可以最多到 6个字节长,但目前全世界的所有文字和符号种类加起来也只要编到 4个字节长就够了。
  UTF-8 是以 8位(即 1个字节)为单元对原始码进行编码(注意一点:这里所讲的原始码都是指Unicode码),并规定:多字节码(2个字节以上才称为多字节)以转换后第1个字节起头的连续1”的数目(这些连续1”称为标记位),表示转换成几个字节:110”连续两个1”,表示转换结果为2个字节,1110”表示3个字节,而11110”则表示4个字节……跟随在标记位之后的0,其作用是分隔标记位和字符码位。第2~第4个字节的起头两个位固定设置为10”,也作为标记,剩下的6个位才作为字符码位使用。
  这样,2字节UTF-8码剩下11unicode汉字个字符码位,可用以转换008007FF的原始字符码,3字节剩下16个字符码位,可用以转换0800FFFF的原始字符码,由此类推。编码方式的模板如下:
原始码(16进制) UTF8编码(二进制)
--------------------------------------------
0000 - 007F      0xxxxxxx
0080 - 07FF      110xxxxx 10xxxxxx
0800 - FFFF      1110xxxx 10xxxxxx 10xxxxxx
……
--------------------------------------------
  模板中的x”表示字符码。
  VB能识别的 Ascii码<007F,所以在VB中,Ascii码都只能编为1个字节的UTF8码。汉字的 Unicode编码范围为0800FFFF,所以被编为3个字节的UTF8码。
  例如字的Unicode编码是6C496C490800-FFFF之间,所以要用3个字节的模板:1110xxxx 10xxxxxx 10xxxxxx
  UTF8文本文件与Unicode文本文件类似,在文件的头部也有标记字节,Unicode文件的标记是2个字节:&HFF &HFEUTF8文件的标记是3个字节:&HEF&HBB &HBF
  要写入UTF-8编码的文本文件,关键是对汉字编码的处理。我们从上述的汉字编码模板就
可以看出,对汉字的处理步骤大致为:
第一步:取得汉字的Unicode
第二步:将Unicode码分解为两个16进制数据
第三步:将这两个16进制数据转换成二进制数据并连接
第四步:将二进制数据分解为三个串,第一个串为4个位,在前面加上标记位1110”,第二、三个串均为6个位,分别在前面加上10”标记位
第五步:将这三个串分别转换为10进制数据并赋值给字节型数组
第六步:将字节型数组用二进制法写盘,并且要先在文本头存入三个字节的标记(&HEF&HBB&HBF),再将转换好的数据写入
  要读取UTF-8编码的文本文件,对汉字的处理步骤大致为:
第一步:用二进制法读入文本数据,赋值给字节型数组,并判断前3个字节是否UTF8标记,如果是,才进行以下的处理
第二步:逐个字节判断是否汉字编码,如果是,就再提取后两个数组元素,共三个数组元素来加以处理
第三步:将这三个数据都转换成16进制数据
第四步:将三个16进制数据都转换成二进制数据
第五步:从第一个二进制数据中去掉前4位,从第二、三个二进制数据中分别去掉前2位,并将这三个处理后的二进制数据依次连接,成为一个16位的字串
第六步:从这个二进制串中分别提取前8位和后8位转换成两个10进制数据,这两个数据就是汉字的Unicode码了,将它们赋值给一个字符型变量即可

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。