关于FireBird支持中文生僻字问题解决办法--688IT编程网

关于FireBird支持生僻字问题解决办法

1、数据库表的字符型字段必须使用GB18030字符集

2、应用程序或连接工具安装目录下必须存在“intl”文件夹（包含最新版：f，fbintl.dll 2个文件）

3、连接工具连接串所使用的字符集必须时GBK

中文字符编码简介 GB2312/GBK/GB18030/BIG5

1 GB2312-80

GB2312码是中华人民共和国国家汉字信息交换用编码，全称《信息交换用汉字编码字符集——基本集》，由国家标准总局发布，1981年5月1日实施，通行于大陆。新加坡等地也使用此编码。

GB2312收录简化汉字及符号、字母、日文假名等共7445个图形字符，其中汉字占6763个。GB2312规定“对任意一个图形字符都采用两个字节表示，每个字节均采用七位编码表示”，习惯上称第一个字节为“高字节”，第二个字节为“低字节”。

GB2312 将代码表分为94个区，对应第一字节；每个区94个位，对应第二字节，两个字节的值分别为区号

值和位号值加32（2OH），因此也称为区位码。01-09 区为符号、数字区，16-87区为汉字区，10-15区、88-94区是有待进一步标准化的空白区。GB2312将收录的汉字分成两级：第一级是常用汉字计3755个，置于16-55区，按汉语拼音字母/笔形顺序排列；第二级汉字是次常用汉字计3008个，置于56-87区，按部首/笔画顺序排列。故而 GB2312最多能表示6763个汉字。

GB2312的编码范围为2121H-777EH，与ASCII有重叠，通行方法是将GB码两个字节的最高位置1以示区别。

2 GBK

unicode系列全部汉字

GB2312-80仅收汉字6763个，这大大少于现有汉字，随着时间推移及汉字文化的不断延伸推广，有些原来很少用的字，现在变成了常用字，例如：的“镕”字，未收入GB2312-80，现在大陆的报业出刊只得使用（金+容）、（金容）、（左金右容）等来表示，形式不一而同，这使得表示、存储、输入、处理都非常不方便，对于搜索引擎等软件的构造来说也不是好消息，而且这种表示没有统一标准。从我们对人民日报 98年数据的处理过程中，得出这样的经验：回填外字最困难的就是如何得到这种表示方法的集合。

为了解决这些问题，以及配合UNICODE 的实施，全国信息技术化技术委员会于1995年12月1日《汉字内码扩展规范》。GBK向下与GB2312 完全兼容，向上支持ISO 10646国际标准，在前者向后者过渡过

程中起到的承上启下的作用。GBK 亦采用双字节表示，总体编码范围为8140-FEFE之间，首字节在81-FE之间，尾字节在40-FE之间，剔除XX7F一条线。

GBK共收入21886个汉字和图形符号，包括：

* GB2312中的全部汉字、非汉字符号。

* BIG5中的全部汉字。

* 与ISO 10646相应的国家标准GB13000中的其它CJK汉字，以上合计20902个

汉字。

* 其它汉字、部首、符号，共计984个。

微软公司自Windows 95 简体中文版开始支持GBK代码，但目前的多数搜索引擎都不能很好地支持GBK汉字。

GBK编码区分三部分：

* 汉字区　包括

GBK/2：OXBOA1-F7FE, 收录GB2312汉字6763个，按原序排列；

GBK/3：OX8140-AOFE，收录CJK汉字6080个；

GBK/4：OXAA40-FEAO，收录CJK汉字和增补的汉字8160个。

* 图形符号区　包括

GBK/1：OXA1A1-A9FE，除GB2312的符号外，还增补了其它符号

GBK/5：OXA840-A9AO，扩除非汉字区。

* 用户自定义区

即GBK区域中的空白区，用户可以自己定义字符。

3 GB18030

GB18030 是最新的汉字编码字符集国家标准, 向下兼容 GBK 和 GB2312 标准。 GB18030 编码是一二四字节变长编码。一字节部分从 0x0~0x7F 与 ASCII 编码兼容。二字节部分, 首字节从 0x81~0xFE, 尾字节从 0x40~0x7E 以及 0x80~0xFE, 与 GBK标准基本兼容。四字节部分, 第一字节从 0x81~0xFE, 第

二字节从 0x30~0x39, 第三和第四字节的范围和前两个字节分别相同。四字节部分覆盖了从 0x0080 开始, 除去二字节部分已经覆盖的所有 Unicode 3.1 码位。也就是说, GB18030 编码在码位空间上做到了与 Unicode 标准一一对应，这一点与 UTF-8 编码类似。

目前最新的 glibc 2.2.x 系列已经全面支持了 GB18030 Locale 和 GB18030 与 UCS-4 之间的编码转换, 也就是说在系统层上 Linux 已经可以支持 GB18030 标准了。下面问题的关键就是怎样让 XFree86 窗口系统也支持 GB18030 标准。

4 BIG5

BIG5是通行于台湾、香港地区的一个繁体字编码方案。虽然存在一些瑕疵，但广泛应用于电脑行业，尤其是互联网中，从而成为一种事实上的行业标准。

1983年10月，科学委员会、教育部国语推行委员会、中央标准局、行政院共同制定了《通用汉字标准交换码》，后经修订于1992年5月公布，更名为《中文标准交换码》，BIG5是台湾资讯工业策进会根据以上标准制定的编码方案。

BIG5码是双字节编码方案，其中第一个字节的值在OXAO-OXFE之间，第二个字节在OX40-OX7E和OXA1-OXFE之间。

BIG5收录13461个汉字和符号，包括：

* 符号408个，编码位置A140-A3BE

* 常用字5401个，编码位置A440-C67E，包括台湾教育部颁布的《常用国字标准字体表》的全部汉字4808个，台湾教科书常用字587个，异体字6个。

* 次常用字7652个，编码位置C940-F9D5，包括台湾教育部颁布的《次常用国字标准字体表》的全部汉字6341个，《罕用国字标准字体表》中使用频率较高的字1311个。

688IT编程网

关于FireBird支持中文生僻字问题解决办法

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

关于FireBird支持中文生僻字问题解决办法

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式