C++中ANSI、Unicode、UTF8字符串之间的互转--688IT编程网

C++中ANSI、Unicode、UTF8字符串之间的互转

Ansi字符串我们最熟悉，英⽂占⼀个字节，汉字2个字节，以⼀个\0结尾，常⽤于txt⽂本⽂件；

Unicode字符串，每个字符(汉字、英⽂字母)都占2个字节，以2个连续的\0结尾，NT操作系统内核⽤的是这种字符串，常被定义为typedef unsigned short wchar_t；所以我们有时常会见到什么char*⽆法转换为unsignedshort*之类的错误，其实就是unicode；

UTF8是Unicode⼀种压缩形式，英⽂A在unicode中表⽰为0x0041，⽼外觉得这种存储⽅式太浪费，因为浪费了50%的空间，于是就把英⽂压缩成1个字节，成了utf8编码，但是汉字在utf8中占3个字节，显然⽤做中⽂不如ansi合算，这就是中国的⽹页⽤作ansi编码⽽⽼外的⽹页常⽤utf8的原因。UTF8在还游戏⾥运⽤的很⼴泛，⽐如WOW的lua脚本等；

下⾯来说⼀下转换，写⽂件我⽤了CFile类，其实⽤FILE*之类的也是⼀样，写⽂件和字符串什么类别没有关系，硬件只关⼼数据和长度。

1.ANSI转Unicode

void AnsiToUnicode()

{

// ansi to unicode

char* szAnsi = "abcd1234你我他";

//预转换，得到所需空间的⼤⼩

int wcsLen = ::MultiByteToWideChar(CP_ACP, NULL, szAnsi, strlen(szAnsi), NULL, 0);

//分配空间要给'\0'留个空间，MultiByteToWideChar不会给'\0'空间

wchar_t* wszString = new wchar_t[wcsLen + 1];

//转换

::MultiByteToWideChar(CP_ACP, NULL, szAnsi, strlen(szAnsi), wszString, wcsLen);

//最后加上'\0'

wszString[wcsLen] = '\0';

/unicode版的MessageBox API

::MessageBoxW(GetSafeHwnd(), wszString, wszString, MB_OK);

//接下来写⼊⽂本

//写⽂本⽂件，头2个字节0xfeff，低位0xff写在前

CFile cFile;

cFile.Open(_T("1.txt"), CFile::modeWrite | CFile::modeCreate);

//⽂件开头

cFile.SeekToBegin();

cFile.Write("\xff\xfe", 2);

//写⼊内容

cFile.Write(wszString, wcsLen * sizeof(wchar_t));

cFile.Flush();

cFile.Close();

delete[] wszString;

wszString =NULL;

//⽅法2

//设置当前地域信息，不设置的话，使⽤这种⽅法，中⽂不会正确显⽰

//需要#include<locale.h>

setlocale(LC_CTYPE, "chs");

wchar_t wcsStr[100];

//注意下⾯是⼤写S，在unicode中，代表后⾯是ansi字符串

//swprintf是sprintf的unicode版本

/格式的前⾯要加⼤写L，代表是unicode

swprintf(wcsStr, L"%S", szAnsi);

::MessageBoxW(GetSafeHwnd(), wcsStr, wcsStr, MB_OK);

}

2. Unicode转ANSI

//预转换，得到所需空间的⼤⼩，这次⽤的函数和上⾯名字相反

int ansiLen = ::WideCharToMultiByte(CP_ACP, NULL, wszString, wcslen(wszString), NULL, 0, NULL, NULL); //同上，分配空间要给'\0'留个空间

char* szAnsi = new char[ansiLen + 1];

//转换

//unicode版对应的strlen是wcslen

:WideCharToMultiByte(CP_ACP, NULL, wszString, wcslen(wszString), szAnsi, ansiLen, NULL, NULL);

//最后加上'\0'

szAnsi[ansiLen] = '\0';

//Ansi版的MessageBox API

::MessageBoxA(GetSafeHwnd(), szAnsi, szAnsi, MB_OK);

//接下来写⼊⽂本

//写⽂本⽂件，ANSI⽂件没有BOM

CFile cFile;

cFile.Open(_T("1.txt"), CFile::modeWrite | CFile::modeCreate);

//⽂件开头

cFile.SeekToBegin();

//写⼊内容

cFile.Write(szAnsi, ansiLen * sizeof(char));

cFile.Flush();

cFile.Close();

delete[] szAnsi;

szAnsi =NULL;

//⽅法2

//和上⾯⼀样有另⼀种⽅法

setlocale(LC_CTYPE, "chs");

char szStr[100];

//注意下⾯是⼤写，在ansi中，代表后⾯是unicode字符串

/sprintf

sprintf(szStr, "%S", wszString);

::MessageBoxA(GetSafeHwnd(), szStr, szStr, MB_OK);

}

3. Unicode转UTF8

//预转换，得到所需空间的⼤⼩，这次⽤的函数和上⾯名字相反

int u8Len = ::WideCharToMultiByte(CP_UTF8, NULL, wszString, wcslen(wszString), NULL, 0, NULL, NULL); //同上，分配空间要给'\0'留个空间

//UTF8虽然是Unicode的压缩形式，但也是多字节字符串，所以可以以char的形式保存

char* szU8 = new char[u8Len + 1];

//转换

//unicode版对应的strlen是wcslen

::WideCharToMultiByte(CP_UTF8, NULL, wszString, wcslen(wszString), szU8, u8Len, NULL, NULL);

//最后加上'\0'

szU8[u8Len] = '\0';

//MessageBox不⽀持UTF8，所以只能写⽂件

//接下来写⼊⽂本

//写⽂本⽂件，UTF8的BOM是0xbfbbef

CFile cFile;

unicode汉字cFile.Open(_T("1.txt"), CFile::modeWrite | CFile::modeCreate);

//⽂件开头

cFile.SeekToBegin();

//写BOM，同样低位写在前

cFile.Write("\xef\xbb\xbf", 3);

//写⼊内容

cFile.Write(szU8, u8Len * sizeof(char));

cFile.Flush();

cFile.Close();

delete[] szU8;

szU8 =NULL;

}

4.UTF8转UNICODE

void CDeleteDirTestDlg::U8ToUnicode()

{

/UTF8 to Unicode

//由于中⽂直接复制过来会成乱码，编译器有时会报错，故采⽤16进制形式

char* szU8 = "abcd1234\xe4\xbd\xa0\xe6\x88\x91\xe4\xbb\x96\x00";

//预转换，得到所需空间的⼤⼩

int wcsLen = ::MultiByteToWideChar(CP_UTF8, NULL, szU8, strlen(szU8), NULL, 0);

//分配空间要给'\0'留个空间，MultiByteToWideChar不会给'\0'空间

wchar_t* wszString = new wchar_t[wcsLen + 1];

//转换

::MultiByteToWideChar(CP_UTF8, NULL, szU8, strlen(szU8), wszString, wcsLen);

//最后加上'\0'

wszString[wcsLen] = '\0';

/unicode版的MessageBox API

::MessageBoxW(GetSafeHwnd(), wszString, wszString, MB_OK);

//写⽂本同ansi to unicode

}

ANSI转换utf8和utf8转换Ansi就是上⾯2个的结合，把unicode作为中间量，进⾏两次转换即可。

688IT编程网

C++中ANSI、Unicode、UTF8字符串之间的互转

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

C++中ANSI、Unicode、UTF8字符串之间的互转

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式