Windows下c++字符编码(二)--688IT编程网

Windows下c++字符编码（⼆）

编译器对c++源⽂件编码的识别

注意，这⾥说的，是对于源⽂件编码的识别，⽽不是⽤c++来读写⽂件。实际上，不同编译器对于源⽂件编码的识别时有差异的，这是你需要特别注意的⼀点。如果你在 Code Blocks ⾥边在源⽂件中写了中⽂，⽤ sublime 打开却发现出现乱码，本⽂可以彻底解决这个问题。

基本知识和基本⼯具

本篇是整理时加上的⼀节，我觉得最好将⼀些基础知识提前说清楚，便于之后的陈述。

⽂件编码基础知识

前⾯说完了基本的编码知识，具体在⽂件中是这么实现的呢。

⽂本⽂件

通常意义上理解的⽂本⽂件，就是只保存字符的编码信息，⽽不保存字符的字体、⼤⼩、颜⾊等信息的⽂件。事实上，所有的编程源⽂件都是⽂本⽂件。

在windows下我们新建⼀个⽂本⽂件，⼀般默认是使⽤Notepad这个软件，默认编码是ANSI。不过如果你采⽤其他软件，例如

Notepad++，vim，或者VS Code，结果可能是不尽相同。但是⽆论如何，字符在⽂件中保存，⼀定还是0101这样的编码（计算机上什么东西不是这样编码的呢）。

ANSI

这个基本上没有什么好说的，windows下使⽤记事本（Notepad）新建⼀个⽂本⽂件，就是ANSI编码的。其在硬盘上保存的，就是这些字符的ANSI编码。

utf-8

现在有⼀个问题，同样⼀个.txt⽂件，编辑器如何判断它是什么编码呢。所以很多⽂件都有⼀些打头的⼀些字节来表⽰⾃⼰的⽂件类型。⼀些utf-8⽂件就会有⽂件头，称为BOM，utf-8⽂件的BOM是三个字节：0xef，0xbb，0xbf。不过⼀些由于utf-8编码的普及，现在⽆BOM的utf-8⽂件更多。

作为utf-8拥护者，我们⼀般推崇⽆BOM的utf-8⽂件

⽐如 sublime 识别⽂件默认就是utf-8，如果⽂件编码是utf-8，就会正确显⽰，如果⽂件实际上是ANSI编码，显然不会有BOM，sublime 还是把他当成utf-8⽂件来读，就会产⽣乱码。

utf-16⽂件

前⾯说过，utf-16实际上有两种存储⽅式，⼤端序和⼩端序，这关系到⼀个utf-16字符两个字节哪个在硬盘中位置靠前。这个信息要告诉编辑器，就依靠⽂件头了：

- ⼤端序utf-16BE，⽂件头为0xfe，0xff。

- ⼩端序utf-16LE，⽂件头⽂0xff，0xfe。

utf-32⽂件

⽬前我的⼯具⽆法查看utf-32⽂件，就不管了，⼀般来说utf-32⽂件不会⽤到。

⼯具

Notepad++

我的主要⼯具就是Notepad++了，它会判断⽂件编码，可以很⽅便地转换编码，虽然我现在常⽤VS Code，不过写此⽂

时，Notepad++帮了⼤忙，如果你碰到乱码⽂本⽂件，可以⽤他来查看。

cmd（命令提⽰符）

要特别注意的是，命令提⽰符的输⼊输出默认编码是ANSI，所以任何输出字节都会按照ANSI解码，然后再打印出来。所以，通常只有ANSI编码字符串才能正确输出，如何输出其他编码字符，是后⾯的课题。

python3的str的默认编码是utf-8，其可以正确输出是python⾃⼰实现的。

c++字符串的基本知识

字符初始化

类型名单元初始化（注意前缀）编码

std::string char std::string s = "你好世界"；系统默认

std::string char std::string s = u8"你好世界";utf-8

std::u16string char16_t std::u16string s = u"你好世界";utf-16

std::u32string char32_t std::u32string s = U"你好世界";utf-32

std::wstring wchar_t std::wstring s = L"你好世界"；系统依赖wchar_t的长度

sizeof(wchar_t)==2;//Winodws下

sizeof(wchar_t)==4;//Unix/Linux下

编译器对源⽂件的识别

实验使⽤的编译器有visual studio 2017的cl.exe（x86_x64），clang 7.0.0（⾃⼰编译的release版本），以及gcc 8.1.0 （MinGW-W64)，全部都在命令⾏下编译，实验时会具体说明。所有实验源⽂件编码也会标注。

#include<iostream>

#include<string>

// encoding = utf-8 (no BOM)

int main(){

std::string sa ="你好世界";

std::string sb = u8"你好世界";

std::cout <<"len(sa)="<< sa.size()<<' '<< sa << std::endl;

std::cout <<"len(sb)="<< sb.size()<<' '<< sb << std::endl;

}

输出：

g++ or clang-cl

len(sa)=12 浣犲ソ涓栫晫

len(sb)=12 浣犲ソ涓栫晫

len(sa)=12 浣犲ソ涓栫晫

len(sb)=18 娴ｇ姴銈芥稉鏍櫕

如果上述源⽂件改成ANSI编码，结果是:

g++

len(sa)=8 你好世界

len(sb)=8 你好世界

clang-cl

test.cpp(6,23): warning: illegal character encoding in string literal [-Winvalid-source-encoding]

std::string sa = "<C4><E3><BA><C3><CA><C0><BD><E7>";

^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

test.cpp(7,25): error: illegal character encoding in string literal

std::string sb = u8"<C4><E3><BA><C3><CA><C0><BD><E7>";

len(sa)=8 你好世界

len(sb)=12 浣犲ソ涓栫晫

分析：从上诉结果可以看出，

gcc和clang都是默认utf-8编码的，不过，g++没有编码检查，会把任何⽂件都当作utf-8⽂件来读取。

gcc和clang的u8前缀是不起作⽤的，毕竟本来就默认是utf-8编码。

cl 默认编码是ANSI，所以u8前缀是起作⽤的，但是对于⽆BOM的utf-8⽂件，它会当成ANSI来读取，所以它把utf-8的"你好世界"含有的12字节当成了6个ANSI字符，并对其进⾏的转码，试图转为6个utf-8字符，也就是18字节，这显然是越搞越乱。

不过还是可以夸夸cl的，如果你⽤其他编码实验，对于cl，它都会给出：

len(sa)=8 你好世界

len(sb)=12 浣犲ソ涓栫晫

这是由于它会⾃动把他转换为ANSI编码，然后再编译，包括有BOM的utf-8⽂件也是这样的（显然，有

BOM就是告诉了它这是⼀个utf-8⽂件，⽆BOM它就当是ANSI了）。

notepad++⽽对于gcc和clang，其中ANSI和utf-8都会按照utf-8⽂件来读取，但是对于clang，string中的⾮utf-8字符会报错。⽽其他编码，gcc和calng都不⽀持，不过，gcc会报出⼀系列很难看懂的错误，但是clang会贴⼼地告诉你：

fatal error: UTF-16 (LE) byte order mark detected in 'test.cpp', but encoding is not supported

1 error generated.

总结如下

<默认编码是ANSI，它会将其他⽂件先转化成ANSI编码，再编译。但是对于⽆BOM的utf-8⽂件，会当成ANSI从⽽可能出错。

gcc和clang都默认utf-8，clang拒绝ANSI的string（不过注释可以），gcc会把ANSI也当成utf-8，其他编码源⽂件都不⽀持。

688IT编程网

Windows下c++字符编码(二)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

Windows下c++字符编码(二)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式