URL 超链接地址乱码以及编码浅析--688IT编程网

URL 超链接地址乱码以及编码浅析(2009-03-26 20:33:19)

标签： url超链接地址乱码编码上网无线网络acer笔记本阿娇杂谈

URL编码浅析(ie7, firefox, java)(2007-11-29 10:02:43)

先来看看三个url：

url1. hi.baidu/爱宝的妍

url2. hi.baidu/%E7%88%B1%E5%AE%9D%E7%9A%84%E5%A6%8D (UTF-8 编码)在线url网址编码解码

url3. hi.baidu/%B0%AE%B1%A6%B5%C4%E5%FB (GBK 编码)

这三个url指向同一个网页，而且都能够访问。其实，如果你的浏览器是中文环境下的，IE设置“以UTF8发送URL”，那么在IE里输入 url1，服务器端得到的是url2；在firefox里输入url1，服务器端得到的是url3。这是为什么呢？听下文分解(分析部分内容转自blog.csdn/yzhz/archive/2007/07/03/1676796.aspx)。

一、问题：

编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的文章介绍，但其中很多文章并没有对URL中使用了中文等非ASCII的字符造成服务器后台程序解析出现乱码的问题作出准确的解释和说明。本文将详细介绍由于在URL中使用了中文等非ASCII的字符造成乱码的问题。

1、在URL中中文字符通常出现在以下两个地方：

(1)、Query String中的参数值，比如search.china.alibaba/search/offer_search.htm?keywords=中国

(2)、servlet path，比如：search.china.alibaba/selloffer/中国.html

2、出现乱码问题的原因主要是以下几方面：

(1)、浏览器：我们的客户端（浏览器）本身并没有遵循URI编码的规范（/International/O-URL-code.html）。

(2)、Servlet服务器：Servlet服务器的没有正确配置。

(3)、开发人员并不了解Servlet的规范和API的含义。

二、基础知识：

1、一个http请求经过的几个环节：

浏览器(ie firefox)【get/post】------------>Servlet服务器------------------------------->浏览器显示

编码解码成unicode，然后将显示的内容编码解码

(1) 浏览器把URL(以及post提交的内容)经过编码后发送给服务器。

(2) 这里的Servlet服务器实际上指的是由Servlet服务器提供的servlet实现ServletRequestWrapper，不同应用服务器的 servlet实现不同，这些servlet的实现把这些内容解码转换为unicode，处理完毕后，然后再把结果(即网页)编码返回给浏览器。

(3) 浏览器按照指定的编码显示该网页。

当对字符串进行编码和解码的时候都涉及到字符集，通常使用的字符集为ISO8859-1、GBK、UTF-8、UNICODE。

2、URL的组成:

域名：端口/contextPath/servletPath/pathInfo?queryString

说明：

1、ContextPath是在Servlet服务器的配置文件中指定的。

对于weblogic：

contextPath是在应用的l中配置。

<context-root>/</context-root>

对于tomcat：

contextPath是在l中配置。

对于jboos：

contextPath是在应用的l中配置。

<jboss-web>

<context-root>/</context-root>

</jboss-web>

2、ServletPath是在应用的l中配置。

<servlet-mapping>

<servlet-name>Example</servlet-name>

<url-pattern>/example/*</url-pattern>

</servlet-mapping>

2、Servlet API

我们使用以下servlet API获得URL的值及参数。

requestURI = RequestURI(); // 内容为：contextPath/servletPath/pathinfo 浏览器提交过来的原始数据，未被Servlet服务器URL Decode过。

3、开发人员必须清楚的servlet规范：

(1) HttpServletRequest.setCharacterEncoding()方法仅仅只适用于设置post提交的request body的编码而不是设置get方法提交的queryString的编码。该方法告诉应用服务器应该采用什么编码解析post传过来的内容。很多文章并没有说明这一点。

(2) PathInfo()返回的结果是由Servlet服务器解码(decode)过的。

(3) RequestURI()返回的字符串没有被Servlet服务器decoded过。

(4) POST提交的数据是作为request body的一部分。

(5) 网页的Http头中ContentType("text/html; charset=GBK")的作用：

(a) 告诉浏览器网页中数据是什么编码；

(b) 表单提交时，通常浏览器会根据ContentType指定的charset对表单中的数据编码，然后发送给服务器的。

这里需要注意的是：这里所说的ContentType是指http头的ContentType，而不是在网页中meta中的ContentType。

三、下面我们分别从浏览器和应用服务器来举例说明：

URL：localhost:8080/example/中国?name=中国

汉字编码二进制表示

中国 UTF-8 0xe4 0xb8 0xad 0xe5 0x9b 0xbd[-28, -72, -83, -27, -101, -67]

中国 GBK 0xd6 0xd0 0xb9 0xfa[-42, -48, -71, -6]

中国 ISO8859-1 0x3f,0x3f[63, 63]信息失去

(一)、浏览器

1、GET方式提交，浏览器会对URL进行URL encode，然后发送给服务器。

(1) 对于中文IE，如果在高级选项中选中总以UTF-8发送(默认方式)，则PathInfo是URL Encode是按照UTF-8编码,QueryString是按照GBK编码。

localhost:8080/example/中国?name=中国

实际上提交是：

GET /example/%E4%B8%AD%E5%9B%BD?name=%D6%D0%B9%FA

(1) 对于中文IE，如果在高级选项中取消总以UTF-8发送，则PathInfo和QueryString是URL encode按照GBK编码。

实际上提交是：

GET /example/%D6%D0%B9%FA?name=%D6%D0%B9%FA

(3) 对于中文firefox，则pathInfo和qu

eryString都是URL encode按照GBK编码。

实际上提交是：

GET /example/%D6%D0%B9%FA?name=%D6%D0%B9%FA

很显然，不同的浏览器以及同一浏览器的不同设置，会影响最终URL中PathInfo的编码。对于中文的IE和FIREFOX都是采用GBK编码QueryString。

小结：解决方案：

1、URL中如果含有中文等非ASCII字符，则浏览器会对它们进行URLEncode。为了避免浏览器采用了我们不希望的编码，所以最好不要在URL中直接使用非ASCII字符，而采用URL Encode编码过的字符串%.

比如：

URL：localhost:8080/example/中国?name=中国

建议：

URL：localhost:8080/example/%D6%D0%B9%FA?name=%D6%D0%B9%FA

2、我们建议URL中PathInfo和QueryString采用相同的编码，这样对服务器端处理的时候会更加简单。

2、还有一个问题，我发现很多程序员并不明白URL Encode是需要指定字符集的。不明白的人可以看看这篇文档：gceclub.sun/Java_Docs/html/zh_CN/api/java/net/URLEncoder.html

2、 POST提交

对于POST方式，表单中的参数值对是通过request body发送给服务器，此时浏览器会根据网页的ContentType("text/html; charset=GBK")中指定的编码进行对表单中的数据进行编码，然后发给服务器。

在服务器端的程序中我们可以通过Request.setCharacterEncoding() 设置编码，然后通过Parameter获得正确的数据。

解决方案：

1、从最简单，所需代价最小来看，我们对URL以及网页中的编码使用统一的编码对我们来说是比较合适的。

如果不使用统一编码的话，我们就需要在程序中做一些编码转换的事情。这也是我们为什么看到有网络上大量的资料介绍如何对乱码进行处理，其中很多解决方案都只是一时的权宜之计，没有从根本上解决问题。

(二)、Servlet服务器

Servlet服务器实现的Servlet遇到URL和POST提交的数据中含有%的字符串，它会按照指定的字符集解码。下面两个Servlet方法返回的结果都是经过解码的：

这里所说的"指定的字符集"是在应用服务器的配置文件中配置。

(1) tomcat服务器

对于tomcat服务器，该文件是l

<Connector port="8080" protocol="HTTP/1.1"

maxThreads="150" connectionTimeout="20000"

redirectPort="8443" URIEncoding="GBK"/>

URIEncoding告诉服务器servlet解码URL时采用的编码。

useBodyEncodingForURI告诉服务器解码URL时候需要采用request body指定的编码。

(2) weblogic服务器

对于weblogic服务器，该文件是l

<input-charset>

<java-charset-name>GBK</java-charset-name>

</input-charset>

(三)浏览器显示

浏览器根据http头中的ContentType("text/html; charset=GB

K")，指定的字符集来解码服务器发送过来的字节流。我们可以调用 HttpServletResponse.setContentType()设置http头的ContentType。

总结：

1、URL中的PathInfo和QueryString字符串的编码和解码是由浏览器和应用服务器的配置决定的，我们的程序不能设置，不要期望用request.setCharacterEncoding()方法能设置URL中参数值解码时的字符集。

所以我们建议URL中不要使用中文等非ASCII字符，如果含有非ASCII字符的话要使用URLEncode编码一下，比如：

localhost:8080/example1/example/中国

正确的写法：

localhost:8080/example1/example/%E4%B8%AD%E5%9B%BD

并且我们建议URL中不要在PathInfo和QueryString同时使用非ASCII字符，比如

localhost:8080/example1/example/中国?name=中国

原因很简单：不同浏览器对URL中PathInfo和QueryString编码时采用的字符集不同，但应用服务器对URL通常会采用相同的字符集来解码。

2、我们建议URL中的URL Encode编码的字符集和网页的contentType的字符集采用相同的字符集，这样程序的实现就很简单，不用做复杂的编码转换。

到这里大家该明白url编码的原理了吧。再回过头来看看本文一开始给出的三个url。hi.baidu/爱宝的妍属于PathInfo，所以根据IE以及Firefox默认设置，ie用utf8 encode了该url，而firefox用gbk encode的，随之服务器端得到了url2和url3不同的url。

688IT编程网

URL 超链接地址乱码以及编码浅析

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

688IT编程网

URL 超链接地址 乱码 以及 编码 浅析

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林 的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

URL 超链接地址乱码以及编码浅析

随机森林的算法