3.5 Web服务
3.5.1 WWW简介
万维网,英文全称是World Wide Web,通常简写为WWW,有时也简称Web。万维网是Internet提供的一种信息服务。
WWW 中的信息资源主要由一篇篇的Web文档,或称Web页为基本元素构成。这些Web 页采用超级文本(Hyper Text)的格式,即可以含有指向其他Web页或其本身内部特定位置的超级链接,或简称链接。可以将链接理解为指向其它Web 页的“指针”。链接使得Web页交织为网状。这样,如果Internet上的Web页和链接非常多的话,就构成了一个巨大的信息网。
web服务器主要提供什么服务当用户从WWW服务器取到一个文件后,用户需要在自己的屏幕上将它正确无误地显示出来。由于将文件放入WWW服务器的人并不知道将来阅读这个文件的人到底会使用哪一种类型的计算机或终端,要保证每个人在屏幕上都能读到正确显示的文件,必须以某种各类型的计算机或终端都能“看懂”的方式来描述文件,于是就产生了HTML超文本语言。
HTML(Hype Text Markup Language)的正式名称是超文本标记语言。HTML对Web 页的内容、格式及Web页中的超级链接进行描述,而Web浏览器的作用就在于读取Web 网页上的HTML文档,再根据此类文档中的描述组织并显示相应的Web页面。
HTML文档本身是文本格式的,用任何一种文本编辑器都可以对它进行编辑。HTML 语言有一套相当复杂的语法,专门提供给专业人员用来创建Web文档,一般用户并不需要掌握它。在DOS/WINDOWS 系统中HTML文档的后缀为“.htm”。
3.5.2 HTTP协议的特点
HTTP是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。它于1990年提出,经过几年的使用与发展,得到不断地完善和扩展。目前在WWW中使用的是HTTP/1.0的第六版,HTTP/1.1的规范化工作正在进行之中,而且HTTP-NG(Next Generation of HTTP)的建议已经提出。
HTTP协议的主要特点可概括如下:
1.支持客户/服务器模式。
2.简单快速
客户向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单,使得HTTP 服务器的程序规模小,因而通信速度很快。
3.灵活
HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记
4.无连接
无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求,并收到客户的应答后,即断开连接。采用这种方式可以节省传输时间。
5.无状态
HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大。另一方面,在服务器不需要先前信息时它的应答就较快。
3.5.3 HTTP协议的运作方式
HTTP协议是基于请求/响应范式的。一个客户机与服务器建立连接后,发送一个请求给服务器,请求方式的格式为,统一资源标识符、协议版本号,后边是MIME信息包括请求修饰符、客户机信息和可能的内容。服务器接到请求后,给予相应的响应信息,其格式为一个状态行包括信息的协议版本号、一个成功或错误的代码,后边是MIME信息包括服务器信息、实体信息和可能的内容。
许多HTTP通讯是由一个用户代理初始化的并且包括一个申请在源服务器上资源的请求。最简单的情况可能是在用户代理(UA)和源服务器(OR)之间通过一个单独的连接来完成(见图3-5-1)。
图3-5-1 HTTP运作方式
当一个或多个中介出现在请求/响应链中时,情况就变得复杂一些。中介由三种:代理(Proxy)、网关(Gateway)和通道(Tunnel)。一个代理根据URL的绝对格式来接受请求,重写全部或部分消息,通过URL的标识把已格式化过的请求发送到服务器。网关是一个接收代理,作为一些其它服务器的上层,并且如果必须的话,可以把请求翻译给下层的服务器协议。一个通道作为不改变消息的两个连接之间的中继点,当通讯需要通过一个中介(例如:防火墙等)或者是中介不能识别消息的内容时,通道经常被使用。
图3-5-2 HTTP请求/响应
上面的图3-5-2表明了在用户代理(UA)和源服务器(OR)之间有三个中介(A、B 和C)。一个通过整个链的请求或响应消息必须经过四个连接段。这个区别是重要的,因为一些HTTP通讯选择可能应用于最近的连接、没有通道的邻居,应用于链的终点或应用于链路的所有连接。尽管图3-5-2是线性的,每个参与者都可能从事多重的、并发的通讯。例如,B可能从许多客户机接收请求而不通过A,并且或者不通过C把请求送到A,在同时它还可能处理A的请求。
任何针对不作为通道的汇聚可能为处理请求启用一个内部缓存。缓存的效果是请求/响应链被缩短,条件是链路的参与者之一具有一个缓存的响应作用于那个请求。图3-5-3说明结果链,其条件是针对一个未被UA或A加缓存的请求,B有一个经过C来自OR 的一个前期响应的缓存拷贝。
图3-5-3 具有缓存的请求/响应链
在Internet上,HTTP通讯通常发生在TCP/IP连接之上。缺省端口是TCP80,但其它的端口也是可用的。但这并不预示着HTTP协议在Internet或其它网络的其它协议之上才能完成,HTTP只预示着一个可靠的传输。
3.5.4 HTTP协议的内部操作过程
基于HTTP协议的客户/服务器模式的信息交换过程可分建立连接、发送请求信息、发送响应信息、关闭连接等四个过程,如图3-5-4所示。
图3-5-4 基于HTTP协议的客户/服务器模式的信息交换
在WWW中,“客户”与“服务器”是一个相对的概念,只存在于一个特定的连接期间,即在某个连接中的客户在另一个连接中可能作为服务器。WWW服务器运行时,一直在TCP80端口(WWW的缺省端口)监听,等待连接的出现。
下面,讨论HTTP协议下客户/服务器模式中信息交换的实现。
1.建立连接
连接的建立是通过申请套接字(Socket)实现的。客户打开一个套接字并把它约束在一个端口上,如果成功,就相当于建立了一个虚拟文件。以后就可以在该虚拟文件上写数据并通过网络向外传送。
2.发送请求
打开一个连接后,客户机把请求消息送到服务器的停留端口上,完成提出请求动作。  HTTP/1.0请求消息的格式为:
请求消息=请求行(通用信息|请求头|实体头)CRLF[实体内容]
请求行=方法请求URL HTTP版本号CRLF
方法=GET|HEAD|POST|扩展方法
URL=协议名称+宿主名+目录与文件名
请求行中的方法描述指定资源中应该执行的动作,常用的方法有GET、HEAD和POST。不同的请求对象对应GET的结果是不同的,对应关系如下:
对象GET的结果
文件文件的内容
程序该程序的执行结果
数据库查询查询结果
HEAD——要求服务器查某对象的元信息,而不是对象本身。
POST——从客户机向服务器传送数据,在要求服务器和CGI做进一步处理时会用到POST方法。POST主要用于发送HTML文本中FORM的内容,让CGI程序处理。
一个请求的例子为:
GET networking.zju.edu/zju/index.htm HTTP/1.0
头信息又称为元信息,即信息的信息,利用元信息可以实现有条件的请求或应答。
请求头——告诉服务器怎样解释本次请求,主要包括用户可以接受的数据类型、压缩方法和语言等。
实体头——实体信息类型、长度、压缩方法、最后一次修改时间、数据有效期等。
实体——请求或应答对象本身。
3.发送响应
服务器在处理完客户的请求之后,要向客户机发送响应消息。
HTTP/1.0的响应消息格式如下:
响应消息=状态行(通用信息头|响应头|实体头)CRLF[实体内容]
状态行=HTTP版本号状态码原因叙述
状态码表示响应类型:
1××保留
2××表示请求成功地接收
3××为完成请求客户需进一步细化请求
4××客户错误
5××服务器错误
响应头的信息包括:服务程序名,通知客户请求的URL需要认证,请求的资源何时能使用。
4.关闭连接
客户和服务器双方都可以通过关闭套接字来结束TCP/IP对话。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。