HTTP下载原理
对于HTTP协议,向服务器请求某个文件时,只要发送类似如下的请求即可:
GET /Path/FileName HTTP/1.0
Host: www.caiban:80
Accept: */*
User-Agent: GeneralDownloadApplication
Connection: close
每行用一个回车换行分隔,末尾再追加一个回车换行作为整个请求的结束。
第一行中的GETHTTP协议支持的方法之一,方法名是大小写敏感的,HTTP协议还支持OPTIONSHAEDPOSTPUTDELETETRACECONNECT等方法,而GETHEAD这两个方法通常被认为是安全的,也就是说任何实现了HTTP协议的服务器程序都会实现这
两个方法。对于文件下载功能,GET足矣。GET后面是一个空格,其后紧跟的是要下载的文件从WEB服务器根开始的绝对路径。该路径后又有一个空格,然后是协议名称及协议版本。 除第一行以外,其余行都是HTTP头的字段部分。Host字段表示主机名和端口号,如果端口号是默认的80则可以不写。Accept字段中的*/*表示接收任何类型的数据。User-Agent表示用户代理,这个字段可有可无,但强烈建议加上,因为它是服务器统计、追踪以及识别客户端的依据。Connection字段中的close表示使用非持久连接。 关于HTTP协议更多的细节可以参考RFC2616HTTP 1.1)。因为我只是想通过HTTP协议实现文件下载,所以也只看了一部分,并没有看全。 如果服务器成功收到该请求,并且没有出现任何错误,则会返回类似下面的数据:
HTTP/1.0 200 OK
Content-Length: 13057672 Content-Type: application/octet-stream
Last-Modified: Wed, 10 Oct 2005 00:56:34 GMT
Accept-Ranges: bytes
ETag: "2f38a6cac7cec51:160c"
Server: Microsoft-IIS/6.0
X-Powered-By: ASP.NET
Date: Wed, 16 Nov 2005 01:57:54 GMT
Connection: close
不用逐一解释,很多东西一看几乎就明白了,只说我们大家都关心内容吧。
第一行是协议名称及版本号,空格后面会有一个三位数的数字,是HTTP协议的响应状态码,200表示成功,OK是对状态码的简短文字描述。状态码共有5类:connect下载1xx属于通知类;2xx属于成功类;3xx属于重定向类;4xx属于客户端错误类;5xx属于服务端错误类。对于状态码,相信大家对404应该很熟悉,如果向一个服务器请求一个不存在的文件,就会得到该错误,通常浏览器也会显示类似“HTTP 404 - 未到文件这样的错误。Content-Length字段是一个比较重要的字段,它标明了服务器返回数据的长度,这个长度是不包含HTTP头长度的。
换句话说,我们的请求中并没有Range字段(后面会说到),表示我们请求的是整个文件,所以Content-Length就是整个文件的大小。其余各字段是一些关于文件和服务器的属性信息。
这段返回数据同样是以最后一行的结束标志(回车换行)和一个额外的回车换行作为结束,即“\r\n\r\n”。而“\r\n\r\n”后面紧接的就是文件的内容了,这样我们就可以到“\r\n\r\n”,并从它后面的第一个字节开始,源源不断的读取,再写到文件中了。
以上就是通过HTTP协议实现文件下载的全过程。但还不能实现断点续传,而实际上断点续传的实现非常简单,只要在请求中加一个Range字段就可以了。 假如一个文件有1000个字节,那么其范围就是0-999,则: Range: bytes=500-      表示读取该文件的500-999字节,共500字节。 Range: bytes=500-599  表示读取该文件的500-599字节,共100字节。 Range还有其它几种写法,但上面这两种是最常用的,对于断点续传也足矣了。如果HTTP请求中包含Range字段,那么服务器会返回206Partial Content),同时HTTP头中也会有一个相应的Content-Range字段,类似下面的格式:
Content-Range: bytes 500-999/1000
Content-Range字段说明服务器返回了文件的某个范围及文件的总长度。这时Content-Length字段就不是整个文件的大小了,而是对应文件这个范围的字节数,这一点一定要注意。
一切好像基本上没有什么问题了,本来我也是这么认为的,但事实并非如此。如果我们请求的文件的URL是类似www.这样的文件,则不会有问题。但是很多软件下载网站的文件下载链接都是通过程序重定向的,比如pchomeACDSeeHTTP下载地址是:
download.pchome/php/tdownload2.php?sid=5547&url=/multimedia/&svr=1&typ=0
这种地址并没有直接标识文件的位置,而是通过程序进行了重定向。如果向服务器请求这样的URL,服务器就会返回302Moved Temporarily),意思就是需要重定向,同时在HTTP头中会包含一个Location字段,Location字段的值就是重定向后的目的URL。这时就需要断开当前的连接,而向这个重定向后的服务器发请求。
#include <winsock2.h> 
#include <fstream>
#pragma   comment(lib,  "ws2_32.lib ")   
using  namespace  std
#define BUFFSIZE 2048
void main()
{
    //初始化Socket函数库
    WSADATA    wsaData;
    if(WSAStartup(MAKEWORD(2,0), &wsaData) || LOBYTE(wsaData.wVersion) != 2)
        return;
    struct protoent *ppe;
    ppe = getprotobyname("tcp");
    //创建SOCKEt对象
    SOCKET sock = socket(PF_INET, SOCK_STREAM, ppe->p_proto);
    if(sock == INVALID_SOCKET)
        return;
    //根据主机名获得IP地址
    hostent* pHostEnt = gethostbyname("www.baidu");
    if(pHostEnt == NULL)
        return;
    int nTime = 10000;
    setsockopt(sock, SOL_SOCKET, SO_SNDTIMEO, (char*)&nTime, sizeof(nTime));
    setsockopt(sock, SOL_SOCKET, SO_RCVTIMEO, (char*)&nTime, sizeof(nTime));
    //连接
    struct in_addr ip_addr;
    memcpy(&ip_addr, pHostEnt->h_addr_list[0], 4); //haddr_list[0]4个字节,每个字节8
    struct sockaddr_in destaddr;
    memset((void *)&destaddr, 0, sizeof(destaddr));
    destaddr.sin_family = AF_INET;
    destaddr.sin_port = htons(80);
    destaddr.sin_addr = ip_addr;
    if(0 != connect(sock,(struct sockaddr*)&destaddr, sizeof(destaddr)))
        return;
    //格式化请求,各字段含义参见HTTP协议RFC2616
    char request[] = "GET / HTTP/1.1\r\n"
                    "Host:www.baidu\r\n"
                    "Accept:*/*\r\n"
                    "User-Agent:Mozilla/4.0 (compatible; MSIE 5.00; Windows 98)\r\n"
                    "Connection:Close\r\n\r\n";
    //发送请求
    if(SOCKET_ERROR == send(sock, request, strlen(request), 0))
        return;
    //接收网页信息并存储
    int rcv_bytes = 0;
    char buf[BUFFSIZE] = {0,};
    ofstream ofs("", ios::binary | ios::out | ios::trunc);
   
    rcv_bytes = recv(sock, buf, BUFFSIZE, 0); //先接收服务器返回的报文至 "\r\n\r\n"
   
    while(1)
    {
        rcv_bytes = recv(sock, buf, BUFFSIZE, 0);
        if(rcv_bytes <= 0)
            break;
        ofs.write(buf, rcv_bytes);
    }
    ofs.close();
   
    closesocket(sock);
    WSACleanup();
}

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。