| |
http 协议的简介
http协议是一种超文本传输协议(hypertext transfer protocol),工作于网络应用层,自1990年起广泛应用于www 的全球信息服务,http协议的详细说明可以在网上查阅rfc2518、rfc2616等文档。
http 协议老的标准是http/1.0,目前最通用的标准是http/1.1。http/1.1是在http/1.0基础上的升级,增加了一些功能,全面兼容http/1.0。http/1.0不支持文件断点续传,如果服务器使用http/1.0,“网络蚂蚁”的任何多线程下载程序都只能按单线程下载;好在目前的web服务器绝大多数都采用了http/1.1,所以,下面将基于http/1.1进行介绍。
http协议的相关重要命令
基于http的浏览器浏览网页、下载文件时,工作原理类似客户机/服务器模式:浏览器向web服务器发出一个http请求行;web服务器在收到有效的请求后,返回一个状态行或多个响应标题、一个空白行和相关文档。根据这一工作原理,下载程序必须实现向服务器发送请求和获取服务器响应状态的功能。
1.向服务器发送 get请求命令
一个http请求由一个请求行、可选数目的请求标题、一个空白行,以及在post情况下的一些额外的数据组成。请求行的格式是:
请求方法 uri http/版本号
get 命令是浏览器常用的文档请求方法,在程序中间使用
get uri http/1.1
向web服务器发送请求行(行号3),java 代码如下:
.... clientsocket = new socket(host, port);//打开要下载文件服务器的socket outstream = new printstream(clientsocket.getoutputstream()); .... outstream.println(“get”+uri+“ http/1.1”); outstream.println(“host:”+host); outstream.println(“accept:*/* ”); outstream.println(“referer:”); outstream.println(); ....
注:第4行给出url中的主机名和端口号,第5行说明客户端接收所有mime类型,第7行方送一个空白行,表明请求行结束。
2.获取服务器响应状态
在发送http请求行以后,程序就可以读取服务器的响应状态了。http响应状态行包括:http 状态码和一些http响应标题。
1) http状态码
http状态码格式是 http/版本信息的数字表示。状态码例子如下:
http/1.0 200 ok // 表示服务器支持http/1.0 协议,成功
http/1.1 200 ok // 表示服务器支持http/1.1 协议,成功
http/1.0 404 not found // 表示服务器支持http/1.0 协议,访问文件没有找到
在程序中间,如果读到“http/1.1 200 ok”这样的字符串,表明欲下载文件存在、该服务器支持断点续传,可以使用多线程下载。如果读到“http/1.0 200 ok”这样的字符串,表明欲下载文件存在、但该服务器不支持断点续传,只可以使用单线程下载。
..... while ((line=instream.readline()) != null) //将服务器响应状态读到line ........ if(line.substring(0,7).equals(“http/1.”) ) //判断是否支持http/1.1 { if(line.charat(7)==‘0’) { system.out.println(“server use http/1.0”); threadcount=1; } if(!(line.substring(9,12)).equals(“200”)) //判断请求是否成功 { system.out.println(“error:”+line); return false; } }
2) 读取重要的响应标题,获得要下载文档的文件长度
如果http状态码表明访问成功,服务器会回送一些标题行,我们最关注的是content-length 这一行,比如,如果服务器回送“content-length:1000”,表明请求文件的长度是1000字节,所以读取这一行信息,可以得到文件的长度信息:
.... if(line.substring(0,15).equals(“content-length:”) ) { filelength=long.parselong(line.substring(15).trim()); system.out.println(“file length:” +filelength); } ......
向服务器发送断点续传请求
如上所述,如果服务器支持http/1.1,再次向服务器发送get请求:
..... outstream.println(“get ”+uri+“http/1.1 ”); outstream.println(“host:”+host); outstream.println(“accept:*/* ”); outstream.println(“range:bytes=”+(fileblocklength)*thisthreadid+“-”); outstream.println(); .....
第4行是关键,“range:bytes=”是http/1.1新增内容,http/1.0每次传送文件都是从文件头开始,即0字节处开始,“range:bytes=xxxx”表示要求服务器从文件xxxx字节处开始传送,这就是我们平时所说的断点续传!
分割文件,多线程下载
使用多线程编程技术,同时启动多个线程,根据线程个数,计算文件分割位置,向服务器发送几个不同的下载断点,同时接受数据并写入文件,就可以实现多线程下载了。
..... raf=new randomaccessfile(file,“rw”);//以随机存取方式打开文件 ..... synchronized(raf) //按同步方式把各个线程得到数据分别写入文件 { raf.seek(thisthreadid*(filelength/threadcount)+k*buflength); raf.write(readbytes); ...... } ......
|
|