用java开发代理服务器

人气：1301 2007-11-17

　　内容：
一、基础知识
二、设计规划
三、实例
四、结束语
参考资料
关于作者

俞良松 (javaman@163.net)
软件工程师，独立顾问和自由撰稿人
2001 年 10 月

代理服务器的应用非常广泛。比如，在企业网内部，它可以用来控制员工在工作时浏览的internet内容，阻止员工访问某些类型的内容或某些指定的网站。代理服务器实际上扮演着浏览器和web服务器之间的中间人的角色，能够对浏览器请求进行各种各样的处理，能够过滤广告和cookie，能够预先提取web页面，使得浏览器访问页面的速度更快，等等。
一、基础知识
不管以哪种方式应用代理服务器，其监控http传输的过程总是如下：

步骤一：内部的浏览器发送请求给代理服务器。请求的第一行包含了目标url。
步骤二：代理服务器读取该url，并把请求转发给合适的目标服务器。
步骤三：代理服务器接收来自internet目标机器的应答，把应答转发给合适的内部浏览器。

例如，假设有一个企业的雇员试图访问www.cn.ibm.com网站。如果没有代理服务器，雇员的浏览器打开的socket通向运行这个网站的web服务器，从web服务器返回的数据也直接传递给雇员的浏览器。如果浏览器被配置成使用代理服务器，则请求首先到达代理服务器；随后，代理服务器从请求的第一行提取目标url，打开一个通向www.cn.ibm.com的socket。当www.cn.ibm.com返回应答时，代理服务器把应答转发给雇员的浏览器。

当然，代理服务器并非只适用于企业环境。作为一个开发者，拥有一个自己的代理服务器是一件很不错的事情。例如，我们可以用代理服务器来分析浏览器和web服务器的交互过程。测试和解决web应用中存在的问题时，这种功能是很有用的。我们甚至还可以同时使用多个代理服务器（大多数代理服务器允许多个服务器链接在一起使用）。例如，我们可以有一个企业的代理服务器，再加上一个用java编写的代理服务器，用来调试应用程序。但应该注意的是，代理服务器链上的每一个服务器都会对性能产生一定的影响。

二、设计规划
正如其名字所示，代理服务器只不过是一种特殊的服务器。和大多数服务器一样，如果要处理多个请求，代理服务器应该使用线程。下面是一个代理服务器的基本规划：

等待来自客户（web浏览器）的请求。
启动一个新的线程，以处理客户连接请求。
读取浏览器请求的第一行（该行内容包含了请求的目标url）。
分析请求的第一行内容，得到目标服务器的名字和端口。
打开一个通向目标服务器（或下一个代理服务器，如合适的话）的socket。
把请求的第一行发送到输出socket。
把请求的剩余部分发送到输出socket。
把目标web服务器返回的数据发送给发出请求的浏览器。

当然，如果考虑细节的话，情况会更复杂一些。实际上，这里主要有两个问题要考虑：第一，从socket按行读取数据最适合进一步处理，但这会产生性能瓶颈；第二，两个socket之间的连接必需高效。有几种方法可以实现这两个目标，但每一种方法都有各自的代价。例如，如果要在数据进入的时候进行过滤，这些数据最好按行读取；然而，大多数时候，当数据到达代理服务器时，立即把它转发出去更适合高效这一要求。另外，数据的发送和接收也可以使用多个独立的线程，但大量地创建和拆除线程也会带来性能问题。因此，对于每一个请求，我们将用一个线程处理数据的接收和发送，同时在数据到达代理服务器时，尽可能快速地把它转发出去。

三、实例
在用java编写这个代理服务器的过程中，注意可重用性是很重要的。因为这样的话，当我们想要在另一个工程中以不同的方式处理浏览器请求时，可以方便地重用该代理服务器。当然，我们必须注意灵活性和效率之间的平衡。

图一显示了本文代理服务器实例（httpproxy.java）的输出界面，当浏览器访问http://www-900.ibm.com/cn/时，代理服务器向默认日志设备（即标准输出设备屏幕）输出浏览器请求的url。图二显示了subhttpproxy的输出。subhttpproxy是httpproxy的一个简单扩展。

图一

图二

为了构造代理服务器，我从thread基类派生出了httpproxy类（文章正文中出现的代码是该类的一些片断，完整的代码请从本文最后下载）。httpproxy类包含了一些用来定制代理服务器行为的属性，参见listing 1和表一。

【listing 1】

/*************************************
* 一个基础的代理服务器类
*************************************
*/
import java.net.*;
import java.io.*;

public class httpproxy extends thread {
static public int connect_retries=5;
static public int connect_pause=5;
static public int time-out=50;
static public int bufsiz=1024;
static public boolean logging = false;
static public outputstream log=null;
// 传入数据用的socket
protected socket socket;
// 上级代理服务器，可选
static private string parent=null;
static private int parentport=-1;
static public void setparentproxy(string name, int pport) {
parent=name;
parentport=pport;
}

// 在给定socket上创建一个代理线程。
public httpproxy(socket s) { socket=s; start(); }

public void writelog(int c, boolean browser) throws ioexception {
log.write(c);
}

public void writelog(byte[] bytes,int offset,
int len, boolean browser) throws ioexception {
for (int i=0;i<len;i++) writelog((int)bytes[offset+i],browser);
}

// 默认情况下，日志信息输出到
// 标准输出设备，
// 派生类可以覆盖它
public string processhostname(string url, string host, int port, socket sock) {
java.text.dateformat cal=java.text.dateformat.getdatetimeinstance();
system.out.println(cal.format(new java.util.date()) + " - " +
url + " " + sock.getinetaddress()+"<br>");
return host;
}

表一
变量/方法说明
connect_retries 在放弃之前尝试连接远程主机的次数。
connect_pause 在两次连接尝试之间的暂停时间。
time-out 等待socket输入的等待时间。
bufsiz socket输入的缓冲大小。
logging 是否要求代理服务器在日志中记录所有已传输的数据（true表示“是”）。
log 一个outputstream对象，默认日志例程将向该outputstream对象输出日志信息。
setparentproxy 用来把一个代理服务器链接到另一个代理服务器（需要指定另一个服务器的名称和端口）。

当代理服务器连接到web服务器之后，我用一个简单的循环在两个socket之间传递数据。这里可能出现一个问题，即如果没有可操作的数据，调用read方法可能导致程序阻塞，从而挂起程序。为防止出现这个问题，我用setsotimeout方法设置了socket的超时时间（参见listing 2）。这样，如果某个socket不可用，另一个仍旧有机会进行处理，我不必创建一个新的线程。

【listing 2】
// 执行操作的线程
public void run() {
string line;
string host;
int port=80;
socket outbound=null;
try {
socket.setsotimeout(timeout);
inputstream is=socket.getinputstream();
outputstream os=null;
try {
// 获取请求行的内容
line="";
host="";
int state=0;
boolean space;
while (true) {
int c=is.read();
if (c==-1) break;
if (logging) writelog(c,true);
space=character.iswhitespace((char)c);
switch (state) {
case 0:
if (space) continue;
state=1;
case 1:
if (space) {
state=2;
continue;
}
line=line+(char)c;
break;
case 2:
if (space) continue; // 跳过多个空白字符
state=3;
case 3:
if (space) {
state=4;
// 只分析主机名称部分
string host0=host;
int n;
n=host.indexof("//");
if (n!=-1) host=host.substring(n+2);
n=host.indexof(´/´);
if (n!=-1) host=host.substring(0,n);
// 分析可能存在的端口号
n=host.indexof(":");
if (n!=-1) {
port=integer.parseint(host.substring(n+1));
host=host.substring(0,n);
}
host=processhostname(host0,host,port,socket);
if (parent!=null) {
host=parent;
port=parentport;
}
int retry=connect_retries;
while (retry--!=0) {
try {
outbound=new socket(host,port);
break;
} catch (exception e) { }
// 等待
thread.sleep(connect_pause);
}
if (outbound==null) break;
outbound.setsotimeout(timeout);
os=outbound.getoutputstream();
os.write(line.getbytes());
os.write(´ ´);
os.write(host0.getbytes());
os.write(´ ´);
pipe(is,outbound.getinputstream(),os,socket.getoutputstream());
break;
}
host=host+(char)c;
break;
}
}
}
catch (ioexception e) { }

} catch (exception e) { }
finally {
try { socket.close();} catch (exception e1) {}
try { outbound.close();} catch (exception e2) {}
}
}

和所有线程对象一样，httpproxy类的主要工作在run方法内完成（见listing 2）。run方法实现了一个简单的状态机，从web浏览器每次一个读取字符，持续这个过程直至有足够的信息找出目标web服务器。然后，run打开一个通向该web服务器的socket（如果有多个代理服务器被链接在一起，则run方法打开一个通向链里面下一个代理服务器的socket）。打开socket之后，run先把部分的请求写入socket，然后调用pipe方法。pipe方法直接在两个socket之间以最快的速度执行读写操作。

如果数据规模很大，另外创建一个线程可能具有更高的效率；然而，当数据规模较小时，创建新线程所需要的开销会抵消它带来的好处。

listing 3显示了一个很简单的main方法，可以用来测试httpproxy类。大部分的工作由一个静态的startproxy方法完成（见listing 4）。这个方法用到了一种特殊的技术，允许一个静态成员创建httpproxy类（或httpproxy类的子类）的实例。它的基本思想是：把一个class对象传递给startproxy类；然后，startproxy方法利用映像api（reflection api）和getdeclaredconstructor方法确定该class对象的哪一个构造函数接受一个socket参数；最后，startproxy方法调用newinstance方法创建该class对象。

【listing 3】
// 测试用的简单main方法
static public void main(string args[]) {
system.out.println("在端口808启动代理服务器");
httpproxy.log=system.out;
httpproxy.logging=false;
httpproxy.startproxy(808,httpproxy.class);
}
}

【listing 4】
static public void startproxy(int port,class clobj) {
serversocket ssock;
socket sock;
try {
ssock=new serversocket(port);
while (true) {
class [] sarg = new class[1];
object [] arg= new object[1];
sarg[0]=socket.class;
try {
java.lang.reflect.constructor cons = clobj.getdeclaredconstructor(sarg);
arg[0]=ssock.accept();
cons.newinstance(arg); // 创建httpproxy或其派生类的实例
} catch (exception e) {
socket esock = (socket)arg[0];
try { esock.close(); } catch (exception ec) {}
}
}
} catch (ioexception e) {
}
}

利用这种技术，我们可以在不创建startproxy方法定制版本的情况下，扩展httpproxy类。要得到给定类的class对象，只需在正常的名字后面加上.class（如果有某个对象的一个实例，则代之以调用getclass方法）。由于我们把class对象传递给了startproxy方法，所以创建httpproxy的派生类时，就不必再特意去修改startproxy。（下载代码中包含了一个派生得到的简单代理服务器）。

结束语
利用派生类定制或调整代理服务器的行为有两种途径：修改主机的名字，或者捕获所有通过代理服务器的数据。processhostname方法允许代理服务器分析和修改主机名字。如果启用了日志记录，代理服务器为每一个通过服务器的字符调用writelog方法。如何处理这些信息完全由我们自己决定??可以把它写入日志文件，可以把它输出到控制台，或进行任何其他满足我们要求的处理。writelog输出中的一个boolean标记指示出数据是来自浏览器还是web主机。

和许多工具一样，代理服务器本身并不存在好或者坏的问题，关键在于如何使用它们。代理服务器可能被用于侵犯隐私，但也可以阻隔偷窥者和保护网络。即使代理服务器和浏览器不在同一台机器上，我也乐意把代理服务器看成是一种扩展浏览器功能的途径。例如，在把数据发送给浏览器之前，可以用代理服务器压缩数据；未来的代理服务器甚至还可能把页面从一种语言翻译成另一种语言……可能性永无止境。

请从这里下载本文代码：javaproxyserver_code.zip

关于作者
俞良松，软件工程师，独立顾问和自由撰稿人。最初从事pb和oracle开发，现主要兴趣在于internet开发。您可以通过 javaman@163.net 和我联系。

--摘自ibm网站
http://www-900.ibm.com/developerworks/cn/java/l-javaproxy/index.shtml

技术文档欢迎使用技术文档，我们为你提供从新手到专业开发者的所有资源，你也可以通过它日益精进

用java开发代理服务器

https访问

7*24小时服务

专业一线支持

7天无理由退款

关于我们

产品与服务

常见问题

技术支持

欢迎登录福佳jsp空间

技术文档 欢迎使用技术文档，我们为你提供从新手到专业开发者的所有资源，你也可以通过它日益精进

用java开发代理服务器

https访问

7*24小时服务

专业一线支持

7天无理由退款

关于我们

产品与服务

常见问题

技术支持

技术文档欢迎使用技术文档，我们为你提供从新手到专业开发者的所有资源，你也可以通过它日益精进