服务热线:13616026886

技术文档 欢迎使用技术文档,我们为你提供从新手到专业开发者的所有资源,你也可以通过它日益精进

位置:首页 > 技术文档 > JAVA > 新手入门 > 基础入门 > 查看文档

java servlet/jsp多语言解决方案


  因为一直不信java竟会有不能混排显示多国语言的bug,这个周末研究了一下servlet、
  jsp的多国语言显示的问题,也就是servlet的多字符集问题,由于我对字符集的概念还
  不是很清晰所以写出的东西未必是准确的,我是这样理解java中的字符集的:在运行时
  ,每个字符串对象中存储的都是编码为unicode内码的(我觉得所有的语言中都是有相应
  编码的,因为在计算机内部字符串总是用内码来表示的,只不过一般计算机语言中的字
  符串编码时平台相关的,而java则采用了平台无关的unicode)。
    java从一个byte流中读取一个字符串时,将把平台相关的byte转变为平台无关的un
  icode字符串。在输出时java将把unicode字符串转变为平台相关的byte流,如果某个un
  icode字符在某个平台上不存在,将会输出一个'?'。举个例子:在中文windows中,jav
  a读出一个"gb2312"编码的文件(可以是任何流)到内存中构造字符串对象,将会把gb2
  312编码的文字转变为unicode编码的字符串,如果把这个字符串输出又将会把unicode字
  符串转化为gb2312的byte流或数组:"中文测试"----->"/u4e2d/u6587/u6d4b/u8bd5"--
  --->"中文测试"。
  如下例程:
  byte[] bytes = new byte[]{(byte)0xd6, (byte)0xd0, (byte)0xce, (byte)0xc4, (b
  yte)0xb2, (byte)0xe2, (byte)0xca, (byte)0xd4};//gbk编码的"中文测试"
  java.io.bytearrayinputstream bin = new java.io.bytearrayinputstream(bytes);
  java.io.bufferedreader reader = new java.io.bufferedreader(new java.io. inpu
  tstreamreader (bin,"gbk"));
  string msg = reader.readline();
  system.out.println(msg)
    这段程序放到包含"中文测试"这四个字的系统(如中文系统)中,可以正确地打印
  出这些字。msg字符串中包含了正确的"中文测试"的unicode编码:"/u4e2d/u6587/u6d4
  b/u8bd5",打印时转换为操作系统的默认字符集,是否可以正确显示依赖于操作系统
  字符集,只有在支持相应字符集的系统中,我们的信息才能正确的输出,否则得到的将
  会是垃圾。
    话入正题,我们来看看servlet/jsp中的多语言问题。我们的目标是,任一国家的客
  户端通过form向server发送信息,server把信息存入数据库中,客户端在检索时仍然能
  够看到自己发送的正确信息。事实上,我们要保证,最终server中的sql语句中保存的时
  包含客户端发送文字的正确unicode编码;dbc与数据库通讯时采用的编码方式能包含客
  户端发送的文字信息,事实上,最好让jdbc直接使用unicode/utf8与数据库通讯!这样
  就可以确保不会丢失信息;server向客户端发送的信息时也要采用不丢失信息的编码方
  式,也可以是unicode/utf8。
    如果不指定form的enctype属性,form将把输入的内容依照当前页面的编码字符集u
  rlencode之后再提交,服务器端得到是urlencoding的字符串。编码后得到的urlencodi
  ng字符串是与页面的编码相关的,如gb2312编码的页面提交"中文测试",得到的是"%d6
  %d0%ce%c4%b2%e2%ca%d4",每个"%"后跟的是16进制的字符串;而在utf8编码时得到的
  却是"%e4%b8%ad%e6%96%87%e6%b5%8b%e8%af%95",因为gb2312编码中一个汉字是16位的
  ,而utf8中一个汉字却是24位的。中日韩三国的ie4以上浏览器均支持utf8编码,这种方
  案肯定包涵了这三国语言,所以我们如果让html页面使用utf8编码那么将至少可以支持
  这三国语言。
    但是,如果我们html/jsp页面使用utf8编码,因为应用程序服务器可能不知道这种
  情况,因为如果浏览器发送的信息不包含charset信息,至多server知道读到accept-la
  nguage请求投标,我们知道仅靠这个投标是不能获知浏览器所采用编码的,所以应用程
  序服务器不能正确解析提交的内容,为什么?因为java中的所有字符串都是unicode16位
  编码的,httpservletrequest.request(string)的功能就是把客户端提交的urlencode编
  码的信息转为unicode字符串,有些server只能认为客户端的编码和server平台相同,简
  单地使用urldecoder.decode(string)方法直接解码,如果客户端编码恰好和server相同
  ,那么就可以得到正确地字符串,否则,如果提交地字符串中包含了当地字符,那么将
  会导致垃圾信息。
    在我提出的这个解决方案里,已经指定了采用utf8编码,所以,可以避免这个问题
  ,我们可以自己定制出decode方法:
  public static string decode(string s,string encoding) throws exception {
  stringbuffer sb = new stringbuffer();
  for(int i=0; i  char c = s.charat(i);
  switch (c) {
  case '+':
  sb.append(' ');
  break;
  case '%':
  try {
  sb.append((char)integer.parseint(
  s.substring(i+1,i+3),16));
  }
  catch (numberformatexception e) {
  throw new illegalargumentexception();
  }
  i += 2;
  break;
  default:
  sb.append(c);
  break;
  }
  }
  // undo conversion to external encoding
  string result = sb.tostring();
  byte[] inputbytes = result.getbytes("8859_1");
  return new string(inputbytes,encoding);
  }
    这个方法可以指定encoding,如果把它指定为utf8就满足了我们的需要。比如用它
  解析:"%e4%b8%ad%e6%96%87%e6%b5%8b%e8%af%95"就可以得到正确的汉字"中文测试"的
  unicode字符串。
  现在的问题就是我们必须得到客户端提交的urlencode的字符串。对于method为get的fo
  rm提交的信息,可以用httpservletrequest.getquerystring()方法读到,而对于post方
  法的form提交的信息,只能从servletinputstream中读到,事实上标准的getparameter
  方法被第一次调用后,form提交的信息就被读取出来了,而servletinputstream是不能
  重复读出的。所以我们应在第一次使用getparameter方法前读取并解析form提交的信息
  。
    我是这么做的,建立一个servlet基类,覆盖service方法,在调用父类的service方
  法前读取并解析form提交的内容,请看下面的源代码:
  package com.hto.servlet;
  import javax.servlet.http.httpservletrequest;
  import java.util.*;
  /**
  * insert the type's description here.
  * creation date: (2001-2-4 15:43:46)
  * @author: 钱卫春
  */
  public class utf8parameterreader {
  hashtable pairs = new hashtable();
  /**
  * utf8parameterreader constructor comment.
  */
  public utf8parameterreader(httpservletrequest request) throws java.io.ioexce
  ption{
  super();
  parse(request.getquerystring());
  parse(request.getreader().readline());
  }
  /**
  * utf8parameterreader constructor comment.
  */
  public utf8parameterreader(httpservletrequest request,string encoding) throw
  s java.io.ioexception{
  super();
  parse(request.getquerystring(),encoding);
  parse(request.getreader().readline(),encoding);
  }
  public static string decode(string s) throws exception {
  stringbuffer sb = new stringbuffer();
  for(int i=0; i  char c = s.charat(i);
  switch (c) {
  case '+':
  sb.append(' ');
  break;
  case '%':
  try {
  sb.append((char)integer.parseint(
  s.substring(i+1,i+3),16));
  }
  catch (numberformatexception e) {
  throw new illegalargumentexception();
  }
  i += 2;
  break;
  default:
  sb.append(c);
  break;
  }
  }
  // undo conversion to external encoding
  string result = sb.tostring();
  byte[] inputbytes = result.getbytes("8859_1");
  return new string(inputbytes,"utf8");
  }
  public static string decode(string s,string encoding) throws exception {
  stringbuffer sb = new stringbuffer();
  for(int i=0; i  char c = s.charat(i);
  switch (c) {
  case '+':
  sb.append(' ');
  break;
  case '%':
  try {
  sb.append((char)integer.parseint(
  s.substring(i+1,i+3),16));
  }
  catch (numberformatexception e) {
  throw new illegalargumentexception();
  }
  i += 2;
  break;
  default:
  sb.append(c);
  break;
  }
  }
  // undo conversion to external encoding
  string result = sb.tostring();
  byte[] inputbytes = result.getbytes("8859_1");
  return new string(inputbytes,encoding);
  }
  /**
  * insert the method's description here.
  * creation date: (2001-2-4 17:30:59)
  * @return java.lang.string
  * @param name java.lang.string
  */
  public string getparameter(string

扫描关注微信公众号