技术文档>>JAVA>>新手入门>>基础入门>查看文档  
  java繁体中文处理完全攻略(二)     
  文章作者:未知  文章来源:水木森林  
  查看:351次  录入:管理员--2007-11-17  
 
  i/o 转码
  java 现行的 io 一律使用 stream 的方式,相关的类别都放在 java.io 中。输出 binary 的资料使用 outputstream 的子类别,输入 binary 的资料使用 inputstream 的子类别,输出文字的资料使用 writer 的子类别,输入文字的资料使用 reader 的子类别。
  
  你可能会觉得很奇怪:「有必要用不同的方式来处理文字和 binary 吗?文字资料不也是 binary 的一种?」没错,其实他们非常类似,最大的差异在于,inputstream/outputstream 会原封不动地传送资料,但是 reader/writer 会将资料当作文字对待,所以 reader/writer 在「必要时」会把(文字)资料转码。什么时候才是所谓的「必要时」呢?
  
  java 的 stream(包括 reader 和 writer)是可以互相串接的。当 reader 的资料来源是另一个 reader 时,不转码,当 reader 的资料来源是一个 inputstream 时,就会转码。当 writer 的资料去处是另一个 writer 时,不转码,当 writer 的资料去处是一个 outputstream 时,就会转码。
  
  由什么码转成什么码?这是可以指定的。因为转码只发生在 reader/inputstream 的交界处与 writer/outputstream 的交界处,所以正是由 inputstreamreader 和 outputstreamwriter 此二类别负责,下面两个 constructor 的第二个参数,正是用来指定转码的方式。
  
  public inputstreamreader(inputstream in, string enc)
  throws unsupportedencodingexception;
  public outputstreamwriter(outputstream out, string enc)
  throws unsupportedencodingexception;
  
  inputstreamreader 负责将 enc 的编码方式转成 unicode(因为资料是从「外部」送过来给「内部」的),outputstreamwriter 负责将 unicode 的编码方式转成 enc(因为资料要从「内部」送给「外部」)。jre 内部当然都一定是用 unicode 编码,而外部的编码就不一定,要看当时的环境为何。你可以透过 getencoding() 的 method,来得知 inputstreamreader 与 outputstreamwriter 的编码方式。
  
  请注意:即使你没用到 inputstreamreader 与 outputstreamwriter,只有用到其它的 reader 和 writer,但是这些 reader 和 writer 内部也很有可能(但非绝对)是直接或间接通到 inputstreamreader 与 outputstreamwriter。比方说:filereader 内部其实是透过一个 inputstreamreader 的中介来将资料从 fileinputstream 取过来的,此时 inputstreamreader 的转码方式是采用 os 的文字编码(以繁体中文的 windows 为例,就是「ms950」)转成 unicode。
  
  如果你清楚地知道你要读写的档案(或资料来源 / 去处)是采用某种编码方式,你也可以主动指定编码方式。但是,请记得抓取可能导致的 unsupportedencodingexception,并务必处理之,不可对此例外置之不理,因为该 jre 有可能没有附上此种编码表(也有可能你的编码名称给错)。
  
  档案 i/o 转码
  如果你是在泰文版的 windows 上,想读取用 ms950 编码的繁体中文文字文件,你就必须主动指定编码,不可以直接用 filereader,否则无法成功读取。方法如下:
  
  fileinputstream fis = new fileinputstream(filename);
  inputstreamreader reader = new inputstreamreader(fis, "ms950");
  
  然后,透过 reader 读出来的就会是正确的中文。
  
  网络 i/o 转码
  如果你的网络程序采用 tcp,那么你可以透过 socket 类别所提供的 getinputstream() 和 getoutputstream() 来得到 inputstream 和 outputstream 对象。如果你是在泰文版的 windows 上,想读取用 ms950 编码的繁体中文文字 tcp 网络串流,你可以用类似上面的技巧来转码。方法如下:
  
  inputstream is = mysocket.getinputstream();
  inputstreamreader reader = new inputstreamreader(is, "ms950");
  
  如果你的网络程序采用 udp,你必须把中文字符串转成(或转自)byte 数组。请看下一节「 字符串和 byte 数组的转码 」。
  
  如果你的网络程序采用 rmi,那你完全不用为这部分的转码操心,字符串直接用 unicode 在网络上传递给另一个 jre,不需要转码。
  
  保持刑案现场
  如果你不知道你的 i/o 资料来源或去处是用何种编码方式,那么你最好不要用 reader 和 writer,而应该直接用 inputstream 和 outputstream,因为与其被 reader 和 writer 胡乱编码之后造成信息遗失或错乱,不如保持资料的完整不变,留待以后进一步解读。
  
  字符串和 byte 数组的转码
  java.lang.string 类别是 java 字符串对象的类别,java 字符串对象既然是活在 jre 内部,当然就一定是用 unicode 编码。如果你需要将 string 对象和 byte 数组互转,你可以使用:
  
  string(byte[] bytes, int offset, int length, string enc);
  
  或
  
  string(byte[] bytes, string enc);
  
  来将用 enc 编码的 byte 数组,转成 unicode 的 string 对象。你也可以使用 string 对象所提供的:
  
  byte[] getbytes(string enc)
  
  来将 string 对象转成 byte 数组。
  
  另外,你也可以透过 bytearrayinputstream 或 bytearrayoutputstream 串接到 inputstreamreader 或 outputstreamwriter,来达到转码的目的。
 
 
上一篇: 使tostring()的创建自动化    下一篇: java的内存泄漏
  相关文档
ibm向eclipse捐献代码 推广软件结构化 11-17
java开源技术:eclipse的使用技巧详解 11-16
我看多态——多态的学习笔记 11-17
一个体现java接口及工厂模式优点的例子 11-17
使用java实现数据报通讯过程 11-16
编程需要注意陷阱:java继承是有害的 11-17
j2ee web服务客户端质量报告(一) 11-16
使用动态代理实现用aop对数据库进行操作 03-14
scriptenginebuildversion 函数 11-16
java - io包的学习引导文章(摘抄) 11-17
java ee 5.0能取代struts,spring和hibernate吗 11-17
java加密解密---自定义类加载器应用 11-17
java 虚拟机结构基础研究之二 11-17
j2me移动 2d 图形开发快速入门 11-17
初始化接口中的字段 11-17
java入门教程:第六章 11-17
scjp braindumps 05/15/2002 11-17
用javamail写的解析mimemessage的程序 11-17
如何下手学java 11-17
java的经历 11-17
返回首页 | 关于我们 | J网章程 | JSP空间 | 免责声明 | 常见问题 | JSP空间操作手册

@2005-2012福建JSP技术网 版权所有 闽ICP备09012882号
技术电话:13616026886 谢宁松
邮箱:fjjsp @ vip.163.com 站长QQ,点击这里给我发消息