服务热线:13616026886

技术文档 欢迎使用技术文档,我们为你提供从新手到专业开发者的所有资源,你也可以通过它日益精进

位置:首页 > 技术文档 > JAVA > 新手入门 > 基础入门 > 查看文档

java 开发中遇到的乱码问题

java 开发中遇到的乱码问题

若想明白jsp开发过程中为什么会产生中文乱码,我们先来看看unicode编码。
unicode (统一码)顾名思义是一个将世界上各种文字统一在一起的东东。由美国各大电脑厂商组成的unicode策进会来推动。目的,推广一个世界通用的编码体制,惊世界上所有常用的文字都涵盖进去,从而减少个电脑商开发国外市场遇到的问题。
为了将成千上万的文字统统收集到一个共同的编码机制下,在兼顾经济的原则下,不管是东方还是西方文字,每个字在unicode中一律以两个bytes来表示,这样至少有2的16次方65536种不同的组合,足以应付目前绝大多数场合的需要。
基本上,计算机只是处理数字。它们指定一个数字,来储存字母或其他字符。在创造unicode之前,有数百种指定这些数字的编码系统。没有一个编码可以包含足够的字符:例如,单单欧州共同体就需要好几种不同的编码来包括所有的语言。即使是单一种语言,例如英语,也没有哪一个编码可以适用于所有的字母,标点符号,和常用的技术符号。
这些编码系统也会互相冲突。也就是说,两种编码可能使用相同的数字代表两个不同的字符,或使用不同的数字代表相同的字符。任何一台特定的计算机(特别是服务器)都需要支持许多不同的编码,但是,不论什么时候数据通过不同的编码或平台之间,那些数据总会有损坏的危险。
unicode给每个字符提供了一个唯一的数字,不论是什么平台,不论是什么程序,不论什么语言。unicode标准已经被这些工业界的领导们所采用,例如:apple, hp, ibm, justsystem, microsoft, oracle, sap, sun, sybase, unisys和其它许多公司。最新的标准都需要unicode,例如xml, java, ecmascript (javascript), ldap, corba 3.0, wml等等,并且,unicode是实现iso/iec 10646的正规方式。许多操作系统,所有最新的浏览器和许多其他产品都支持它。unicode标准的出现和支持它工具的存在,是近来全球软件技术最重要的发展趋势。
将unicode与客户服务器或多层应用程序和网站结合,比使用传统字符集节省费用。unicode使单一软件产品或单一网站能够贯穿多个平台,语言和国家,而不需要重建。它可将数据传输到许多不同的系统,而无损坏。
在与unicode相关的各技术文件中,经常会看到iso 10646和ucs这两个名词。
iso是位于瑞士的国际标准局的缩写。
ucs为iso颁布的第10646号标准 universal character set,就是世界通用字符集。
ucs通用字符集采用4个bytes来编码,将世界上所有的官用和商用编码大小通吃,一网打尽。unicode自1991年便和iso的ucs小组密切配合,让unicode和iso 10646保持一致。因此unicode 自2.0版开始,便和 iso 10646-1使用相同的编码。
康熙字典中的汉字有4万7千,如果再加上里面没有的简体字,和不同写法的日文字,那么 unicode6万多的分配空间,光用来分配汉字就显得捉禁见昼,更别说什么泰文,阿拉伯等其他文字了。针对这个问题unicode和ucs采用了[中日韩文整合](cjk unification)的解决方案,把中日韩笔画详尽的汉字用同一个单码表示。
经过[中日韩文整合]的unicode称为统汉字unihan。
完整的unicode4.0版可由
http://www.unicode.org/public/unidata/unihan.txt 下载。

utf (unicode/ucs transformation format),unicode推荐使用utf-8和utf-16两种格式其中8和16指的是bits数而不是bytes数。
utf-16基本就是unicode双字节的实现,加上一个应付未来需要的扩充编码机制(很少用)
utf-8 是一种不等幅的编码方式,英数字(ascii字码)保持原状,完全不受影响(因此不需要做转换),而其他汉字资料须透过程序来转换,会[变胖],因为每个字需要额外一个或两个bytes来编码。
ucs字符集中,有ucs-2和ucs-4等编码方式其中的2和4指的是bytes数,对应utf-8和utf-16.
ucs-2基本和unicode双byte 编码差不多
ucs-4四 byte编码表示一个字,在每个 ucs-2前面加上两个空白的byte,便可得到对应的 ucs-4。

unicode的空间分配:
以下unicode区位码均以16进制表示
unicode的前256个字符和iso-8859-1(西欧字母)完全相同,其中前半段就是ascii(u+0000到u+00ff)。每个iso-8859-1码前面补上一个空byte(0x00)后才是相应的unicode码。
和我们切身相关的unihan主要分布在u+3400到u+f9fff之间,gb2312和big5主要分布在u+4e00到u+9fff之间。

utf-8的编码原理和特性:
知道了西欧字符和汉字在unicode中的位置后,来看看utf-8

u+0000~u+007e 1 _ _ _ _ _ _ _ (7bits)
u+0080~u+07ff 1 1 0_ _ _ _ _ 1 0_ _ _ _ _ _ (11bits)
u+0800~u+ffff 1 1 1 0 _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ (16bits)
看一看unicode三种格式提出自由的bits(下划线空位)是否足以用来代表区位中各unicode码,刚好够用。
那么当程序处理utf-8编码文件时,如何得知一个字符的疆界落在哪里?还有到底他是以三种形式那一中出现呢?
每个以utf-8编码的字符,不管是以一、二、三个bytes出现,第一个byte前端都清楚地标示了该字符的byte总数。如110种有两个1,代表这种字符是以第二种方式出现,由两个bytes组成。而1110有三个1,表示这种字符一点种方式出现,由三个字节组成。
每个多重byte的utf-8编码有一个共同的通性,即其中的第二个第三个byte, 一律以10两个bits开头。由于其中的最高位总设成1,可以很容易和那些在utf-8中只用一个byte的ascii字元区分开来,方便侦错。
因为上述设计特点,utf-8和unicode之间,可以很容易做双向自由转换,而不会丢失任何资料。

解决办法:乱码问题在 nt操作系统我没怎么碰到过,但是在unix 或linux系统上出现的比较多
由于操作系统和使用环境不一样,产生乱码的方式也不一样,但是如果掌握了上面的unicode 编码原理,自己仔细分析一下,很多问题便可迎刃而解。
下面看看几个常见的例子。
1. 如果一些网站服务器例如tomcat 如果遇到中文乱码问题,可以修改conf目录下的server.xml
<connector port="8080" maxthreads="150" minsparethreads="25" maxsparethreads="75"
enablelookups="false" redirectport="8443" acceptcount="100" debug="0"connectiontimeout="20000" disableuploadtimeout="true" uriencoding="gbk"/>
uriencoding 设成gbk或gb2312
2. 表单中或传递字符串:本来输入的汉字是正常的,但是提交后再显示出来是乱码,因为提交的一般是 iso8859编码,所以显示的时候要转成gb2312编码:

string s=new string(rs.getstring("news").getbytes("gb2312"),"iso8859_1");
//rs为待转换的字符串
然后使用s字符串的值就可以了
3. 有的服务器端的语言环境如果设成简体中文的也可以解决此类问题
4. 插入数据库中的字符是乱码
看看数据库中支持的是何种编码方式,用类似2中的方式作一下转换即可。
5. 总之,用jsp开发,碰到乱码,你得分析是读的时候发生乱码,还是写的时候发生乱码,用2中的转换,基本就能解决问题,有些时候写的时候做一次转换,例如:
string s=new string(rs.getstring("news").getbytes("gb2312"),"iso8859_1");
//读的时候在转换回来
string s=new string(rs.getstring("news").getbytes("iso8859_1"),"gb2312");
或者把iso8859-1和gb2312 的位置换一下,自己多试试,就能找到解决问题的办法。

扫描关注微信公众号