xml数据有各种各样的格式。然而,xml文档中的数据格式不一定符合目标系统的规范。xmlt模板常被采用来把一种格式转换为另一种格式。不幸的是,xslt的方法仅仅提供一套有限的功能执行这些转换。
apache软件基金的xalan项目包括java和c++两种版本的xslt处理器。这个处理器提供解析xml文档的功能,并使用xslt模板来转换它们。除了标准的xslt转换以外,xalan也提供一把扩展方法。在扩展库提供的这些方法中,有一个字符串tokenizer把字符串分割成一组token。
问题领域
精确的一组xml转换用tokenize方法。任何时候,当你需要把字符串以一致的样式分解为子串,可以采用tokenize方法。实际上,tokenize方法是一个xslt方法,它带两个参数。第一个参数指定要被分割的字符串。第二个参数指定把字符串分解为一组字符串token的分隔符。
tokenize方法的结果是一组表示token的节点。这些token和节点可以使用iterator或者作为单个值来处理。你可以用tokenizer把字符串分解为一组单个值,从一个长字符串获取单个token。
例子
为了举例说明tokenize方法的用法,我们看一个使用它的例子。下面是包含需要我们分割的字符串的一个xml文档:
<customeraddress>
<address1>9399 w higgins street</address1>
<address2>rosemont, il 60018</address2>
</customeraddress>
这个例子演示了系统的一个客户地址记录,包含两行地址。这是在系统中一个相当普遍的情形,地址信息仅当发邮件时使用,而实际的城市、州和邮编信息并不特别重要。不幸的是,许多系统希望地址信息被分成城市、州和邮编。需要一个机制把组合的<address2>元素分成单独的城市、州和邮编元素。
方案
为了把数据以恰当的格式提供给目标系统,我使用xalan的tokenize扩展功能。这个方法基于一组分割符把一个字符串,比如像地址,分割成多个token。如果没有指定分割符,使用默认的空格符号作为分割符。在我们的例子中,使用的分割符包括空格符号和逗号。
我们从xslt模板创建表格开始。下面是我们期待的经过转换得来的输出:
<customeraddress>
<address>9399 w higgins street</address>
<city>rosemont</city>
<state>il</state>
<zip>60018</zip>
</customeraddress>
正当你看到的那样,我们想把<address1>元素转换成<address>元素,并把<address2>元素分割成<city>、<state>和<zip>元素。为使用tokenize方法,我们如下创建一个模板来调用它:
<?xml version="1.0" encoding="utf-8"?>
<xsl:stylesheet version="1.0"
xmlns:xsl="http://www.w3.org/1999/xsl/transform"
xmlns:xalan="http://xml.apache.org/xalan">
<xsl:template match="/">
<xsl:for-each select="//customeraddress">
<address><xsl:value-of select="address1"/></address>
<city><xsl:value-of select="xalan:tokenize(address2, ' ,')[1]"/></city>
<state><xsl:value-of select="xalan:tokenize(address2, ' ,')[2]"/></state>
<zip><xsl:value-of select="xalan:tokenize(address2, ' ,')[3]"/></zip>
</xsl:for-each>
</xsl:template>
</xsl:stylesheet>
有两个地方需要特别注意。第一个在<xsl:stylesheet>元素里面。这里,我们定义了xalan名字空间。这个很重要,因为tokenize方法是xalan名字空间的一部分。如果没有恰当的名字空间定义,处理器不会知道xalan名字空间。
第二需要注意的是一组叫city, state和zip的元素。对每一个这些元素,我们调用tokenize方法。tokenize方法总是返回一个nodeset。为了给这些元素提供单个值,必须给nodeset的单个节点赋值。为了做到这一点,我们给tokenize调用的前面添加一个索引(即,[1],[2],[3])。
这些索引指示出取出哪个token。city是地一个token,state是第二个token,zip是第三个。
tokenize方法自身带有两个参数。第一个参数是我们分割的值(这个例子中是<address2>元素)。第二个参数是分隔符列表。我们使用包含在字符串‘ ,’?d?d包含一个空格符号和一个逗号中的分隔符分割这个字符串。
在xml转换中分割字符串很普遍。为了无缝的处理这个问题,apache xml项目和xalan组已经添加了一个叫做tokenize的扩展方法来处理xml数据值的分割。访问xalan网页,可以发现更多关于xalan-java xslt处理器和tokenize方法的信息。
闽公网安备 35060202000074号