前言
本篇文章主要介绍了如何用Dom4j+Xpath解析XML文件
XML的解析在Java的框架源码中十分常用,因此学会解析XML文件是必要的
XML文件
· XML文件是一种可扩展标记语言。做后台开发接触到的XML文件一般是以配置文件的身份登场,虽说现在几乎不用我们自行解析XML配置文件,但是技多不压身,万一哪天我们需要自己开发框架了,这门技能就成为了必须。
XML文件格式
· XML文件的格式非常简单,第一行是文件声明,后面就是我们自行添加的内容。书写XML文件有几点注意事项:
- 必须有声明
- 标签区分大小写
- 只有一个根元素(根标签)
- 属性可以自定义,属性值必须添加引号
- 必须有结束标志(</>)
·示例如下:
1 | <!-- 声明 --> |
DOM
· 由上面的格式可知,其实XML与HTML相差并不大,我们访问和操作HTML文档使用的工具是HTML DOM 树。异曲同工,Dom4j也参照了这种方法,其使用SAXReader对象将整个XML文档读取,构建出了document树对象。通过这个树对象,配合上XPath工具,我们就可以很轻松地访问到整个文件的所有节点的数据了,其中节点(元素)就是Element对象,节点中的属性就是Atrribute对象。
· 所以,解析XML的步骤就是:创建SAXReader对象 — SAXReader获取XML文件的Document树对象 — document树获取Element元素对象 — Element元素对象获取其元素的属性Attribute对象。这一套流程下来,基本想读取什么值都可以。
解析XML文件
· 本博客使用Dom4j+Xpath来解释XML文件。使用这种方式需要引入两个jar包,一个是dom4j包,另一个是Xpath通用引擎包jaxen。注:如果xml文件不大,推荐使用此种方式解析xml文件(因为使用简单方便);如果XML巨大,可以使用JDK自带的SAX解析器去“边读边写”提高效率,但因为其操作比较复杂,需要定义自己的处理器,本博客就不描述此种方法了。
其Maven依赖如下:
1 | <!-- https://mvnrepository.com/artifact/dom4j/dom4j --> |
Xpath
· 在正式开始解析之前,不得不介绍一下Xpath是为何物。
· XPath 是一门在 XML 文档中查找信息的语言,用于在 XML 文档中对元素和属性进行遍历。XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。
· 由上述概念可知,我们解析XML文件的核心就在于:使用XPath的路径表达式在document树对象中检索节点。
· 树对象的获取在1.2节已经介绍了,非常简单,因此难点就在于路径表达式的语法了。
路径表达式语法
· Xpath是W3C的一个标准,因此W3School的在线教程网站上就有,传送门如下:W3CXpath语法
·最有用的路径表达式如下:
表达式 | 描述 | 使用(依据上图的示例) | 含义 |
---|---|---|---|
nodename | 选取此节点下所有的子节点 | beans | 表示beans元素下所有的子节点 |
/ | 表示从根节点开始选取 | /beans/bean | 表示从根节点开始找到所有beans下所有名为bean的子节点 |
// | 不管节点在什么位置,选取该节点 | //property | 表示选取property节点,不管它在什么位置 |
. | 选取当前节点 | / | / |
.. | 选取当前节点的父节点 | / | / |
@ | 选取属性 | 一般用于谓语中 | / |
·谓语
· 谓语用来查找某个特定的节点或者包含某个指定的值的节点。谓语被嵌在方括号中。
路径表达式 | 结果 |
---|---|
/beans/bean[1] | 选取beans子元素下的第一个bean元素 |
/beans/bean[@id=”studentDao”] | 选取beans子元素下的属性值为studentDao的bean元素 |
解析XML文件实例
- 首先获取SAXReader对象,此对象在dom4j包中:
1 | SAXReader saxReader = new SAXReader(); |
- 再从这个对象获取XML文件的document树对象:使用saxReader.read(…);此函数可以传入两个对象,如下:
1 | Document document = saxReader.read(File io); |
· 这个两个入参具体使用哪一个看个人喜好,我本人比较喜欢传入InputStream,因为传入File对象需要给出文件相对项目的路径或者绝对路径,不太方便移植。而文件流可以直接从类加载器中获得,只需要保证项目在类路径下即可。
- 获取文件流代码
1 | public class XMLTest{ |
- 解析需求如下:
- 获取所有的Bean标签,并获得其下面所有class属性值
- 获取id=studentSerivce的bean元素,并获得property的ref属性
- 得到beanTest元素的值
1 |
|
- 测试结果如下:
1 | [TestNG] Running: |
总结
· 解析XML文件还是相当简单的,其实就是一个树的读取,很快就能上手。
交流
请联系邮箱:chenxingyu@bupt.edu.cn