XML编程(一)——XML语法
一、XML简介
XML(eXtensible Markup Language,可扩展标记语言)是一种用于存储和传输数据的标记语言。与HTML不同,XML不是为了显示数据而设计,而是为了描述和传输数据。XML具有以下特点:
可扩展性:用户可以根据需要自定义标签
自我描述性:标签名称能够反映数据的含义
平台无关性:可以在任何操作系统和应用程序之间交换数据
严格的结构:必须遵循严格的语法规则
二、XML文档结构
一个标准的XML文档由以下几部分组成:
2.1 声明部分
XML文档以XML声明开头,用于指定XML版本和编码方式。声明部分使用 <?xml ?> 处理指令。例如:
<?xml version="1.0" encoding="UTF-8"?>
2.2 根元素
每个XML文档必须包含一个根元素,它是所有其他元素的父元素。根元素有且只有一个。例如:
<?xml version="1.0" encoding="UTF-8"?> <bookstore> <book> <title>XML入门教程</title> <author>张三</author> </book> </bookstore>
三、XML语法规则
XML语法非常严格,任何违反规则的行为都会导致解析错误。以下是最基本的语法规则:
3.1 标签必须闭合
在XML中,所有标签都必须正确闭合。有内容的标签使用开始标签和结束标签,空标签可以使用自闭合语法。
正确示例:
<title>XML教程</title>正确示例(空标签):
<br />错误示例:
<title>XML教程(缺少结束标签)
3.2 标签必须正确嵌套
标签的嵌套顺序必须正确,不能交叉嵌套。
正确示例:
<book><title>XML</title></book>错误示例:
<book><title>XML</book></title>(交叉嵌套)
3.3 区分大小写
XML标签对大小写敏感,开始标签和结束标签的大小写必须完全一致。
正确示例:
<Book></Book>错误示例:
<Book></book>(大小写不匹配)
3.4 属性值必须加引号
XML元素的属性值必须用引号(单引号或双引号)括起来。
正确示例:
<book category="programming">正确示例:
<book category='programming'>错误示例:
<book category=programming>(缺少引号)
3.5 特殊字符转义
在XML内容中,某些字符具有特殊含义,必须使用实体引用进行转义。转义规则如下:
| 特殊字符 | 实体引用 | 说明 |
|---|---|---|
| < | < | 小于号 |
| > | > | 大于号 |
| & | & | 和符号 |
| ' | ' | 单引号 |
| " | " | 双引号 |
示例:
<message>使用 XML 时,必须转义 < 和 & 等字符</message>
四、XML元素
4.1 元素命名规则
XML元素的命名需要遵循以下规则:
名称可以包含字母、数字、下划线(_)、连字符(-)和句点(.)
名称不能以数字或标点符号开头
名称不能以 "xml"(不区分大小写)开头
名称中不能包含空格
合法名称示例:
<bookTitle> <!-- 合法 --> <book_title> <!-- 合法 --> <book-title> <!-- 合法 --> <book.title> <!-- 合法 --> <_book> <!-- 合法 -->
非法名称示例:
<123book> <!-- 非法:以数字开头 --> <book title> <!-- 非法:包含空格 --> <xml-book> <!-- 非法:以 xml 开头 -->
4.2 元素内容
XML元素可以包含以下类型的内容:
文本内容:直接包含文本
子元素:包含其他元素
混合内容:同时包含文本和子元素
空元素:没有任何内容
示例:
<!-- 文本内容 --> <title>XML编程入门</title> <!-- 子元素 --> <book> <title>XML编程入门</title> <price>39.00</price> </book> <!-- 混合内容 --> <description>这是一本关于 <keyword>XML</keyword> 的书籍</description> <!-- 空元素 --> <br /> <image src="cover.jpg" />
五、XML属性
属性用于提供元素的额外信息,位于开始标签中,采用 "名称=值" 的形式。
5.1 属性的使用
<book category="programming" language="zh-CN"> <title>XML编程入门</title> <author id="A001">张三</author> </book>
5.2 元素与属性的选择
通常情况下,数据应该存放在元素中,元数据(描述数据的数据)适合放在属性中。以下两种写法都是合法的,但推荐使用元素来存储数据:
方式一(使用属性):
<book category="programming"> <title>XML编程</title> </book>
方式二(使用子元素):
<book> <category>programming</category> <title>XML编程</title> </book>
六、XML注释
XML注释用于在文档中添加说明性文字,解析器会忽略注释内容。注释语法与HTML相同:
<!-- 这是一个XML注释 --> <book> <!-- 书籍标题 --> <title>XML编程入门</title> <!-- 价格单位:人民币元 --> <price>39.00</price> </book>
注释的规则:
注释内容不能包含 "--" 连字符
注释不能嵌套
注释不能出现在XML声明之前
七、命名空间
当多个XML文档合并时,可能会出现元素名称冲突的情况。XML命名空间(Namespace)用于解决这个问题。
7.1 命名空间声明
使用 xmlns 属性来声明命名空间:
<root xmlns:h="https://www.ipipp.com/html" xmlns:f="https://www.ipipp.com/furniture"> <h:table> <h:tr> <h:td>HTML表格单元格</h:td> </h:tr> </h:table> <f:table> <f:name>实木餐桌</f:name> <f:price>1200</f:price> </f:table> </root>
八、完整示例
下面是一个完整的XML文档示例,展示了以上所有语法规则:
<?xml version="1.0" encoding="UTF-8"?> <!-- 这是一个图书信息XML文档 --> <bookstore xmlns:bk="https://www.ipipp.com/books"> <bk:book category="programming"> <bk:title>XML编程从入门到精通</bk:title> <bk:author>李四</bk:author> <bk:price currency="RMB">59.00</bk:price> <bk:description>本书系统讲解 <XML> 技术,适合初学者阅读。</bk:description> </bk:book> <bk:book category="database"> <bk:title>数据库系统概论</bk:title> <bk:author>王五</bk:author> <bk:price currency="RMB">45.00</bk:price> </bk:book> </bookstore>
九、XML语法检查工具
在编写XML文档时,建议使用以下方法验证语法的正确性:
使用浏览器的XML解析功能直接打开XML文件
使用在线XML验证工具检查语法
使用IDE(如VS Code、IntelliJ IDEA)内置的XML验证功能
如果XML文档存在语法错误,解析器通常会显示详细的错误信息,指明错误位置和原因。
十、总结
本文详细介绍了XML的基本语法规则,包括文档结构、元素命名、属性使用、注释和命名空间等内容。掌握这些基础知识是深入学习XML编程的前提。下一篇文章将介绍XML的文档类型定义(DTD)和Schema模式验证,敬请期待。