【Python】解析 Xml 格式的文档

xml 文档，无非就是一个树状的数据仓库，最基础的部分也就四个：增删改查。

解析树状结构

注意：xml.etree.ElementTree模块在应对恶意结构数据时显得并不安全。

from xml.etree import ElementTree

# import data from our dataset
tree = ElementTree.parse([path of xml file])

# pick the root of xml tree
root = tree.getroot()

注意：从字符串读取时不需要parse，因为fromstring直接返回的就是我们的root节点。

from xml.etree import ElementTree

# pick the root of xml tree
root = ElementTree.fromstring(country_data_as_string)

其中，tree比较好理解，就是我们的xml文件的树。root也就是我们的根节点。

root属于element对象，有以下几个属性：

tag：string对象，表示数据代表的种类。
attrib：dictionary对象，表示附有的属性。
text：string对象，表示element的内容。
tail：string对象，表示element闭合之后的尾迹。
若干子元素（child elements）。这些子元素可以通过index索引。

1 2	<tag attrib1=1>text</tag>tail 1 2 3 4

小技巧：若想加快速度，可以使用C语言编译的API xml.etree.cElementTree。在import时考虑优先导入，代码修改如下。

try:
    import xml.etree.cElementTree as ET
except ImportError:
    import xml.etree.ElementTree as ET

ElementTree.Element Class

class xml.etree.ElementTree.Element(tag, attrib={}, **extra)

    # 属性
    tag：string，元素代表的数据种类。
    attrib：dictionary，元素的属性字典。
    text：string，元素的内容。
    tail：string，元素的尾形。
    
    # 针对属性的操作
    clear()：清空元素的后代、属性、text和tail也设置为None。
    get(key, default=None)：获取key对应的属性值，如该属性不存在则返回default值。
    items()：根据属性字典返回一个列表，列表元素为(key, value)。
    keys()：返回包含所有元素属性键的列表。
    set(key, value)：设置新的属性键与值。

    # 针对后代的操作
    ## 增加新的element
    append(subelement)：添加直系子元素。
    extend(subelements)：增加一串元素对象作为子元素。
    insert(index, element)：在指定位置插入子元素。

    ## 删除element
    remove(subelement)：删除子元素。

    ## 遍历elements，得到iter或者list
    find(match)：寻找第一个匹配子元素，匹配对象可以为tag或path。
    findall(match)：寻找所有匹配子元素，匹配对象可以为tag或path。
    findtext(match)：寻找第一个匹配子元素，返回其text值。匹配对象可以为tag或path。
    iter(tag=None)：生成遍历当前元素所有后代或者给定tag的后代的迭代器。
    iterfind(match)：根据tag或path查找所有的后代。
    itertext()：遍历所有后代并返回text值。

ElementTree Object

class xml.etree.ElementTree.ElementTree(element=None, file=None)
    element如果给定，则为新的ElementTree的根节点。

    _setroot(element)：用给定的element替换当前的根节点。慎用。
    getroot()：获取根节点。
    
    parse(source, parser=None)：装载xml对象，source可以为文件名或文件类型对象。
    
    # 写回方法write
    write(file, encoding="us-ascii", xml_declaration=None, default_namespace=None,method="xml")

    # 以下方法与Element类中同名方法近似，区别在于它们指定以根节点作为操作对象。
    find(match)
    findall(match)
    findtext(match, default=None)
    iter(tag=None)
    iterfind(match)

增删改查

我思考了一下，面向对象的方法更容易思考，也更容易整理思路。在实际使用的时候要把上面的这些作为某一个xml文件对象的方法然后整理成一个单独的Class。

AI-tuner 小项目中的实际应用：

1 2	class xmlResolver(xmlFilePath) xmlWri

Python 面向对象回顾

方法

self 代表类的实例，self 在定义类的方法时是必须有的，虽然在调用时不必传入相应的参数。

init()方法是一种特殊的方法，被称为类的构造函数或初始化方法，当创建了这个类的实例时就会调用该方法。

类的内置属性

dict : 类的属性（包含一个字典，由类的数据属性组成）

doc :类的文档字符串

name: 类名

module: 类定义所在的模块（类的全名是’main.className’，如果类位于一个导入模块mymod中，那么className.module 等于 mymod）

bases : 类的所有父类构成元素（包含了一个由所有父类组成的元组）

子类父类

1 2	class 派生类名(基类名) ...

注意：python允许多父类继承，叫做多重继承。

然后方法重写的概念在python中是指子类重写父类的方法，这一点和Java有出入。

基础的重载方法

序号	方法	描述	简单应用
1	init ( self [,args…] )	构造函数	简单的调用方法: obj = className(args)
2	del( self )	析构方法, 删除一个对象	简单的调用方法 : del obj
3	repr( self )	转化为供解释器读取的形式	简单的调用方法 : repr(obj)
4	str( self )	用于将值转化为适于人阅读的形式	简单的调用方法 : str(obj)
5	cmp ( self, x )	对象比较	简单的调用方法 : cmp(obj, x)