Python 解析 XML
xsobi 2024-11-24 23:35 15 浏览
1 简介
XML 全称 Extensible Markup Language,中文译为可扩展标记语言。XML 之前有两个先行者:SGML 和 HTML,率先登场的是 SGML, 尽管它功能强大,但文档结构复杂,既不容易学也不易于使用,因此几个主要的浏览器厂商均拒绝支持 SGML,这些因素限制了 SGML 在网上的传播性;1989 年 HTML 登场,它继承了 SGML 诸多优点,去除了 SGML 复杂庞大的缺点,HTML 在数据显示上表现十分出色,但它的语法是不可扩展的,因此其无法描述数据、可读性差,没办法人们再次将目光转向 SGML,经过对 SGML 一系列改造,终于在 1998 年,XML 第一个版本问世。
上面说了那么多,简单来说就是:XML 和 HTML 均由 SGML 改造而来,HTML 是一种页面技术,聚焦的是数据的显示,而 XML 易于扩展,主要用来传送和存储数据,聚焦的是数据的内容。
2 解析
2.1 解析方式
Python 有三种 XML 解析方式:SAX(simple API for XML)、DOM(Document Object Model)、ElementTree。
- DOM 方式:DOM 中文译为文档对象模型,是 W3C 组织推荐的标准编程接口,它将 XML 数据在内存中解析成一个树,通过对树的操作来操作 XML。
- SAX 方式:SAX 是一个用于处理 XML 事件驱动的模型,它逐行扫描文档,一边扫描一边解析,对于大型文档的解析拥有巨大优势,尽管不是 W3C 标准,但它却得到了广泛认可。
- ElementTree 方式:ElementTree 相对于 DOM 来说拥有更好的性能,与 SAX 性能差不多,API 使用也很方便。
2.2 具体实现
在具体解析之前我们先准备一个 XML,如下所示:
test.xml
<?xml version="1.0" encoding="utf-8"?>
<list>
<student id="stu1" name="stu">
<id>1001</id>
<name>张三</name>
<age>22</age>
<gender>男</gender>
</student>
<student id="stu2" name="stu">
<id>1002</id>
<name>李四</name>
<age>21</age>
<gender>女</gender>
</student>
</list>
DOM 方式解析
使用 DOM 方式,首先要对其 API 有一定了解,如果不了解,网上的教程也比较多,比如:DOM 教程,下面看一下使用示例。
from xml.dom.minidom import parse
# 读取文件
dom = parse('test.xml')
# 获取文档元素对象
data = dom.documentElement
# 获取 student
stus = data.getElementsByTagName('student')
for stu in stus:
# 获取标签属性值
st_id = stu.getAttribute('id')
st_name = stu.getAttribute('name')
# 获取标签中内容
id = stu.getElementsByTagName('id')[0].childNodes[0].nodeValue
name = stu.getElementsByTagName('name')[0].childNodes[0].nodeValue
age = stu.getElementsByTagName('age')[0].childNodes[0].nodeValue
gender = stu.getElementsByTagName('gender')[0].childNodes[0].nodeValue
print('st_id:', st_id, ', st_name:',st_name)
print('id:', id, ', name:', name, ', age:', age, ', gender:',gender)
输出结果:
st_id: stu1 , st_name: stu
id: 1001 , name: 张三 , age: 22 , gender: 男
st_id: stu2 , st_name: stu
id: 1002 , name: 李四 , age: 21 , gender: 女
通过输出结果,我们可以发现已经获取了标签属性值和标签内容了。
SAX 方式解析
使用 SAX 解析 XML 文档主要涉及到解析器和事件处理器,解析器负责读取 XML 文档,并向事件处理器发送事件,事件处理器负责对事件作出响应,对传递的 XML 数据进行处理。
Python 使用 SAX 处理 XML 需要用到 xml.sax 中的 parse 函数和 xml.sax.handler 中的 ContentHandler 类,下面看一下 ContentHandler 类中的一些方法。
- characters(content):调用时机:从行开始,遇到标签之前,存在字符,content 的值为这些字符串;从一个标签,遇到下一个标签之前, 存在字符,content 的值为这些字符串;从一个标签,遇到行结束符之前,存在字符,content 的值为这些字符串。
- startDocument():文档启动的时候调用。
- endDocument():解析器到达文档结尾时调用。
- startElement(name, attrs):遇到 XML 开始标签时调用,name 是标签的名字,attrs 是标签的属性值字典。
- endElement(name):遇到 XML 结束标签时调用。
下面通过示例看一下如何通过 SAX 方式解析 XML。
import xml.sax
class StudentHandler(xml.sax.ContentHandler):
def __init__(self):
self.id = ""
self.name = ""
self.age = ""
self.gender = ""
# 元素开始调用
def startElement(self, tag, attributes):
self.CurrentData = tag
if tag == "student":
stu_name = attributes["name"]
print("stu_name:", stu_name)
# 元素结束调用
def endElement(self, tag):
if self.CurrentData == "id":
print("id:", self.id)
elif self.CurrentData == "name":
print("name:", self.name)
elif self.CurrentData == "age":
print("age:", self.age)
elif self.CurrentData == "gender":
print("gender:", self.gender)
self.CurrentData = ""
# 读取字符时调用
def characters(self, content):
if self.CurrentData == "id":
self.id = content
elif self.CurrentData == "name":
self.name = content
elif self.CurrentData == "age":
self.age = content
elif self.CurrentData == "gender":
self.gender = content
if (__name__ == "__main__"):
# 创建 XMLReader
parser = xml.sax.make_parser()
# 关闭命名空间
parser.setFeature(xml.sax.handler.feature_namespaces, 0)
# 重写 ContextHandler
Handler = StudentHandler()
parser.setContentHandler(Handler)
parser.parse("test.xml")
输出结果:
stu_name: stu
id: 1001
name: 张三
age: 22
gender: 男
stu_name: stu
id: 1002
name: 李四
age: 21
gender: 女
ElementTree 方式解析
Python 提供了两种 ElementTree 的实现方式。一个是纯 Python 实现的 xml.etree.ElementTree,另一个是 C 语言实现 xml.etree.cElementTree,使用 C 语言实现的方式速度更快且内存消耗更少。Python3.3 之后,ElemenTree 模块会自动优先使用 C 加速器,如果不存在 C 实现,则会使用 Python 实现。因此,使用 Python3.3+ 时,只需要 import xml.etree.ElementTree 即可。下面看一下示例。
import xml.etree.ElementTree as ET
tree = ET.parse("test.xml")
# 根节点
root = tree.getroot()
# 标签名
print('root_tag:',root.tag)
for stu in root:
# 属性值
print ("stu_name:", stu.attrib["name"])
# 标签中内容
print ("id:", stu[0].text)
print ("name:", stu[1].text)
print("age:", stu[2].text)
print("gender:", stu[3].text)
输出结果:
root_tag: list
stu_name: stu
id: 1001
name: 张三
age: 22
gender: 男
stu_name: stu
id: 1002
name: 李四
age: 21
gender: 女
总结
本文介绍和演示了 Python 三种 XML 解析方式,对 Python 工程师使用 Python 解析 XML 提供了支撑。
相关推荐
- 淘宝后台怎么设置微信支付方式,如何操作?
-
一、登录淘宝商家后台首先,打开淘宝商家后台的登录页面,输入用户名和密码进行登录。如果没有注册淘宝商家账号,可以先进行注册,注册成功后再登录。二、进入“支付设置”页面登录成功后,点击页面右上角的“设置”...
- CMS系统是什么?(cms包括什么)
-
CMS系统指的是“内容管理系统”,是用来发布网络内容的一体化Web管理系统。CMS系统主要有两类功能,一类是搭建网站,另一类是用来管理和发布内容。...
- 后台首页应该如何设计?(店铺首页设计图片)
-
在设计之前,尽可能进行用户访谈,深入每个角色的场景,分析其业务重点和痛点,了解每个客户角色对产品的期望。1)梳理业务和功能架构主页和导航共同构成了产品的外观。在设计首页之前,需要完成业务和功能架构设...
- 今日头条MCN.登录电脑端头条号后台,功能使用管理
-
明日头条MCN也叫父子号或则矩阵是指有能力管理一定规模头条号账号的机构,内容包括微头条、图文、短视频等体裁。平台希望凭着对MCN机构规范化的管理,共同构建出一个良性、活跃的内容生态,与更多领域的MCN...
- 家里的WiFi被蹭了,咋办?(家里被蹭网了)
-
某一天在家中上网...
- AI销售数据分析神器 + 超强推理模型
-
这款AI销售数据分析工具通过自动化分析和推理模型,快速生成详细报告,帮助销售团队精准定位问题、发现亮点,优化策略。无论是产品分析、地区对比还是成本结构,它都能提供全面洞察和可执行建议。干销售,最头疼啥...
- 大学宿舍上网问题解决方案,让你上网更稳定更快捷!
-
大学宿舍上网是许多大学生关心的问题,一直以来都存在着网速慢、不稳定等困扰。但是,只要采取正确的解决方法,大学宿舍上网问题就可以迎刃而解。一、了解宿舍网络环境在解决宿舍上网问题之前,我们需要了解宿舍的网...
- 剑灵2台服卡界面、卡加载界面、卡登录界面的解决方法
-
《剑灵2》是一款大型多人在线角色扮演游戏,在《剑灵2》中,过去的英雄将成为传说,玩家将承接后面的全新探险,将谱写《剑灵》的全新篇章。该游戏上线以来,许多玩家小伙伴已经纷纷下载游玩,但是有不少玩家在游玩...
- SOLIDWORKS PDM库设定冷存储模式(solidworks保存p2d格式)
-
众所周知SOLIDWORKSPDM作为管理企业研发数据的工具,不但帮助企业集中管理了研发数据,也记录了企业产品的研发过程即文件的版本。...
- 这个软路由系统自带NAS和应用商店:iStore OS,降低软路由门槛!
-
开篇碎碎念大家好,相信不少朋友都听过软路由,甚至不少朋友已经玩上了软路由,原版软路由系统上手还是有一定难度的,所以本期来介绍和体验一个基于OpenWRT改版而来的易用的软路由系统:iStoreOS。...
- Windows RDP远程桌面登录(mstsc)卡死显示请稍候的画面的解决办法
-
WindowsRDP远程登录(mstsc)卡死一直等待变成请稍候(PleaseWait)的画面如何解决。相信很多人都遇到过,但搜索国内所有网站,均没有一个根本性的解决方案,很多都是答非所问。都不能...
- 手把手教您登记公共数据资源(公共数据是什么)
-
3月1日,国家公共数据资源登记平台(https://sjdj.nda.gov.cn)正式上线。您可通过以下5个步骤开展登记工作:1.注册登录登录国家公共数据资源登记平台官网后,点击右上角【注册】或【我...
- 获取微信小程序页面路径(如何获取微信小程序路径)
-
登录小程序后台(https://mp.weixin.qq.com/),在顶部导航栏的“工具-生成小程序码”可进入小程序页面路径默认显示首页路径,用户可获取该小程序更多页面路径。...
- SaaS系统框架搭建详解(saas软件开发框架)
-
SaaS系统能提供一个或者多个行业常见场景的功能支持,只要在有网络的情况下,便“随处可用、拿来即用、不用下载”,所以现在也是一个流行的趋势。本文介绍了SaaS系统的框架搭建,一起来学习一下吧。根据百度...
- 暗黑4XGP卡在载入界面、登录界面卡住、登录不上去有效解决
-
想要以更低的价格体验到暗黑破坏神4的好玩之处,那么你可以选择加入XGP。近日,该游戏更新了“炼狱大军”赛季,这几天总有玩家遇到暗黑4XGP卡在载入界面、登录界面卡住、登录不上去的困难。下面就由小编和迅...
- 一周热门
- 最近发表
- 标签列表
-
- grid 设置 (58)
- 移位运算 (48)
- not specified (45)
- 导航栏 (58)
- context xml (46)
- scroll (43)
- dedecms模版 (53)
- c 视频教程下载 (33)
- listview排序 (33)
- characterencodingfilter (33)
- getmonth (34)
- label换行 (33)
- android studio 3 0 (34)
- html转js (35)
- 索引的作用 (33)
- checkedlistbox (34)
- xmlhttp (35)
- mysql更改密码 (34)
- 权限777 (33)
- htmlposition (33)
- 学校网站模板 (34)
- textarea换行 (34)
- 轮播 (34)
- asp net三层架构 (38)
- bash (34)