Python 爬虫之数据解析模块lxml基础(附:xpath和解析器介绍)
admin
2023-07-04 15:44:21
0

介绍:

最近在学Python爬虫,在这里对数据解析模块lxml做个学习笔记。


lxml、xpath及解析器介绍:

lxml是Python的一个解析库,支持HTML和XML的解析,支持xpath解析方式,而且解析效率非常高。xpath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言,它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索


xml文件/html文件结点关系:

父节点(Parent)

子节点(Children)

同胞节点(Sibling)

先辈节点(Ancestor)

后代节点(Descendant)


xpath语法:

nodename    选取此节点的所有子节点

//          从任意子节点中选取

/           从根节点选取

.           选取当前节点

..          选取当前节点的父节点

@        选取属性


解析器比较:

解析器         速度      难度

re                最快      难

BeautifulSoup 慢        非常简单

lxml                 快        简单


学习笔记:


# -*- coding: utf-8 -*-


from lxml import etree


html_doc = """

The Dormouse's story

The Dormouse's story


Once upon a time there were three little sisters; and their names were

Elsie,

Lacie and

Tillie;

and they lived at the bottom of a well.


...

"""


selector = etree.HTML(html_doc)   #创建一个对象


links = selector.xpath('//p[@class="story"]/a/@href')   # 取出页面内所有的链接

for link in links:

    print link


xml_test = """

   

        lizibin

        m

       

sjz

        28

       

            konigerwin@163.com

            135......

       

   

   

        wsq

        f

       

shanghai

        25

       

            konigerwiner@163.com

            135......

       

   

   

        liqian

        f

       

SH

        28

       

            konigerwinarry@163.com

            135......

       

   

   

        qiangli

        f

       

SH

        29

       

            konigerwinarry@163.com

            135......

       

   

   

        buzhidao

        f

       

SH

        999

       

            konigerwinarry@163.com

            135......

       

   

"""


#r = requests.get('http://xxx.com/abc.xml')   也可以请求远程服务器上的xml文件

#etree.HTML(r.text.encode('utf-8'))

xml_code = etree.HTML(xml_test)     #生成一个etree对象


#选取所有子节点的name(地址)

print xml_code.xpath('//name')


选取所有子节点的name值(数据)

print xml_code.xpath('//name/text()')

print ''


#以notebook以根节点选取所有数据

notebook = xml_code.xpath('//notebook')


#取出第一个节点的name值(数据)

print notebook[0].xpath('.//name/text()')[0]


addres = notebook[0].xpath('.//name')[0]

#取出和第一个节点同级的 address 值

print addres.xpath('../address/text()')


#选取属性值

print addres.xpath('../address/@lang')


#选取notebook下第一个user的name属性

print xml_code.xpath('//notebook/user[1]/name/text()')


#选取notebook下最后一个user的name属性

print xml_code.xpath('//notebook/user[last()]/name/text()')


#选取notebook下倒数第二个user的name属性

print xml_code.xpath('//notebook/user[last()-1]/name/text()')


#选取notebook下前两名user的address属性

print xml_code.xpath('//notebook/user[position()<3]/address/text()')


#选取所有分类为web的name

print xml_code.xpath('//notebook/user[@category="cb"]/name/text()')


#选取所有年龄小于30的人

print xml_code.xpath('//notebook/user[age<30]/name/text()')


#选取所有class属性中包含dba的class属性

print xml_code.xpath('//notebook/user[contains(@class,"dba")]/@class')

print xml_code.xpath('//notebook/user[contains(@class,"dba")]/name/text()')




相关内容

热门资讯

我国科学家为细胞信号“导航”开... 新华社济南5月31日电(记者张力元)人体细胞犹如一座精密的通信城市,每天都有大量“指令”穿梭传递,调...
极端大风突袭哈尔滨!过山车停摆... 极目新闻记者 詹钘5月31日,受强对流天气影响,哈尔滨国际会展中心体育场相关设施受到损坏,原计划当晚...
三原电缆取得电缆接头连接用防护... 国家知识产权局信息显示,上海三原电缆附件有限公司取得一项名为“一种电缆接头连接用防护结构”的专利,授...
原创 识... 还是那句话,机圈苦大屏久已…… 虽然大屏有大屏的美,但是小屏也有小屏的俏。在大屏旗舰占据主流的手机市...
玄戒技术取得分频电路专利,实现... 国家知识产权局信息显示,北京玄戒技术有限公司取得一项名为“分频电路、分频器、射频芯片和电子设备”的专...
为什么今年香会基调明显变了 5月29日—31日在新加坡举行的第23届香格里拉对话会(简称“香会”),见证着元首引领下大国关系继续...
成本几毛钱、假驱蚊液香精兑水,... 入夏升温,蚊虫进入活跃期,驱蚊防护成为民生刚需,《财经调查》持续接到消费者投诉,他们买到的多款网红驱...
越来越多80后90后,正在丧失... 六一儿童节到来之际,朋友圈里开始出现一种熟悉的热闹。有人晒出零食礼包,有人半开玩笑地向伴侣讨礼物,还...
洋保电子取得用于低温环境的电气... 国家知识产权局信息显示,洋保电子(太仓)有限公司取得一项名为“一种用于低温环境的电气柜”的专利,授权...
中日韩飞手争霸宁波!2026无... 潮新闻客户端 记者 陈冲 通讯员 朱凝 5月31日,2026小遛·无人机竞速世界杯(中国·宁波鄞州站...