Python 爬虫开发之xpath使用
admin
2023-07-18 07:22:44
0

在进行爬虫开发中,需要的页面信息进行解析处理,获取到需要的关键数据。可以利用xpath进行对页面的xml文件进行解析处理,获取到需要的关键数据。
XPath使用:
XPath 可用来在 XML 文档中对元素和属性进行遍历.
from lxml import etree
import urllib2
req = urllib2.Request(url)
req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')
web_info = urllib2.urlopen(req).read()
html = etree.HTML(web_info)
result = etree.tostring(html) #tostring 是补全缺失的html标签
html_data = result.xpath('/html/body/div/ul/li/a/text()') 获取某个标签的数据,返回的是对象,可以通过遍历得到具体的数据
html_data = html.xpath('/html/body/div/ul/li/a/@href') 获取某个标签的属性 获取属性值用@
html_data = html.xpath('/html/body/div/ul/li/a[@href="link2.html"]/text()') 获取a表现属性为link2.html的内容
html_data = html.xpath('//li/a/text()') 使用相对路径获取a标签的内容
html_data = html.xpath('//li/a//@href') 使用相对路径获取a标签的属性值

相关内容

热门资讯

赖瑞隆为何攻击柯志恩家人?蓝营... 海峡导报综合报道 民进党高雄市长参选人赖瑞隆质疑国民党高雄市长参选人柯志恩家人资产在美国,柯14日痛...
世界杯看台对900万粉韩博主做... 因在美加墨世界杯赛场看台上对一名韩国博主做出疑似“眯眯眼”的种族歧视动作,墨西哥哈利斯科州测量师与地...
伊朗队在墨西哥的临时大本营:谢... 在墨西哥卡连特体育场(Estadio Caliente)外围的道路上,敞篷巡逻车往来穿梭。车上坐着戴...
伊朗称将就贝鲁特遭袭报复以色列 针对以色列今天(6月14日)再次袭击黎巴嫩首都贝鲁特南郊,伊朗武装部队哈塔姆·安比亚中央司令部副司令...
前脚清查后脚增产,违规电池厂称... 《财经调查》栏目不断接到消费者反映,一些商家为了吸引消费者,谋一己私利,被总台3·15晚会曝光整顿后...
足球成了“人质”?世界杯补水背... 澎湃新闻记者 朱轶世界杯开赛不过3天,关于补水暂停插入电视广告的争议,迅速席卷整个足坛。“足球已经沦...
8死2失踪渔船倾覆事故调查报告... 辽宁省应急管理厅6月14日公布辽宁葫芦岛辽绥渔35261船“10·18”重大倾覆事故调查报告。调查认...
28岁男子去世留40万房贷,银... 近日,岳阳一指定遗产管理人案引发关注:28岁的男子小王(化姓)不幸去世时,其生前49万的房贷未还完。...
胡锡进:我们的血缘联系是真实的... 《给阿嬷的情书》6月18日将在新加坡、马来西亚等地上映。新加坡《联合早报》周五又发了一篇文章,调子很...
“女子家门口遇害案”二审将开庭... 极目新闻记者 谢茂“成都27岁女子遇害案”二审将于6月16日开庭。6月14日,受害者王紫雅母亲王女士...