Python 爬虫之数据解析模块bs4基础
admin
2023-07-04 17:04:30
0

介绍:

最近在学Python爬虫,在这里对数据解析模块bs4做个学习笔记。


用途:

bs4用于解析xml文档,而html只是xml的一种


bs4 官方文档地址:

https://www.crummy.com/software/BeautifulSoup/bs4/doc/


学习笔记:


from bs4 import BeautifulSoup


html_doc = """

The Dormouse's story

The Dormouse's story


Once upon a time there were three little sisters; and their names were

Elsie,

Lacie and

Tillie;

and they lived at the bottom of a well.


...

"""


soup = BeautifulSoup(html_doc,'html.parser')    #创建一个BeautifulSoup对象,添加html文件解析器,在不同平台可能不同,在Linux上就不需要

print(soup.prettify())    #美化输出

print(soup.get_text())    #将html_doc变量中保存的全部内容输出(Linux系统会以\n隔开)

print('')


print(type(soup.title))

print(dir(soup.title))


print(soup.title)    #获取html标题

    The Dormouse's story

print(soup.title.text)    #获取html标题内容

    "The Dormouse's story"


print(soup.a)       #获取a标签(第一个)

    Elsie

print(soup.a.attrs)   #获取第一个a标签的所有属性,组成一个字典

    {'href': 'http://example.com/elsie', 'class': ['sister'], 'id': 'link1'}

print(soup.a.attrs['href'])    #获取第一个a标签的href属性

    'http://example.com/elsie'

print(soup.a.has_attr('class'))     #判断class属性是否存在

    True


print(soup.p)    #获取p标签(第一个)

    

The Dormouse's story

print(soup.p.children)    #获取第一个p标签下的所有子节点

    

print(list(soup.p.children))

    [The Dormouse's story]

print(list(soup.p.children)[0])

    The Dormouse's story

print(list(soup.p.children)[0].text)

    "The Dormouse's story"


print(soup.find_all('a'))    #获取所有的a标签

    [Elsie, Tillie]

for a in soup.find_all('a'):   #遍历所有的a标签

    print(a.attrs['href'])


print(soup.find(id='link3'))    #获取id=link3的标签

    Tillie

print('#'*150)


#支持CSS选择器

#查找类名为story的节点

print(soup.select('.story'))

print('')

print(soup.select('.story a'))

print('')

#查找id=link1的节点

print(soup.select('#link1'))

相关内容

热门资讯

我国科学家为细胞信号“导航”开... 新华社济南5月31日电(记者张力元)人体细胞犹如一座精密的通信城市,每天都有大量“指令”穿梭传递,调...
极端大风突袭哈尔滨!过山车停摆... 极目新闻记者 詹钘5月31日,受强对流天气影响,哈尔滨国际会展中心体育场相关设施受到损坏,原计划当晚...
三原电缆取得电缆接头连接用防护... 国家知识产权局信息显示,上海三原电缆附件有限公司取得一项名为“一种电缆接头连接用防护结构”的专利,授...
原创 识... 还是那句话,机圈苦大屏久已…… 虽然大屏有大屏的美,但是小屏也有小屏的俏。在大屏旗舰占据主流的手机市...
玄戒技术取得分频电路专利,实现... 国家知识产权局信息显示,北京玄戒技术有限公司取得一项名为“分频电路、分频器、射频芯片和电子设备”的专...
为什么今年香会基调明显变了 5月29日—31日在新加坡举行的第23届香格里拉对话会(简称“香会”),见证着元首引领下大国关系继续...
成本几毛钱、假驱蚊液香精兑水,... 入夏升温,蚊虫进入活跃期,驱蚊防护成为民生刚需,《财经调查》持续接到消费者投诉,他们买到的多款网红驱...
越来越多80后90后,正在丧失... 六一儿童节到来之际,朋友圈里开始出现一种熟悉的热闹。有人晒出零食礼包,有人半开玩笑地向伴侣讨礼物,还...
洋保电子取得用于低温环境的电气... 国家知识产权局信息显示,洋保电子(太仓)有限公司取得一项名为“一种用于低温环境的电气柜”的专利,授权...
中日韩飞手争霸宁波!2026无... 潮新闻客户端 记者 陈冲 通讯员 朱凝 5月31日,2026小遛·无人机竞速世界杯(中国·宁波鄞州站...