小白的python爬虫,40代码教你爬取豆瓣小说
admin
2023-07-04 18:03:53
0

这篇文章写了很久了,一直没有发布;
爬虫学的差不多了,觉得这篇文章对新手实践还是有些作用的。毕竟这也是我刚学爬虫的时候练习的,爬取了比较好爬的网站,也比较经典;多余的解释不说了,代码里每一行都有注释,解释的很清楚;
后续有时间的话还会发布一些爬虫文章的;

=============================================

直接上代码:

import requests
from bs4 import BeautifulSoup
from lxml import etree
#抓取豆瓣小说的 书名、评分;

page = 0            #定义页数初始值;
lists_book = []     #定义书名列表;
lists_grade = []    #定义评分的列表;
for u in range(0,20):   #循环20次,每一次循环爬取一页,即:抓取20页;
    basic_url = 'https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=' + str(page) + '&type=T'
    page += 20      #每循环一次 +20,适应链接变化;

    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
    }
    #发送请求
    response = requests.get(basic_url, headers=headers, timeout=10)     #requests请求;
    response.encoding = 'utf-8'     #设置编码
    htm = response.text     #返回text文本;

    #解析请求
    selector = etree.HTML(htm)      #利用 etree.HTML 初始化
    book_name = selector.xpath('//*[@id="subject_list"]/ul/li/div[2]/h3/a/text()')  #获取书名
    grade = selector.xpath('//*[@id="subject_list"]/ul/li/div[2]/div[2]/span[2]/text()')    #获取评分;

    #将书名存入到lists_book列表;
    for i in book_name:
        lists_book.append(i.strip())     #去除字符串空格,存入列表;
        while '' in lists_book:      #如果列表中有空元素,则删除空元素;
            lists_book.remove('')
    #将评分存入到lists_grade列表;
    for i in grade:
        lists_grade.append(i.strip())     #去除字符串空格,存入列表;
        while '' in lists_grade:      #如果列表中有空元素,则删除空元素;
            lists_grade.remove('')

print(lists_book)           #输出爬取的书名列表;
print(len(lists_book))      #输出列表的长度,即:爬取了多少本书
print(lists_grade)          #输出评分的列表;
print(len(lists_grade))     #输出评分列表的长度;为了和书的数目核对,防止偏差;
print("评分最高: "+ str(max(lists_grade)) + "\n" + "书名: " + lists_book[lists_grade.index(max(lists_grade))])

运行后结果输出到了屏幕上,并没有存入数据库,后续需要也可以继续添加代码将爬取结果存入数据库;

相关内容

热门资讯

我国科学家为细胞信号“导航”开... 新华社济南5月31日电(记者张力元)人体细胞犹如一座精密的通信城市,每天都有大量“指令”穿梭传递,调...
极端大风突袭哈尔滨!过山车停摆... 极目新闻记者 詹钘5月31日,受强对流天气影响,哈尔滨国际会展中心体育场相关设施受到损坏,原计划当晚...
三原电缆取得电缆接头连接用防护... 国家知识产权局信息显示,上海三原电缆附件有限公司取得一项名为“一种电缆接头连接用防护结构”的专利,授...
原创 识... 还是那句话,机圈苦大屏久已…… 虽然大屏有大屏的美,但是小屏也有小屏的俏。在大屏旗舰占据主流的手机市...
玄戒技术取得分频电路专利,实现... 国家知识产权局信息显示,北京玄戒技术有限公司取得一项名为“分频电路、分频器、射频芯片和电子设备”的专...
为什么今年香会基调明显变了 5月29日—31日在新加坡举行的第23届香格里拉对话会(简称“香会”),见证着元首引领下大国关系继续...
成本几毛钱、假驱蚊液香精兑水,... 入夏升温,蚊虫进入活跃期,驱蚊防护成为民生刚需,《财经调查》持续接到消费者投诉,他们买到的多款网红驱...
越来越多80后90后,正在丧失... 六一儿童节到来之际,朋友圈里开始出现一种熟悉的热闹。有人晒出零食礼包,有人半开玩笑地向伴侣讨礼物,还...
洋保电子取得用于低温环境的电气... 国家知识产权局信息显示,洋保电子(太仓)有限公司取得一项名为“一种用于低温环境的电气柜”的专利,授权...
中日韩飞手争霸宁波!2026无... 潮新闻客户端 记者 陈冲 通讯员 朱凝 5月31日,2026小遛·无人机竞速世界杯(中国·宁波鄞州站...