多进程爬取
admin
2023-07-11 22:44:25
0
import requests
from lxml import etree
import re
import time
from multiprocessing import Pool  #导入multiprocessing库的Pool模块

headers = {'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36'}

def get_info(url):
    html = requests.get(url,headers = headers)
    selector = etree.HTML(html.text)
    names = selector.xpath('//*[@class="article block untagged mb15 typs_hot"]/div[1]/a[2]/h3/text()')
    centents = re.findall('
.*?(.*?)',html.text,re.S) #第一个正则是为了匹配换行符 laughs = re.findall('(\d+)',html.text,re.S) comments = re.findall('(\d+) 评论',html.text,re.S) for name,centent,laugh,comment in zip(names,centents,laughs,comments): info = { 'name':name, 'centent':centents, 'laugh':laughs, 'comment':comments } return (info) if __name__ == '__main__': urls = ["https://www.qiushibaike.com/text/page/{}/".format(num)for num in range(0,14)] start_1 = time.time() for url in urls: get_info(url) end_1 = time.time() print('串行爬取花费时间:' + str(end_1 - start_1)) start_2 = time.time() pool = Pool(processes=2) #创建进程池,processes为设置的进程个数 pool.map(get_info,urls) #利用map()函数运行进程,参数fuc为运行的函数,iterable为迭代参数 end_2 = time.time() print('2个进程:' + str(end_2 - start_2)) start_3 = time.time() pool = Pool(processes=4) # 创建进程池,processes为设置的进程个数 pool.map(get_info, urls) # 利用map()函数运行进程,参数fuc为运行的函数,iterable为迭代参数 end_3 = time.time() print('4个进程:' + str(end_3 - start_3))

输出:

D:\Python\venv\Scripts\python.exe D:/Python/venv/test12.py
串行爬取花费时间:5.043288469314575
2个进程:3.351191759109497
4个进程:2.882164716720581

Process finished with exit code 0

相关内容

热门资讯

OpenAI,正式组建机器人事... 人工智能(AI)领域巨头OpenAI发布公告,宣布大力扩张内部机器人事业部,正式全面切入硬件赛道,实...
星火空间完成近亿元Pre-A轮... 据星火空间消息,6月1日,合肥星火空间科技有限公司完成近亿元Pre-A轮融资。本轮融资由云泽资本和轨...
刚刚,宇树IPO闪电过会!王兴... 智东西 作者 | 许丽思 编辑 | 漠影 智东西6月1日报道,刚刚,宇树通过上交所上市委会议审议。 ...
京东工业发起百川计划 携手上游... 京东工业大模型生态发布会6月1日在北京举行,京东工业携手合作伙伴正式开启“百川计划”,从数据、模型、...
强脑科技预计今年机械手销量大涨... IT之家 6 月 2 日消息,据彭博社 2 日(今天)报道,强脑科技预计,随着中国人形机器人产业快速...
一图看懂差距!iPhone 1... 快科技6月2日消息,iPhone 18 Pro不同版本电池容量不同的相关话题冲上社交平台热搜榜,引发...
iPhone 18 Pro 或... 据科技狐,近日,知名爆料人 Sonny Dickson 分享了 iPhone 18 Pro 全套机模...
武契奇:不排除卸任总统后担任总... 塞尔维亚总统武契奇近期密集释放政坛人事与大选相关信号,明确无意在 2027 年总统任期届满后谋求连任...
6月新机夯到拉盘点,告诉你哪台... 现在这形势,手机升价是不可能躲得过的了,而且涨价期至少持续两年。那既然内存涨价躲不过,就只能选升级大...
伊朗公开已故最高领袖哈梅内伊安... 新华社德黑兰6月2日电 据伊朗伊斯兰共和国通讯社2日报道,根据伊朗已故最高领袖阿里·哈梅内伊生前遗愿...