使用爬虫遇到的一些问题
admin
2023-07-20 13:22:41
0

本博客会记录博主在使用爬虫过程中遇到的问题,不断更新,希望以后再遇到这些问题的时候,可以快速解决。

1、在爬取和讯博客的时候发现阅读数和评论数无法正常读取。通过抓包工具抓取到了阅读数和评论数的URL,但是复制到浏览器上打开发现一片空白。在抓包工具Raw里发现,有一项Refere,后面将此项加到headers信息里,数据可以正常显示出来了。代码如下:

import urllib.request

url='http://click.tool.hexun.com/click.aspx?articleid=116367158&blogid=19050645'

data={

"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36",
"Referer":"http://27783968.blog.hexun.com/116367158_d.html",

}

request=urllib.request.Request(url,headers = data)
data=urllib.request.urlopen(request).read().decode("utf-8","ignore")
print(data)

此次难点在于不熟悉urllib库是如何添加更多的请求信息到heagers里,在以上代码中,data里还可以添加更加多的请求,比如cookie等信息,记录此次代码的目的在于熟悉urllib.request.Reques的用法

相关内容

热门资讯

谅解备忘录墨迹未干,美伊首轮谈... 在签署谅解备忘录后,美伊将开启60天谈判。然而,白宫周四宣布万斯取消赴瑞士与伊朗谈判行程,此前伊朗、...
阿富汗称空袭巴境内极端组织藏匿... 新华社喀布尔/伊斯兰堡6月19日电(记者李昂 杨恺) 阿富汗国防部19日称,阿空军在过去一夜空袭了位...
彻夜赶路干扰备战,伊朗足协怒向... 伊朗的世界杯征途荆棘丛生,从美签难产,到多名幕后人员遭到拒签,再到比赛当晚必须离境。大到入境手续,小...
“回旋震”把日本向东推动6毫米... 据当地时间6月18日发表于《科学》(Science)的最新研究,2011年日本“3·11”大地震发生...
首开告捷 劲销231套|招商臻... 一座城市的人居进阶,总需要一个里程碑式的作品。当百年招商遇见千年商都,一场关于精奢生活的革新就此启幕...
特朗普被曝挪用特勤局资金建宴会... 澎湃新闻记者 南博一美国总统特朗普推动的白宫宴会厅建设计划再次引发争议。尽管特朗普政府多次强调白宫宴...
缅甸总统参观宇树科技 6月19日端午节,缅甸总统敏昂莱一行到访宇树科技参观,交流最新机器人产品和技术成果。宇树期待和全球更...
日本防相:“堤丰”导弹系统不会... 据凤凰卫视报道,日本防卫大臣小泉进次郎6月19日表示,配合本月22日起举行的“勇敢之盾2026”军演...
滑翔机与风筝线剐蹭发生坠落,致... 6月18日,重庆南岸区应急局发布《南岸峡口重庆天盟航空体育运动俱乐部有限 公司“4·4”一般坠落事故...
订单口碑双丰收!看银基广场凭啥... 6月12日,2026大湾区(广州)国际服装及时尚生活展览会正式落下帷幕。作为展会联合主办方,郑州银基...